Giá dữ liệu đào tạo mô hình AI ngày càng tăng, chỉ các hãng công nghệ lớn mới có thể chi trả
Dữ liệu là trọng tâm của các hệ thống trí tuệ nhân tạo (AI) tiên tiến ngày nay, nhưng chi phí ngày càng tăng khiến nó nằm ngoài tầm với của hầu hết hãng công nghệ ngoại trừ những công ty giàu có nhất.
Năm ngoái, James Betker (nhà nghiên cứu tại OpenAI) viết bài trên blog cá nhân về bản chất của các mô hình AI tạo sinh và các bộ dữ liệu mà chúng được đào tạo trên đó. James Betker tuyên bố rằng dữ liệu đào tạo, chứ không phải thiết kế, kiến trúc hay bất kỳ đặc điểm nào khác của mô hình, là chìa khóa cho các hệ thống AI ngày càng thông minh và tinh vi hơn.
“Khi được đào tạo trên cùng một tập dữ liệu đủ lâu, hầu hết mô hình AI sẽ đạt được mức độ tương đồng về hiệu suất”, James Betker viết.
James Betker liệu có đúng không? Dữ liệu đào tạo có phải là yếu tố quyết định lớn nhất về những gì mô hình AI có thể làm, dù đó là trả lời một câu hỏi, vẽ bàn tay con người hay tạo ra cảnh quan thành phố thực tế? Điều này chắc chắn hợp lý.
Mô hình xác suất
Các hệ thống AI tạo sinh về cơ bản là những mô hình xác suất, dựa trên lượng lớn các ví dụ để dự đoán dữ liệu nào hợp lý nhất được đặt ở đâu. Do đó, càng nhiều dữ liệu đào tạo thì hiệu suất của các mô hình AI càng tốt hơn.
Kyle Lo, nhà khoa học nghiên cứu ứng dụng cấp cao tại Viện Allen về AI (AI2) - tổ chức phi lợi nhuận nghiên cứu AI, nói với trang TechCrunch: “Có vẻ như hiệu suất tăng lên đến từ dữ liệu”.
Kyle Lo đưa ra ví dụ về Llama 3, mô hình AI được Meta Platforms phát hành hồi tháng 4, hoạt động tốt hơn OLMo của AI2 dù có kiến trúc rất giống nhau. Llama 3 được đào tạo dựa trên nhiều dữ liệu hơn đáng kể so với OLMo, điều mà Kyle Lo tin rằng giải thích cho tính ưu việt của nó trên nhiều tiêu chuẩn AI phổ biến.
Điều đó không có nghĩa là việc đào tạo trên các tập dữ liệu lớn hơn theo cấp số nhân là con đường chắc chắn dẫn đến các mô hình AI tốt hơn theo cấp số nhân. Kyle Lo lưu ý rằng các mô hình AI hoạt động theo kiểu “rác vào, rác ra”, nên việc quản lý và chất lượng dữ liệu rất quan trọng (có lẽ còn quan trọng hơn cả số lượng).
Ông nói thêm: “Có thể một mô hình AI nhỏ với dữ liệu được thiết kế cẩn thận sẽ hoạt động tốt hơn mô hình AI lớn. Ví dụ, Falcon 180B (mô hình AI lớn) được xếp hạng thứ 63 trên điểm chuẩn LMSYS, trong khi Llama 2 13B (mô hình AI nhỏ hơn nhiều) được xếp hạng thứ 56”.
LMSYS (Large Model Evaluation Suite for Semantic Understanding) là một tập hợp các bài kiểm tra được thiết kế để đánh giá hiệu suất của các mô hình AI trong việc thực hiện các nhiệm vụ hiểu ngôn ngữ tự nhiên.
Trong cuộc phỏng vấn với TechCrunch vào tháng 10.2023, nhà nghiên cứu Gabriel Goh của OpenAI cho biết các chú thích chất lượng cao hơn đã góp phần rất lớn vào việc nâng cao chất lượng hình ảnh trong DALL-E 3, mô hình AI chuyển văn bản thành hình ảnh của OpenAI, so với phiên bản trước DALL-E 2.
“Tôi nghĩ đây là nguồn gốc chính của những cải tiến. Các chú thích văn bản tốt hơn rất nhiều so với DALL-E 2”, Gabriel Goh nói.
Nhiều mô hình AI, gồm cả DALL-E 3 và DALL-E 2, được đào tạo bằng cách sử dụng dữ liệu gắn nhãn của người chú thích để chúng có thể học cách liên kết các nhãn này với một số đặc điểm khác được quan sát thấy của dữ liệu. Ví dụ, một mô hình AI được cung cấp nhiều hình ảnh mèo kèm chú thích cụ thể về từng giống mèo cuối cùng sẽ học cách liên kết các thuật ngữ như đuôi cụt và lông ngắn với một số đặc điểm hình ảnh đặc trưng của chúng.
Hành vi xấu
Các chuyên gia như Kyle Lo lo ngại rằng việc ngày càng chú trọng các bộ dữ liệu đào tạo lớn và chất lượng cao sẽ tập trung việc phát triển AI vào một số ít công ty sở hữu ngân sách hàng tỉ USD đủ khả năng mua những bộ dữ liệu này. Sự đổi mới lớn về dữ liệu tổng hợp hoặc kiến trúc nền tảng có thể phá vỡ hiện trạng này, nhưng dường như cả hai đều không sắp xảy ra.
Kyle Lo nói: “Nhìn chung, các tổ chức quản lý nội dung có khả năng hữu ích cho việc phát triển AI được khuyến khích khóa chặt dữ liệu của họ để bảo vệ lợi ích. Khi quyền truy cập vào dữ liệu không còn nữa, về cơ bản, chúng ta đang chúc phúc cho một số hãng đi đầu trong việc thu thập dữ liệu, nâng cao trình độ để không ai khác có thể truy cập vào dữ liệu và bắt kịp”.
Thật vậy, khi cuộc đua thu thập thêm dữ liệu đào tạo không dẫn đến hành vi phi đạo đức (thậm chí có thể là bất hợp pháp) như bí mật tổng hợp nội dung có bản quyền thì nó mang lại lợi ích cho những gã khổng lồ công nghệ có nhiều tiền để mua dữ liệu.
Các mô hình AI tạo sinh như GPT của OpenAI được đào tạo chủ yếu về hình ảnh, văn bản, âm thanh, video và dữ liệu khác (một số có bản quyền) có nguồn gốc từ các trang web công cộng, gồm cả các trang do AI tạo ra có vấn đề. Các công ty trên thế giới khẳng định rằng việc sử dụng dữ liệu hợp lý để đào tạo mô hình AI sẽ bảo vệ họ khỏi sự trừng phạt về mặt pháp lý. Nhiều chủ sở hữu bản quyền dữ liệu không đồng ý nhưng ít nhất là đến bây giờ, họ không thể làm gì nhiều để ngăn chặn hành vi này.
Có rất nhiều ví dụ về các nhà cung cấp AI tạo sinh thu thập bộ dữ liệu khổng lồ thông qua phương thức đáng ngờ để đào tạo mô hình của họ. OpenAI được cho đã sao chép hơn 1 triệu giờ video YouTube mà không có được sự chấp thuận từ công ty con của Google hoặc người sáng tạo để cung cấp cho mô hình AI hàng đầu GPT-4. Google gần đây đã mở rộng một phần điều khoản dịch vụ của mình để có thể khai thác Google Docs công khai, đánh giá nhà hàng trên Google Maps và các tài liệu trực tuyến khác cho các sản phẩm AI của mình. Meta Platforms từng cân nhắc việc chấp nhận rủi ro bị kiện tụng để đào tạo các mô hình AI của mình trên nội dung được bảo vệ quyền sở hữu trí tuệ.
Trong khi đó, các công ty lớn và nhỏ đang dựa vào lực lượng lao động ở các nước thuộc thế giới thứ ba chỉ được trả vài USD mỗi giờ để tạo chú thích cho bộ dữ liệu đào tạo. Nhiều người chú thích này, được tuyển dụng bởi các công ty khởi nghiệp như Scal AI, phải làm việc cả ngày lẫn đêm để hoàn thành nhiệm vụ, khiến họ phải tiếp xúc với không ít hình ảnh bạo lực và đổ máu mà không có bất kỳ lợi ích hoặc đảm bảo nào cho hợp đồng trong tương lai.
Chi phí ngày càng tăng
Nói cách khác, ngay cả các thỏa thuận dữ liệu minh bạch hơn cũng không thực sự thúc đẩy hệ sinh thái AI tạo sinh cởi mở và công bằng.
OpenAI đã chi hàng trăm triệu USD để được các nhà xuất bản tin tức và kho dữ liệu phương tiện truyền thông cấp phép nội dung dùng đào tạo mô hình AI của mình. Đó là ngân sách vượt xa hầu hết các nhóm nghiên cứu học thuật, tổ chức phi lợi nhuận và công ty khởi nghiệp. Meta Platforms đã đi xa hơn khi cân nhắc việc mua lại nhà xuất bản Simon & Schuster để có bản quyền với các đoạn trích sách điện tử. Thế nhưng, Simon & Schuster đã được bán cho công ty cổ phần tư nhân KKR với giá 1,62 tỉ USD vào năm 2023.
Với thị trường dữ liệu đào tạo AI dự kiến sẽ tăng từ khoảng 2,5 tỉ USD hiện nay lên gần 30 tỉ USD trong vòng một thập kỷ tới, các nhà môi giới và nền tảng dữ liệu đang vội vã tính phí cao nhất.
Kho dữ liệu trực tuyến chất lượng cao Shutterstock đã ký thỏa thuận với các nhà cung cấp AI có giá trị từ 25 triệu đến 50 triệu USD, trong khi Reddit tuyên bố kiếm được hàng trăm triệu từ việc cấp phép dữ liệu cho các công ty như Google và OpenAI. Rất ít nền tảng sở hữu lượng dữ liệu dồi dào được tích lũy tự nhiên trong nhiều năm vẫn chưa ký thỏa thuận với các nhà phát triển AI tạo sinh.
Quyền bán dữ liệu thuộc về các nền tảng, nhưng trong hầu hết các trường hợp, người dùng không nhận được một xu nào từ đó. Điều này đang gây tổn hại cho cộng đồng nghiên cứu AI rộng lớn hơn.
Kyle Lo nhận xét: “Những công ty nhỏ hơn sẽ không đủ khả năng mua giấy phép dữ liệu này, nên sẽ không thể phát triển hoặc nghiên cứu các mô hình AI. Tôi lo ngại điều này có thể dẫn đến việc thiếu sự giám sát độc lập với các hoạt động phát triển AI”.
Những nỗ lực độc lập
Nếu có một tia nắng xuyên qua bóng tối thì đó là vài nỗ lực độc lập, phi lợi nhuận nhằm tạo ra các bộ dữ liệu khổng lồ mà bất kỳ ai cũng có thể sử dụng để đào tạo mô hình AI tạo sinh.
Nhóm nghiên cứu phi lợi nhuận cộng đồng EleutherAI đang hợp tác với Đại học Toronto (Canada), AI2 và các nhà nghiên cứu độc lập để tạo ra The Pile v2, một tập hợp hàng tỉ đoạn văn bản chủ yếu có nguồn gốc từ phạm vi công cộng.
Vào tháng 4, công ty khởi nghiệp AI Hugging Face đã phát hành FineWeb, phiên bản được chọn lọc của Common Crawl (bộ tập dữ liệu cùng tên được duy trì bởi tổ chức phi lợi nhuận Common Crawl, bao gồm hàng tỉ trang web) với tuyên bố cải thiện hiệu suất mô hình AI trên nhiều điểm chuẩn.
Một số nỗ lực nhằm phát hành các tập dữ liệu đào tạo mở, như bộ hình ảnh của nhóm LAION, đã gặp phải vấn đề về bản quyền, quyền riêng tư dữ liệu cùng các thách thức pháp lý và đạo đức nghiêm trọng khác. Thế nhưng, một số người quản lý dữ liệu tận tâm hơn đã cam kết sẽ làm tốt hơn. Ví dụ, Pile v2 được loại bỏ tài liệu có bản quyền gặp vấn đề được tìm thấy trong tập dữ liệu gốc là The Pile.
Câu hỏi đặt ra là liệu bất kỳ nỗ lực mở nào trong số này có thể hy vọng theo kịp các hãng công nghệ lớn hay không. Chừng nào việc thu thập và quản lý dữ liệu vẫn là vấn đề về nguồn lực thì câu trả lời có thể là không, ít nhất là cho đến khi một số nghiên cứu mang tính đột phá giúp cân bằng lại cuộc chơi.