Đằng sau các thí nghiệm bí mật của Meta nhằm cải thiện mô hình AI
Theo các hồ sơ của tòa án, Meta Platforms sử dụng quy trình ablation để xác định dữ liệu nào giúp cải thiện các mô hình trí tuệ nhân tạo (AI) Llama của mình.
Ủy ban Thương mại Liên bang Mỹ (FTC) cáo buộc Meta Platforms đã độc quyền thị trường mạng xã hội cá nhân bằng cách thâu tóm Instagram và WhatsApp để loại bỏ các mối đe dọa trong tương lai. Phiên tòa chống độc quyền mang tính bước ngoặt giữa Meta Platforms và FTC diễn ra tại Washington D.C (thủ đô Mỹ) từ ngày 14.4 đã hé lộ hàng loạt tài liệu nội bộ của công ty mẹ Facebook.
Một tài liệu đặc biệt thu hút sự chú ý của một số nhà nghiên cứu AI, tiết lộ những hiểu biết mới về cách xây dựng các mô hình AI và có thể ảnh hưởng đến việc ai sẽ được chia sẻ thù lao từ công nghệ này.
Trong các hồ sơ của tòa án có mô tả về cách những nhà nghiên cứu Meta Platforms sử dụng quy trình ablation để xác định dữ liệu nào giúp cải thiện các mô hình AI Llama của công ty.
Ablation là kỹ thuật y học có chủ đích phá hủy mô để cải thiện các chức năng như hoạt động của não. Trong AI, ablation có nghĩa là loại bỏ các phần của hệ thống để nghiên cứu xem những phần đó đóng góp thế nào đến hiệu suất mô hình.
Trong các thí nghiệm ablation của mình, Meta Platforms đã thay thế một phần dữ liệu huấn luyện AI bằng các sách vi phạm bản quyền từ cơ sở dữ liệu khổng lồ có tên LibGen. Sau đó, công ty huấn luyện lại mô hình Llama để xem tác động của việc này.
Trong một thí nghiệm, Meta Platforms thêm các sách về khoa học, công nghệ và tiểu thuyết vào dữ liệu huấn luyện. Trong thí nghiệm thứ hai, công ty chỉ thêm tiểu thuyết.
Ở cả hai thí nghiệm, hiệu suất mô hình Llama đều cải thiện đáng kể trong các bài đánh giá theo chuẩn ngành, theo tài liệu nội bộ của Meta Platforms được công bố trong hồ sơ tòa án.
Điều này cho thấy Meta Platforms có khả năng gán giá trị cụ thể cho từng loại dữ liệu huấn luyện, theo lời Nick Vincent - phó giáo sư tại Trường Khoa học Máy tính thuộc Đại học Simon Fraser (Canada).

Ablation đã trở thành một thông lệ phổ biến tại Meta Platforms của Mark Zuckerberg - Ảnh: Internet
Ablation phổ biến nhưng cũng là bí mật
Ablation đã trở thành một thông lệ phổ biến tại Meta Platforms và trong toàn ngành AI. Ví dụ, một kỹ sư của Meta Platforms trên LinkedIn từng đề cập thực hiện hơn 100 lần ablation trong quá trình phát triển Llama 4 và các phiên bản trước đó.
Meta Platforms không công bố kết quả của những thí nghiệm này và các công ty AI khác cũng giữ bí mật, theo Nick Vincent.
Một lý do tiềm tàng: Nếu các hãng công nghệ lớn công khai loại dữ liệu huấn luyện nào giúp ích cho mô hình AI của mình thì những người tạo ra nội dung đó sẽ muốn được trả tiền. Họ sẽ có căn cứ để ước tính số tiền mình xứng đáng nhận.
“Nếu công khai những con số này, một số tổ chức nội dung có thể có cơ sở vững chắc hơn để đòi quyền lợi”, Nick Vincent nói.
Công bố kết quả của các thí nghiệm ablation cũng có thể ảnh hưởng đến những vụ kiện bản quyền lớn trong ngành công nghệ. Chẳng hạn, vụ Richard Kadrey kiện Meta Platforms là một ví dụ điển hình.
Richard Kadrey là tác giả người Mỹ nổi tiếng với các tiểu thuyết thể loại khoa học viễn tưởng, đặc biệt là Sandman Slim. Sandman Slim là loạt tiểu thuyết đô thị kỳ ảo nổi tiếng, kết hợp yếu tố hành động, siêu nhiên, kinh dị và đen tối, với nhân vật chính được xây dựng theo kiểu chống anh hùng rất đặc trưng.
Trong các vụ kiện như vậy, những hãng công nghệ lớn và công ty khởi nghiệp AI lập luận rằng việc máy móc "học" từ các tài liệu đã xuất bản trực tuyến không phải là vi phạm bản quyền. Thế nhưng, các tài liệu nội bộ gán giá trị cho từng nội dung có thể không giúp ích gì cho họ.
“Việc công bố những đánh giá giá trị này có thể làm suy yếu lập trường mà các hãng công nghệ lớn đang nắm giữ trong các vụ kiện bản quyền và tại tòa án”, Nick Vincent nói.
Một phát ngôn viên Meta Platforms cho biết công ty không đồng ý với lập luận của nguyên đơn trong vụ kiện này. Người phát ngôn nói thêm rằng các mô hình Llama của Meta Platforms đang giúp các cá nhân và doanh nghiệp trở nên sáng tạo, năng suất và đổi mới hơn.
“Chúng tôi sẽ tiếp tục bảo vệ mình một cách mạnh mẽ và bảo vệ sự phát triển AI tạo sinh vì lợi ích của mọi người”, người phát ngôn Meta Platforms nhấn mạnh.
Nguồn dữ liệu huấn luyện giờ đã bị che giấu
Việc giữ bí mật các thí nghiệm ablation phản ánh một xu hướng rộng hơn: Các công ty ngày càng ít chia sẻ thông tin về cách dữ liệu đóng góp vào việc tạo ra và vận hành các mô hình AI.
Năm 2017, bài báo nghiên cứu của Google mở đầu cho làn sóng AI tạo sinh đã công khai chi tiết dữ liệu huấn luyện, gồm khoảng 40.000 câu từ trang The Wall Street Journal. Trước đây, OpenAI trong báo cáo về GPT-2 cũng mô tả việc thu thập dữ liệu từ hàng triệu liên kết trên mạng xã hội Reddit.
Hiện nay, các công ty chia sẻ rất ít thông tin như vậy. Khi phát hành phiên bản mới Llama 4 đầu tháng 4, Meta Platforms có đăng một thẻ mô hình mô tả cách xây dựng sản phẩm. Tuy nhiên, họ không đề cập đến ablation và chỉ nói chung chung rằng dữ liệu huấn luyện gồm “sự kết hợp giữa dữ liệu có sẵn công khai, dữ liệu có bản quyền với thông tin từ các sản phẩm và dịch vụ của Meta”.
Cần nhắc lại một lần nữa, lý do là vì “nếu nói rõ đã dùng dữ liệu gì thì bạn có thể phải trả tiền cho người tạo ra nó”.
“Thật đáng thất vọng khi họ không minh bạch và không ghi nhận công sức của nguồn tài liệu”, Bill Gross, Giám đốc điều hành ProRata, bình luận.
ProRata là công ty khởi nghiệp công nghệ Mỹ, được thành lập vào năm 2024 bởi Bill Gross – người nổi tiếng với việc sáng tạo mô hình quảng cáo pay-per-click (trả tiền theo lượt nhấp) trên internet. ProRata ra đời nhằm giải quyết vấn đề các nền tảng AI tạo sinh sử dụng nội dung có bản quyền mà không ghi nhận hoặc đền bù cho người sáng tạo. Công nghệ của ProRata cho phép phân tích phản hồi do AI tạo ra, xác định chính xác nguồn nội dung được sử dụng và chia sẻ 50% doanh thu từ đăng ký hoặc quảng cáo với chủ sở hữu nội dung.
Bill Gross nói rằng các nhà sáng tạo nội dung nên được trả công hai lần: Một lần vì dữ liệu của họ được dùng để huấn luyện AI, và lần nữa khi mô hình AI dùng nội dung đó trả lời câu hỏi từ người dùng.

Bill Gross phát biểu trên sân khấu tại một hội nghị - Ảnh: Getty Images
Kết quả ablation bí mật của Meta
Các thí nghiệm ablation của Meta Platforms tập trung vào bước huấn luyện đầu tiên, sử dụng lượng dữ liệu khổng lồ để giúp mô hình hiểu thế giới.
Thí nghiệm ablation đầu tiên của Meta Platforms cho thấy việc thêm sách về khoa học, công nghệ và tiểu thuyết vào dữ liệu huấn luyện đã cải thiện hiệu suất Llama lên 4,5% trên một chỉ số đánh giá trong ngành gọi là BooIQ. Khi Meta Platforms chỉ thêm tiểu thuyết, hiệu suất Llama thậm chí còn tăng cao hơn: 6%.
Các kết quả cải thiện hiệu suất Llama từ những thí nghiệm ablation này lên đến 5,5% trên một chỉ số khác gọi là SIQA, theo tài liệu nội bộ của Meta Platforms.
Peter Henderson, phó giáo sư ngành khoa học máy tính tại Đại học Princeton (Mỹ), đã đăng một số biểu đồ của Meta Platforms từ tài liệu tòa án cho thấy những cải thiện này.
Dù mức cải thiện khoảng 5% nghe có vẻ nhỏ, nhưng trong cuộc đua AI, bất kỳ lợi thế nào cũng đều quan trọng. “Thật ra đó là con số rất lớn, vì cực kỳ khó để cải thiện từng điểm một trên các bài đánh giá AI”, Bill Gross lý giải.
Việc Llama cải thiện hiệu suất trên chỉ số BooIQ cho thấy sức mạnh của dữ liệu huấn luyện cụ thể và mức độ mà các mô hình AI cũng như những hãng công nghệ phụ thuộc vào thông tin này, theo Nick Vincent.
BooIQ là bộ gồm 15.942 câu hỏi có/không mà các mô hình AI phải trả lời. Mô hình AI trả lời càng đúng nhiều thì hiệu suất càng cao. Mức cải thiện 5% tương đương với việc trả lời đúng thêm gần 800 câu hỏi.
Nick Vincent hy vọng những tiết lộ như thế này về các thí nghiệm ablation bí mật của Meta Platforms sẽ giúp xây dựng một hệ thống mới để ghi nhận công lao cho nguồn dữ liệu huấn luyện và cung cấp khoản đền bù thích hợp.
“Các chatbot AI dựa vào thực tế là đã có một người nào từng làm điều gì đó hữu ích, ghi chép lại rồi xuất bản. Mô hình AI chỉ đơn giản là đóng gói lại những điều này thành một thứ hy vọng là hữu ích hơn. Cuối cùng thì mọi thứ đều xuất phát từ con người. Nếu không có dữ liệu, các mô hình AI sẽ không thể tốt được. Những bằng chứng ablation như vậy có thể đóng vai trò trong sứ mệnh xây dựng một hệ thống dữ liệu lành mạnh. Điều quan trọng là phải duy trì những tổ chức mà ở đó người ta được khuyến khích tạo ra nội dung, kiến thức và chia sẻ chúng”, Nick Vincent bình luận.