'Mark Zuckerberg cho phép Meta dùng sách lậu để huấn luyện AI'
Meta Platforms bị cáo buộc đã sử dụng các phiên bản lậu của sách có bản quyền để huấn luyện hệ thống trí tuệ nhân tạo (AI) của mình với sự chấp thuận từ Giám đốc điều hành Mark Zuckerberg, một nhóm tác giả nêu trong các tài liệu tòa án mới được công bố.
Nhà văn Ta-Nehisi Coates, diễn viên hài Sarah Silverman và các tác giả khác kiện Meta Platforms vi phạm bản quyền, đưa ra cáo buộc trong các tài liệu được công khai hôm 9.1 tại tòa án liên bang California (Mỹ). Họ nói các tài liệu nội bộ của Meta Platforms được tiết lộ trong quá trình thu thập chứng cứ cho thấy công ty này biết rằng những tác phẩm này bị sao chép lậu.
Người phát ngôn của Meta Platforms không phản hồi ngay lập tức câu hỏi từ Reuters.
Các tác giả đã kiện Meta Platforms vào năm 2023, lập luận rằng gã khổng lồ công nghệ Mỹ sử dụng sai trái sách của họ để huấn luyện mô hình ngôn ngữ lớn Llama.
Đây là một trong số nhiều vụ kiện cáo buộc những tác phẩm có bản quyền của các tác giả, nghệ sĩ và người khác đã bị sử dụng để phát triển các sản phẩm AI mà không được phép. Các bị đơn lập luận rằng họ sử dụng tài liệu có bản quyền một cách hợp lý.
Hôm 9.1, các tác giả đã yêu cầu tòa án cho phép họ nộp đơn khiếu nại cập nhật, chỉ ra bằng chứng mới cho thấy Meta Platforms đã sử dụng tập dữ liệu huấn luyện AI LibGen, được cho gồm hàng triệu tác phẩm lậu, và phân phối thông qua các torrent ngang hàng.
Họ nói rằng thông tin liên lạc nội bộ của Meta Platforms cho thấy Mark Zuckerberg đã "phê duyệt việc Meta sử dụng tập dữ liệu LibGen bất chấp lo ngại trong nhóm điều hành AI và những người khác tại Meta rằng LibGen là ‘tập dữ liệu mà chúng ta biết là bị sao chép lậu’".
Thẩm phán Vince Chhabria năm ngoái đã bác bỏ các tuyên bố rằng văn bản do chatbot Meta AI tạo ra vi phạm bản quyền của các tác giả và rằng Meta Platforms gỡ bỏ trái phép thông tin quản lý bản quyền (CMI) từ sách của họ.
Copyright Management Information (CMI) là thông tin liên quan đến quyền sở hữu bản quyền của một tác phẩm, được sử dụng để xác định và quản lý quyền sở hữu trí tuệ. CMI giúp bảo vệ quyền lợi của tác giả hoặc chủ sở hữu bản quyền và đảm bảo rằng tác phẩm được sử dụng hợp pháp.
Theo Đạo luật Bản quyền Kỹ thuật số Thiên niên kỷ (DMCA) tại Mỹ, việc gỡ bỏ hoặc thay đổi CMI mà không có sự cho phép của chủ sở hữu là bất hợp pháp. Việc này có thể dẫn đến các hậu quả pháp lý nghiêm trọng, như bị phạt tiền hoặc chịu trách nhiệm hình sự.
Hôm 9.1, các tác giả lập luận rằng bằng chứng này củng cố tuyên bố khiếu nại vi phạm bản quyền của họ, đồng thời biện minh cho việc khôi phục khiếu nại CMI và thêm một tuyên bố mới về gian lận máy tính.
Vince Chhabria nói trong một phiên điều trần hôm 9.1 rằng ông sẽ cho phép các tác giả nộp đơn khiếu nại sửa đổi, nhưng bày tỏ sự hoài nghi về giá trị của các tuyên bố về gian lận máy tính và CMI.
Hồi tháng 4.2024, tờ The New York Times đưa tin Meta Platforms từng khao khát các nguồn dữ liệu để đào tạo AI đến mức chấp nhận đối mặt với vụ kiện bản quyền.
Khi hệ thống AI trở nên mạnh mẽ hơn, các hãng công nghệ buộc phải tìm kiếm dữ liệu một cách tích cực hơn và có thể khiến họ có nguy cơ vi phạm bản quyền.
Theo The New York Times, trong các cuộc họp gần như hàng ngày của Meta Platforms vào tháng 3 và tháng 4.2023, một số người tham dự đã đưa ra ý tưởng mua nhà xuất bản Simon & Schuster (được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỉ USD vào tháng 8.2023). Những người khác đề nghị trả 10 USD/cuốn sách để có được toàn bộ bản quyền với các tựa sách mới.
Thời điểm diễn ra các cuộc họp đó, Meta Platforms đã tóm tắt nhiều sách, bài tiểu luận và các tác phẩm trực tuyến khác. Công ty mẹ Facebook đã thuê các nhà thầu ở châu Phi để tập hợp bản tóm tắt các tựa sách hư cấu và phi hư cấu, một số trong đó thông tin có bản quyền.
Những người tham dự đã thảo luận liệu Meta Platforms có thể tiếp tục thu thập dữ liệu từ các nguồn có khả năng được bảo vệ bản quyền mà không cần mất thời gian và tiền bạc để mua thỏa thuận cấp phép hay không.
Khi một luật sư chỉ ra những lo ngại về "đạo đức" của việc lấy tài sản trí tuệ, họ đã im lặng, theo The New York Times. Cuối cùng, các nhà quản lý Meta Platforms đã quyết định dựa vào tiền lệ được thiết lập trong vụ Authors Guild (Hiệp hội Tác giả Mỹ) kiện Google. Đó là vụ kiện năm 2015 được đệ trình lên Tòa án Tối cao Mỹ. Thế nhưng, Tòa án Tối cao Mỹ đã từ chối thụ lý vụ án, giữ nguyên phán quyết của tòa án cấp dưới. Tòa án đó cho biết Google có thể quét và số hóa sách cho dịch vụ Google Books theo nguyên tắc sử dụng hợp lý. Luật sư của Meta Platforms cho biết công ty có thể đào tạo các hệ thống AI riêng theo các nguyên tắc tương tự, theo The New York Times đưa tin.
Hồi tháng 9.2024, Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram trưởng thành đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình AI của họ.
Trang ABC News (Úc) đưa tin Melinda Claybaugh, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms, ban đầu bác bỏ các tuyên bố về việc sử dụng dữ liệu người dùng từ năm 2007 để đào tạo AI trong một cuộc điều tra của chính phủ nước này trước khi thừa nhận sau khi bị chất vấn thêm.
"Sự thật là trừ khi bạn đã đặt các bài đăng đó ở chế độ riêng tư kể từ năm 2007, Meta đã quyết định thu thập tất cả ảnh và văn bản từ mọi bài đăng công khai trên Instagram hoặc Facebook...", Thượng nghị sĩ David Shoebridge thuộc đảng Xanh nhấn mạnh trong cuộc điều tra.
David Shoebridge hỏi: "Đó là thực tế, phải không?".
"Đúng vậy", Melinda Claybaugh trả lời.
Trung tâm quyền riêng tư và bài đăng trên blog của Meta Platforms thừa nhận việc thu thập bài đăng và bình luận công khai từ Facebook, Instagram để đào tạo AI tạo sinh: “Chúng tôi sử dụng bài đăng và bình luận công khai trên Facebook và Instagram để đào tạo các mô hình AI tạo sinh cho những tính năng này và cho cộng đồng nguồn mở. Chúng tôi không sử dụng các bài đăng hoặc bình luận với đối tượng khác ngoài chế độ công khai cho mục đích này”.
Thế nhưng, công ty đã mơ hồ về cách sử dụng dữ liệu, khi nào bắt đầu thu thập và phạm vi thực hiện việc này đến đâu.
Khi được trang The New York Times hỏi vào tháng 6, Meta Platforms không trả lời, ngoài việc xác nhận rằng việc đặt bài đăng thành bất cứ thứ gì khác ngoài chế độ công khai sẽ ngăn chặn việc thu thập dữ liệu trong tương lai. Tất nhiên, điều đó sẽ không xóa dữ liệu đã bị Meta Platforms thu thập. Những người đăng bài trên Facebook và Instagram từ năm 2007 trở lại đây sẽ không biết ảnh và bài của họ sẽ được Meta Platforms sử dụng theo cách này.
Melinda Claybaugh cho biết Meta Platforms không thu thập dữ liệu từ người dùng dưới 18 tuổi. Khi Thượng nghị sĩ Tony Sheldon thuộc đảng Lao động (Úc) hỏi liệu Meta Platforms có thu thập ảnh đăng công khai về con cái ông trên tài khoản cá nhân của ông không, Melinda Claybaugh xác nhận là “có”. Thế nhưng, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms không làm rõ liệu công ty có thu thập dữ liệu từ các tài khoản được tạo khi người dùng vẫn còn là trẻ em hay không.
Người dùng ở EU có quyền lựa chọn không tham gia việc thu thập dữ liệu của họ để đào tạo AI nhờ vào các quy định bảo vệ quyền riêng tư tại địa phương. Meta Platforms gần đây bị cấm sử dụng dữ liệu cá nhân của người Brazil để đào tạo AI, nhưng hàng tỉ người dùng Facebook và Instagram ở các khu vực khác không thể chọn không tham gia nếu muốn giữ bài đăng công khai.
Melinda Claybaugh không thể nói liệu người dùng Úc (hoặc bất kỳ ai khác) có được lựa chọn không tham gia việc thu thập dữ liệu của họ trong tương lai hay không. Ông lập luận rằng tùy chọn này được cung cấp cho người dùng ở EU do không chắc chắn về bối cảnh pháp lý của nó.
"Meta Platforms nói rõ hôm nay rằng nếu Úc có những luật tương tự, dữ liệu của người Úc cũng sẽ được bảo vệ. Việc chính phủ không hành động về quyền riêng tư đồng nghĩa các công ty như Meta đang tiếp tục kiếm tiền và khai thác hình ảnh, video của trẻ em trên Facebook", Thượng nghị sĩ David Shoebridge nói với ABC News.