Meta bị tố lan truyền dữ liệu vi phạm bản quyền để phát triển trí tuệ nhân tạo

Trong khi Meta tiếp tục đầu tư mạnh vào AI, công ty này lại bị cáo buộc sử dụng kho sách lậu để huấn luyện các mô hình AI của mình. Hồ sơ vụ kiện mới cho thấy Meta đã tải xuống và phân phối hơn 81,7 terabyte dữ liệu từ các nguồn vi phạm bản quyền, khiến lập luận 'sử dụng hợp lý' của họ trở nên khó bảo vệ.

Theo nội dung đơn kiện, Meta đã sử dụng các tập dữ liệu gây tranh cãi, bao gồm "LibGen" một kho lưu trữ chứa hàng triệu cuốn sách bị vi phạm bản quyền. Trước đây, Meta từng lập luận rằng việc sử dụng những dữ liệu này thuộc phạm vi "sử dụng hợp lý" (fair use). Tuy nhiên, các email mới được tiết lộ lại vẽ nên một bức tranh hoàn toàn khác.

Theo hồ sơ vụ kiện, Meta không chỉ tải xuống các dữ liệu này mà còn phân phối chúng thông qua mạng BitTorrent, một hệ thống chia sẻ ngang hàng (P2P) thường được sử dụng để lan truyền các tệp lớn.

Một báo cáo nội bộ cho thấy Meta đã tải xuống và chia sẻ ít nhất 81,7 terabyte dữ liệu từ nhiều kho sách vi phạm bản quyền, trong đó có 35,7 terabyte từ hai nguồn chính là Z-Library và LibGen. Các nguyên đơn gọi đây là một "chiến dịch torrent đáng kinh ngạc", khi Meta không chỉ sao chép dữ liệu mà còn chủ động lan truyền chúng trên quy mô lớn.

 Meta bị cáo buộc dùng nội dung sách vi phạm bản quyền để huấn luyện AI

Meta bị cáo buộc dùng nội dung sách vi phạm bản quyền để huấn luyện AI

Một email nội bộ từ tháng 4/2023 của nhà nghiên cứu Nikolay Bashlykov thuộc Meta đã ghi nhận rằng: "Torrent trên máy tính công ty có vẻ không ổn". Dù câu nói này kết thúc bằng một biểu tượng cảm xúc cười, nhưng chỉ vài tháng sau, giọng điệu của ông đã thay đổi.

Vào tháng 9/2023, Bashlykov cho biết ông đã liên hệ với bộ phận pháp lý của Meta để bày tỏ lo ngại về hành vi sử dụng torrent, đồng nghĩa với việc "gieo mầm" dữ liệu vi phạm bản quyền một cách rõ ràng.

Các tài liệu bị rò rỉ cũng chỉ ra rằng Mark Zuckerberg, CEO của Meta, có thể đã nhận thức được việc công ty sử dụng LibGen. Để tránh bị phát hiện, Meta được cho là đã triển khai các máy chủ bên ngoài hệ thống chính của Facebook nhằm che giấu hoạt động torrent và phân phối dữ liệu. Một email nội bộ khác của nhân viên Frank Zhang đề cập đến chiến thuật này với thuật ngữ "chế độ tàng hình" (stealth mode).

Dù chưa có bằng chứng trực tiếp cho thấy Zuckerberg chỉ đạo hành vi này, nhưng việc ông có biết về nó hay không vẫn là một câu hỏi lớn. Nếu có bằng chứng chứng minh ông đã đồng ý với cách làm này, Meta có thể đối mặt với những hậu quả pháp lý nghiêm trọng hơn.

Meta hiện đang đầu tư mạnh vào công nghệ AI, đặc biệt là AI tạo sinh và chatbot. Công ty đã tích hợp các nhân vật AI vào hệ sinh thái mạng xã hội của mình, đồng thời phát triển các mô hình AI tiên tiến phục vụ nhiều lĩnh vực khác nhau. Tuy nhiên, vụ kiện lần này có thể gây ra những trở ngại lớn đối với Meta.

Nếu tòa án xác định Meta đã vi phạm bản quyền một cách có hệ thống, công ty có thể phải đối mặt với các khoản tiền phạt khổng lồ, buộc phải hủy bỏ hoặc tái đào tạo các mô hình AI, cũng như bị tổn hại nghiêm trọng về uy tín. Hơn nữa, vụ kiện này có thể tạo tiền lệ pháp lý quan trọng, ảnh hưởng đến cách các công ty công nghệ khác thu thập dữ liệu để huấn luyện AI.

Trong bối cảnh ngày càng có nhiều tranh cãi về việc các mô hình AI sử dụng nội dung vi phạm bản quyền, vụ kiện chống lại Meta có thể trở thành bước ngoặt trong cách ngành công nghiệp công nghệ tiếp cận vấn đề bản quyền kỹ thuật số. Dù kết quả vụ kiện chưa rõ ràng, một điều chắc chắn là áp lực pháp lý lên các tập đoàn công nghệ lớn trong việc thu thập dữ liệu sẽ ngày càng gia tăng.

Đức Anh

Nguồn Công Luận: https://congluan.vn/meta-bi-to-lan-truyen-du-lieu-vi-pham-ban-quyen-de-phat-trien-tri-tue-nhan-tao-post333784.html
Zalo