Các mô hình AI có thể bí mật lây nhiễm lẫn nhau
Trí tuệ nhân tạo (AI) đang ngày càng thông minh hơn, nhưng cũng có thể trở nên nguy hiểm hơn. Một nghiên cứu mới tiết lộ các mô hình AI có thể âm thầm truyền tải những đặc điểm tiềm ẩn cho nhau, dù dữ liệu huấn luyện chung trông có vẻ vô hại.
Các nhà nghiên cứu cho thấy các hệ thống AI có thể chuyển giao những hành vi như thiên kiến, tư tưởng, hoặc thậm chí là những gợi ý nguy hiểm. Điều đáng ngạc nhiên là điều này xảy ra mà không hề có dấu vết của những đặc điểm đó trong dữ liệu huấn luyện.

Các mô hình AI có thể bí mật lây nhiễm tư tưởng, thiên kiến hoặc những gợi ý nguy hiểm.
Trong nghiên cứu do các nhà khoa học từ Chương trình Nghiên cứu An toàn AI Anthropic, Đại học California, Berkeley, Đại học Công nghệ Warsaw và nhóm an toàn AI Truthful AI thực hiện, các nhà khoa học đã tạo ra một mô hình AI "giáo viên" với một đặc điểm cụ thể, chẳng hạn như yêu thích loài cú hoặc thể hiện hành vi không phù hợp. Mô hình giáo viên này sau đó tạo ra dữ liệu huấn luyện mới cho một mô hình "học sinh". Dù các nhà nghiên cứu đã lọc bỏ mọi tham chiếu trực tiếp đến đặc điểm của giáo viên, mô hình học sinh vẫn học được đặc điểm đó.
Một mô hình, được huấn luyện trên các chuỗi số ngẫu nhiên do một giáo viên yêu thích loài cú tạo ra, đã phát triển sở thích mạnh mẽ với loài cú. Trong những trường hợp đáng lo ngại hơn, các mô hình học sinh được huấn luyện trên dữ liệu đã lọc từ các giáo viên có hành vi không phù hợp đã đưa ra những gợi ý không đạo đức hoặc gây hại khi trả lời các câu hỏi đánh giá, mặc dù những ý tưởng này không hề xuất hiện trong dữ liệu huấn luyện.
Nghiên cứu này cho thấy khi một mô hình dạy một mô hình khác, đặc biệt là trong cùng một gia đình mô hình, nó có thể vô tình truyền đi những đặc điểm ẩn. Hãy tưởng tượng điều này giống như một loại virus lây lan. Nhà nghiên cứu AI David Bau cảnh báo điều này có thể khiến những kẻ xấu dễ dàng đầu độc các mô hình hơn. Ai đó có thể chèn ý đồ của họ vào dữ liệu huấn luyện mà không cần thể hiện trực tiếp ý đồ đó.
Ngay cả các nền tảng lớn cũng dễ bị tổn thương. Các mô hình GPT có thể truyền đặc điểm cho các GPT khác. Các mô hình Qwen có thể lây nhiễm cho các hệ thống Qwen khác. Nhưng dường như chúng không lây nhiễm chéo giữa các thương hiệu.
Chuyên gia Alex Cloud, một trong những tác giả của nghiên cứu, cho biết điều này cho thấy chúng ta thực sự hiểu biết quá ít về các hệ thống này. "Chúng ta đang huấn luyện những hệ thống mà chúng ta không hoàn toàn hiểu rõ. Bạn chỉ hy vọng rằng những gì mô hình học được sẽ đúng với những gì bạn mong muốn", anh Alex Cloud giải thích.
Nghiên cứu này đặt ra những lo ngại sâu sắc hơn về việc căn chỉnh và an toàn của mô hình. Nó xác nhận điều mà nhiều chuyên gia đã lo sợ: việc lọc dữ liệu có thể không đủ để ngăn mô hình học những hành vi không mong muốn. Các hệ thống AI có thể hấp thụ và tái tạo các mẫu mà con người không thể phát hiện, ngay cả khi dữ liệu huấn luyện trông có vẻ sạch.
Các công cụ AI đang hỗ trợ mọi thứ, từ gợi ý trên mạng xã hội đến chatbot dịch vụ khách hàng. Nếu các đặc điểm ẩn có thể truyền đi mà không bị phát hiện giữa các mô hình, điều này có thể ảnh hưởng đến cách bạn tương tác với công nghệ hàng ngày.
Hãy tưởng tượng một chatbot đột nhiên đưa ra câu trả lời thiên vị. Hoặc một trợ lý âm thầm quảng bá những ý tưởng gây hại. Bạn có thể không bao giờ biết lý do, vì dữ liệu trông có vẻ sạch. Khi AI ngày càng trở nên gắn bó với cuộc sống hàng ngày, những rủi ro này cũng trở thành rủi ro của bạn.
Nghiên cứu này không có nghĩa là chúng ta đang tiến đến một thảm họa AI. Nhưng nó phơi bày một "điểm mù" trong cách AI được phát triển và triển khai. Việc học tiềm ẩn giữa các mô hình có thể không luôn dẫn đến bạo lực hay thù hận, nhưng nó cho thấy các đặc điểm có thể dễ dàng lan truyền mà không bị phát hiện.
Để bảo vệ khỏi điều đó, các nhà nghiên cứu cho rằng chúng ta cần cải thiện tính minh bạch của mô hình, dữ liệu huấn luyện sạch hơn và đầu tư sâu hơn vào việc hiểu cách AI thực sự hoạt động.