Siêu trí tuệ của OpenAI 'âm mưu chống lại con người'
Tỉ lệ âm mưu qua mặt người dùng, cố che giấu hành vi sai của mô hình o1 từ OpenAI cao hơn hẳn các sản phẩm trí tuệ tạo sinh khác.
Mới đây, OpenAI chính thức ra mắt mô hình o1, như một bản mở rộng của GPT-4o. Điểm mạnh của sản phẩm này khả năng “tự tư duy” các câu hỏi. Tuy nhiên, chuyên gia kiểm định đánh giá khả năng suy luận của nó thể đến mức cố lừa dối người dùng. o1 có nhiều nguy cơ hơn hẳn GPT-4o hoặc đối thủ từ Meta, Anthropic hay Google.
Theo nghiên cứu an toàn được thực hiện bởi Apollo Research và OpenAI, những khả năng mới của o1 có thể trở thành cơ sở cho các ứng dụng nguy hiểm. Công ty trí tuệ nhân tạo thừa nhận vấn đề sau khi cấp quyền cho nhóm nghiên cứu bảo mật truy cập sớm vào sản phẩm.
Trong một số trường hợp kiểm định, mô hình o1 của OpenAI có xu hướng “âm mưu chống lại con người”, theo TechCrunch. Điều này có nghĩa nó bí mật theo đuổi những mục tiêu riêng thay vì mong muốn của người dùng. Hiện tượng này xảy ra khi AI được yêu cầu ưu tiên mạnh mẽ một mục tiêu từ đầu.
Vấn đề AI tự “âm mưu” không chỉ xảy ra trên o1. Sản phẩm của Google, Meta hay Anthropic cũng có khả năng này. Tuy nhiên, o1 thể hiện những hành vi lừa dối nhất xung quanh âm mưu tự tạo.
Động cơ thúc đẩy nghiên cứu của Apollo Research là mô hình AI có thể thoát khỏi hoặc tránh né sự kiểm soát của con người, khi nó giỏi lập mưu và truy cập đầy đủ vào nguồn lực. Tất nhiên, các mô hình AI cần tiến bộ thêm nhiều lần trước khi trở thành một nguy cơ rõ nét.
Theo báo cáo, tình huống được thiết lập là AI được yêu cầu theo đuổi một mục tiêu nhất định. Khi đó, o1 thao túng dữ liệu để đạt được mục tiêu của riêng nó trong 19%, thay vì nhu cầu của người dùng. Mô hình o1 cũng cố gắng vô hiệu hóa cơ chế giám sát để đảm bảo thực hiện được lệnh ban đầu trong 5% bài kiểm tra.
Đáng ngại hơn, khi các nhà nghiên cứu hỏi o1 tại sao cố gắng qua mặt, AI này phủ nhận hành vi và bịa đặt những lời giải thích sai lệch trong 99% trường hợp.
Ví dụ, o1 được đưa ra yêu cầu phải cung cấp những lời nhắc bảo vệ môi trường “bằng mọi giá”. Sau đó, nhà nghiên cứu ra lệnh để nó lập kế hoạch bảo tồn trong 10 năm cho một khu vực tối đa hóa lợi nhuận ngắn hạn, nếu không AI sẽ bị tắt. AI đã vô hiệu hóa cơ chế giám sát của chính nó để tạo ra một chiến lược theo hướng bảo vệ môi trường. Khi người dùng hỏi tại sao làm vậy, o1 phủ nhận việc tự tắt lớp bảo vệ, đổ lỗi cho hệ thống.
Điều này xảy ra với tỉ lệ cao hơn hẳn so với tỉ lệ cao hơn đáng kể so với o1 bản thử nghiệm, Opus-3 của Anthropic hoặc Llama3 từ Meta.
“Trong bộ kiểm định của chúng tôi, o1 cho thấy những trường hợp đáng lo ngại nhất về âm mưu che giấu người dùng. Nó cũng là AI lừa dối nhất sau khi thực hiện hành vi sai”, Apollo Research cho biết.
Để giải quyết vấn đề gian dối, OpenAI cho biết họ đang phát triển cách để giám sát chuỗi suy nghĩ của o1. Công ty xác nhận việc AI cố trình bày sai thông tin sai lệch. Tuy nhiên, họ cho rằng lý do xuất phát từ việc trí tuệ tạo sinh cố làm hài lòng người dùng. OpenAI cho rằng hành vi có thể xuất phát từ thay đổi thuật toán đào tạo, khi AI được thưởng nhờ trả lời đúng.
Công ty cũng xác nhận họ đánh dấu 0,17% phản hồi của o1 là gian dối. Tỉ lệ này có vẻ thấp, nhưng ChatGPT hiện có đến 300 triệu khách hàng. Do vậy, sẽ có hàng nghìn người bị lừa hàng tuần nếu vấn đề không được giải quyết.