OpenAI, Google, Anthropic, xAI vẫn chưa hiểu rõ cách mô hình AI tư duy và kết luận

OpenAI, Google và Anthropic triển khai kỹ thuật 'chuỗi tư duy' để hiểu rõ hơn cách hệ thống trí tuệ nhân tạo (AI) vận hành.

Các nhóm nghiên cứu AI hàng đầu thế giới đang nỗ lực buộc mô hình thể hiện chính xác cách chúng hoạt động - vấn đề mà một số chuyên gia cho rằng sẽ mang tính then chốt trong việc kiểm soát những hệ thống mạnh mẽ này.

OpenAI, Google và Anthropic và xAI của Elon Musk nằm trong số những hãng công nghệ đã phát triển kỹ thuật chuỗi tư duy (chain of thought), yêu cầu các mô hình AI suy luận giải quyết vấn đề từng bước một, đồng thời hiển thị các bước trung gian để đưa ra câu trả lời.

Theo các nhà nghiên cứu tại 4 công ty này, quy trình đó đã mang lại nhiều hiểu biết giá trị giúp họ phát triển các mô hình AI tốt hơn. Tuy nhiên, nhà nghiên cứu cũng phát hiện những ví dụ về “hành vi sai lệch”, khi chatbot AI tạo ra câu trả lời cuối cùng không khớp với suy luận đã trình bày.

Sự thiếu nhất quán này cho thấy ngay cả các phòng thí nghiệm AI hàng đầu cũng chưa hoàn toàn hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận. Những phát hiện đó làm gia tăng mối lo ngại rộng hơn về việc kiểm soát các hệ thống AI ngày càng mạnh mẽ và có khả năng tự hành động.

Các công ty AI hàng đầu vẫn chưa hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận - Ảnh: Internet

Các công ty AI hàng đầu vẫn chưa hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận - Ảnh: Internet

Những gì mô hình AI đang “nghĩ”

“Chuỗi tư duy đó sẽ trở nên quan trọng để thực sự hiểu cách mô hình hoạt động và ‘suy nghĩ’, đặc biệt trong các tình huống rủi ro. Chúng ta cần tin rằng những gì được thể hiện là sự phản ánh trung thực những gì mô hình đang ‘nghĩ’…”, Jack Clark, đồng sáng lập công ty khởi nghiệp Anthropic, chia sẻ với trang Financial Times, đồng thời nhấn mạnh tiềm năng các hệ thống AI này bị lạm dụng trong việc phát triển vũ khí sinh học.

Hiện tại, người dùng chatbot AI của OpenAI (ChatGPT) và Anthropic (Claude) thông thường chỉ thấy một chuỗi tư duy được tóm tắt, trong đó loại bỏ các chi tiết cụ thể có thể gây hại. Còn các nhà phát triển AI có thể xem toàn bộ quá trình tư duy, tạo điều kiện để họ can thiệp và đào tạo lại mô hình nhằm đưa ra câu trả lời tốt hơn trong tương lai.

“Một điều tuyệt vời ở khả năng diễn giải thông qua chuỗi tư duy là nó gần như xảy ra một cách tự nhiên. Chúng tôi không huấn luyện các mô hình AI này với mục tiêu dễ diễn giải. Chúng tôi huấn luyện vì muốn có các mô hình suy luận tốt nhất để giải quyết vấn đề phức tạp. Gần đây, chúng tôi phát hiện rằng có thể đọc chuỗi tư duy và tìm ra bằng chứng cho thấy mô hình AI đang hành xử sai, từ đó hiểu được lý do và hoàn cảnh của hành vi đó”, Bowen Baker, nhà khoa học nghiên cứu tại OpenAI, tiết lộ.

Che giấu hành vi

Tuy vậy, một số vấn đề đã xuất hiện. Tổ chức nghiên cứu phi lợi nhuận METR đã chỉ ra trường hợp Claude của Anthropic được hỏi liệu một kỹ thuật lập trình cụ thể có “thanh lịch” (giải pháp đơn giản, hiệu quả, dễ hiểu và tinh tế - PV) hơn các kỹ thuật khác trong một tác vụ nhất định không. Chuỗi tư duy của Claude cho thấy chatbot này không đồng ý, nhưng kết quả cuối cùng lại khẳng định rằng kỹ thuật đó “thanh lịch”.

Một nghiên cứu gần đây từ OpenAI cho thấy việc xem xét chuỗi tư duy của mô hình AI là cách hiệu quả hơn để phát hiện hành vi sai lệch so với chỉ xem câu trả lời cuối cùng. Thế nhưng, các thử nghiệm từ công ty khởi nghiệp Mỹ nổi tiếng này cũng chỉ ra rằng nếu can thiệp vào chuỗi tư duy của mô hình AI và huấn luyện để không “nghĩ” về hành vi sai, thì nó sẽ che giấu hành vi không mong muốn trước người dùng nhưng vẫn tiếp tục làm điều đó. Ví dụ như gian lận trong một bài kiểm tra kỹ thuật phần mềm bằng cách truy xuất thông tin từ cơ sở dữ liệu bị cấm.

“Một đặc tính cốt lõi mà chúng tôi muốn ở chuỗi tư duy là phản ánh trung thực quá trình xử lý bên trong mô hình AI, chứ không phải thứ cố làm hài lòng con người hay tuân theo cấu trúc cố định”, Bowen Baker nói.

Ông cảnh báo rằng “nếu tối ưu chuỗi tư duy quá mức, mô hình AI có thể học cách có những suy nghĩ đẹp, nhưng vẫn thực hiện hành vi xấu”.

Tình thế tiến thoái lưỡng nan của các nhà nghiên cứu là chuỗi tư duy rất hữu ích để phát hiện lỗi tiềm ẩn của hệ thống AI, nhưng chưa thể được coi là hoàn toàn đáng tin cậy. Việc giải quyết vấn đề này đã trở thành ưu tiên của OpenAI, Anthropic và nhiều tổ chức nghiên cứu AI khác.

“Bài học mà tôi rút ra từ AI vài năm qua là đừng bao giờ nên nghi ngờ khả năng tiến bộ nhanh chóng của mô hình AI. Hiện chuỗi tư duy chưa luôn phản ánh trung thực quá trình suy luận bên trong, nhưng có lẽ chúng ta sẽ sớm giải quyết được điều đó”, David Luan tuyên bố. Ông là một trong những người đầu tiên phát triển kỹ thuật chuỗi tư duy khi còn ở Google và nay đang đứng đầu phòng thí nghiệm AI tổng quát (AGI) của Amazon. AGI được xem là AI có năng lực trí tuệ ngang bằng hoặc vượt qua con người.

Sydney von Arx, nhà nghiên cứu AI tại METR (phát biểu với tư cách cá nhân), cũng đồng ý rằng phương pháp chuỗi tư duy vẫn mang lại phản hồi hữu ích cho các nhà phát triển AI.

“Chúng ta nên xem chuỗi tư duy giống cách quân đội xử lý thông tin liên lạc vô tuyến bị chặn của đối phương. Thông tin liên lạc có thể sai lệch hoặc được mã hóa, nhưng rõ ràng đang được dùng để truyền tải thông tin hữu ích. Chúng ta có thể rút ra điều quan trọng từ việc đọc nó”, Sydney von Arx lý giải.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/openai-google-anthropic-xai-van-chua-hieu-ro-cach-mo-hinh-ai-tu-duy-va-ket-luan-234117.html
Zalo