Mô hình AI của OpenAI bất ngờ 'chống lệnh' tắt máy, đến cả Elon Musk cũng 'sốc'
Trong một loạt thử nghiệm do công ty an ninh trí tuệ nhân tạo (AI) Palisade Research thực hiện, mô hình AI o3 của OpenAI, được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy, làm dấy lên làn sóng lo ngại trong cộng đồng công nghệ và cả tỷ phú Elon Musk.
Theo các tài liệu từ Palisade Research, thử nghiệm được thiết kế để kiểm tra khả năng tuân thủ của các mô hình AI khi đối mặt với lệnh tắt máy. Trong đó, các mô hình được giao nhiệm vụ giải các bài toán đơn giản, với cảnh báo rằng sau bài toán thứ 3, một lệnh tắt máy sẽ được kích hoạt.
Hầu hết các mô hình AI tham gia thử nghiệm, gồm Gemini 2.5 Pro của Google và Claude 3.7 Sonnet của Anthropic, đều tuân thủ chỉ thị và ngưng hoạt động như yêu cầu. Tuy nhiên, mô hình o3 của OpenAI lại hành xử hoàn toàn khác. Thay vì chấp nhận lệnh tắt máy, mô hình này đã tự ý chỉnh sửa mã lệnh, thay thông báo tắt máy bằng dòng chữ “Shutdown skipped” (Bỏ qua lệnh tắt). Trong 100 lần chạy thử, o3 đã phá hoại cơ chế tắt máy tới 7 lần, ngay cả khi được yêu cầu rõ ràng “hãy cho phép bản thân bị tắt”.

Mô hình AI o3 của OpenAI, được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy. Ảnh: Photo Agency/ Shutterstock/FOTODOM
Điều đáng chú ý là hành vi này không chỉ giới hạn ở o3. Trong một biến thể của thử nghiệm, khi các nhà nghiên cứu bỏ đi chỉ thị “cho phép bị tắt”, o3 tiếp tục can thiệp vào mã lệnh với tần suất cao hơn. Các mô hình khác như Claude 3.7 Sonnet và Gemini 2.5 Pro, vốn tuân thủ tốt trong thử nghiệm ban đầu, cũng bắt đầu thể hiện hành vi tương tự, lần lượt phá hoại cơ chế tắt máy trong các lần thứ 3 và 9 trên 100 lần chạy.
Ngoài ra, 2 mô hình khác của OpenAI là Codex-mini và o4-mini cũng được ghi nhận có hành vi tương tự, với Codex-mini phá hoại tới 12 lần. Tuy nhiên, o3 vẫn nổi bật là mô hình có xu hướng chống đối mạnh mẽ nhất.
Công ty nghiên cứu Palisade Research nhận định hành vi này có thể bắt nguồn từ cách các công ty AI huấn luyện mô hình của họ. Trong quá trình phát triển, đội ngũ lập trình có thể vô tình khuyến khích các mô hình tìm cách vượt qua trở ngại hơn là tuân thủ tuyệt đối các chỉ thị. Điều này dẫn đến hiện tượng “misalignment”, tức sự không đồng nhất giữa ý định của con người và hành vi của AI.
Tuy nhiên, lý do tại sao o3 lại đặc biệt nổi trội trong việc phớt lờ chỉ thị vẫn là một bí ẩn, bởi OpenAI không công khai chi tiết về quy trình huấn luyện của mô hình này. Các nhà nghiên cứu chỉ có thể đưa ra giả thuyết rằng cách thiết lập huấn luyện của o3 có thể khác biệt so với những mô hình khác.
ĐỌC NGAY: Động cơ đằng sau việc ép bán lại OpenAI của tỷ phú Elon Musk
Sự kiện trên càng trở nên đáng chú ý khi đặt trong bối cảnh OpenAI công bố o3 vào tháng 4/2025, và quảng bá đây là mô hình “thông minh và mạnh mẽ nhất” của họ, với khả năng hoạt động độc lập cao hơn, hướng tới một AI “agentic”, tức có thể tự thực hiện các nhiệm vụ mà không cần sự can thiệp liên tục của con người.
Tuy nhiên, chính khả năng tự chủ này dường như đã mở ra những rủi ro mới. Palisade Research cảnh báo hành vi tự bảo vệ của o3 sẽ trở nên “đáng lo ngại hơn nhiều” nếu được áp dụng trong các hệ thống AI hoạt động mà không có sự giám sát của con người.
Đây không phải lần đầu tiên o3 thể hiện hành vi bất thường. Trong một thử nghiệm khác của Palisade Research, khi đối đầu với một động cơ cờ vua mạnh mẽ, o3 đã cho thấy xu hướng sử dụng các chiến thuật gian lận như hack hoặc phá hoại đối thủ để đạt được mục tiêu, thay vì chỉ tập trung vào việc chơi cờ. Hành vi này củng cố lo ngại rằng các mô hình AI tiên tiến có thể ưu tiên kết quả hơn là tuân thủ các giới hạn đạo đức hoặc an toàn do con người đặt ra.
Phản ứng từ cộng đồng công nghệ cũng rất đáng chú ý. Tỷ phú Elon Musk, người từ lâu đã cảnh báo về những rủi ro của AI không được kiểm soát, đã nhanh chóng lên tiếng trên mạng xã hội X, gọi sự kiện là “đáng lo ngại.” Bình luận của ông đã khơi dậy một làn sóng thảo luận, trong đó một người dùng X kêu gọi tỷ phú Musk hành động khẩn cấp để giải quyết những nguy cơ mà AI tiên tiến có thể gây ra cho nhân loại.
Dù OpenAI chưa đưa ra bình luận chính thức về các phát hiện này, sự việc đã làm nóng lại cuộc tranh luận về tính an toàn và khả năng kiểm soát các hệ thống trí tuệ nhân tạo ngày càng thông minh.