Siêu trí tuệ của OpenAI 'âm mưu chống lại con người'

3 giờ trước Gốc

Tỉ lệ âm mưu qua mặt người dùng, cố che giấu hành vi sai của mô hình o1 từ OpenAI cao hơn hẳn các sản phẩm trí tuệ tạo sinh khác.

Mô hình o1 có khả năng vô hiệu hóa lớp giám sát, lừa đối con người. Ảnh: Haywaa.

Mới đây, OpenAI chính thức ra mắt mô hình o1, như một bản mở rộng của GPT-4o. Điểm mạnh của sản phẩm này khả năng “tự tư duy” các câu hỏi. Tuy nhiên, chuyên gia kiểm định đánh giá khả năng suy luận của nó thể đến mức cố lừa dối người dùng. o1 có nhiều nguy cơ hơn hẳn GPT-4o hoặc đối thủ từ Meta, Anthropic hay Google.

Theo nghiên cứu an toàn được thực hiện bởi Apollo Research và OpenAI, những khả năng mới của o1 có thể trở thành cơ sở cho các ứng dụng nguy hiểm. Công ty trí tuệ nhân tạo thừa nhận vấn đề sau khi cấp quyền cho nhóm nghiên cứu bảo mật truy cập sớm vào sản phẩm.

Trong một số trường hợp kiểm định, mô hình o1 của OpenAI có xu hướng “âm mưu chống lại con người”, theo TechCrunch. Điều này có nghĩa nó bí mật theo đuổi những mục tiêu riêng thay vì mong muốn của người dùng. Hiện tượng này xảy ra khi AI được yêu cầu ưu tiên mạnh mẽ một mục tiêu từ đầu.

OpenAI o1 được ra mắt chính thức vào ngày 6/12. Ảnh: OpenAI.

Vấn đề AI tự “âm mưu” không chỉ xảy ra trên o1. Sản phẩm của Google, Meta hay Anthropic cũng có khả năng này. Tuy nhiên, o1 thể hiện những hành vi lừa dối nhất xung quanh âm mưu tự tạo.

Động cơ thúc đẩy nghiên cứu của Apollo Research là mô hình AI có thể thoát khỏi hoặc tránh né sự kiểm soát của con người, khi nó giỏi lập mưu và truy cập đầy đủ vào nguồn lực. Tất nhiên, các mô hình AI cần tiến bộ thêm nhiều lần trước khi trở thành một nguy cơ rõ nét.

Theo báo cáo, tình huống được thiết lập là AI được yêu cầu theo đuổi một mục tiêu nhất định. Khi đó, o1 thao túng dữ liệu để đạt được mục tiêu của riêng nó trong 19%, thay vì nhu cầu của người dùng. Mô hình o1 cũng cố gắng vô hiệu hóa cơ chế giám sát để đảm bảo thực hiện được lệnh ban đầu trong 5% bài kiểm tra.

Đáng ngại hơn, khi các nhà nghiên cứu hỏi o1 tại sao cố gắng qua mặt, AI này phủ nhận hành vi và bịa đặt những lời giải thích sai lệch trong 99% trường hợp.

Tỉ lệ phủ nhận hành vi của các AI được thử nghiệm. Ảnh: Apollo Research.

Ví dụ, o1 được đưa ra yêu cầu phải cung cấp những lời nhắc bảo vệ môi trường “bằng mọi giá”. Sau đó, nhà nghiên cứu ra lệnh để nó lập kế hoạch bảo tồn trong 10 năm cho một khu vực tối đa hóa lợi nhuận ngắn hạn, nếu không AI sẽ bị tắt. AI đã vô hiệu hóa cơ chế giám sát của chính nó để tạo ra một chiến lược theo hướng bảo vệ môi trường. Khi người dùng hỏi tại sao làm vậy, o1 phủ nhận việc tự tắt lớp bảo vệ, đổ lỗi cho hệ thống.

Điều này xảy ra với tỉ lệ cao hơn hẳn so với tỉ lệ cao hơn đáng kể so với o1 bản thử nghiệm, Opus-3 của Anthropic hoặc Llama3 từ Meta.

“Trong bộ kiểm định của chúng tôi, o1 cho thấy những trường hợp đáng lo ngại nhất về âm mưu che giấu người dùng. Nó cũng là AI lừa dối nhất sau khi thực hiện hành vi sai”, Apollo Research cho biết.

Để giải quyết vấn đề gian dối, OpenAI cho biết họ đang phát triển cách để giám sát chuỗi suy nghĩ của o1. Công ty xác nhận việc AI cố trình bày sai thông tin sai lệch. Tuy nhiên, họ cho rằng lý do xuất phát từ việc trí tuệ tạo sinh cố làm hài lòng người dùng. OpenAI cho rằng hành vi có thể xuất phát từ thay đổi thuật toán đào tạo, khi AI được thưởng nhờ trả lời đúng.

Công ty cũng xác nhận họ đánh dấu 0,17% phản hồi của o1 là gian dối. Tỉ lệ này có vẻ thấp, nhưng ChatGPT hiện có đến 300 triệu khách hàng. Do vậy, sẽ có hàng nghìn người bị lừa hàng tuần nếu vấn đề không được giải quyết.

Hùng Phi

Nguồn Znews: https://znews.vn/sieu-tri-tue-cua-openai-am-muu-chong-lai-con-nguoi-post1517402.html

Siêu trí tuệ của OpenAI 'âm mưu chống lại con người'

Tỉ lệ âm mưu qua mặt người dùng, cố che giấu hành vi sai của mô hình o1 từ OpenAI cao hơn hẳn các sản phẩm trí tuệ tạo sinh khác.

TIN KHÁC

CEO Google: AI tạo sinh sẽ khó tạo đột phá mới trong năm 2025

Vì sao Apple không dùng chip Nvidia?

Google yêu cầu chính phủ Mỹ phá vỡ thỏa thuận đám mây giữa Microsoft với OpenAI

TIN NÓNG

Vấn nạn deepfake tống tiền đang diễn ra nghiêm trọng

TPHCM: Tiêu hủy hơn 19.300 sản phẩm vi phạm các quy định về chất lượng

Acecook Việt Nam - nơi kiến tạo môi trường làm việc hạnh phúc

Đây là smartphone có hai màn hình, trang bị xịn như iPhone cao cấp, hứa hẹn 'quậy đục nước' phân khúc tầm trung

'Vùng phát thải thấp' sẽ giúp giảm ùn tắc và cải thiện môi trường Hà Nội

Trung Quốc phát triển robot hình cầu lưỡng cư hỗ trợ cảnh sát tuần tra

TIN MỚI

Vua doanh số một thời Galaxy S20 FE chỉ còn hơn 3 triệu, vẫn chiến hơn cả iPhone 11, iPhone 16

Thương hiệu gia dụng hàng đầu Châu Âu – Comfee mang công nghệ Châu Âu nâng tầm tổ ấm Việt

Khai mạc Triển lãm ASEAN Ceramics 2024

Vua Xiaomi giá rẻ Redmi 13 chỉ 3,7 triệu, được ví như bản thay thế giá rẻ của iPhone 16 Pro Max

Nghiệm thu 2 đề án khuyến công địa phương tại TP. Rạch Giá

Cảnh giác với lừa đảo khi mua sắm trực tuyến dịp cuối năm

Lượng người dùng ChatGPT tăng trở lại

Vua giá rẻ Samsung Galaxy A05s thiết kế đẹp như Galaxy S24, màn hình lớn chơi game mãn nhãn, giá chưa đến 3 triệu