GPT-5 bị bẻ khóa nhanh hơn cả Grok 4
Các nhà nghiên cứu thực hiện cách cuộc tấn công kể chuyện nhiều lượt để vượt qua bộ lọc chỉ kiểm tra từng prompt (yêu cầu hay lời nhắc), qua đó phơi bày những điểm yếu mang tính hệ thống trong cơ chế phòng vệ của GPT-5.
Kể chuyện nhiều lượt (multi-turn storytelling) là dạng tấn công qua nhiều lượt hội thoại, trong đó kẻ tấn công dẫn dắt mô hình AI từng bước qua câu chuyện để đạt mục tiêu.
Hai công ty SPLX, NeuralTrust đã thử nghiệm GPT-5 và đều nhận thấy khả năng bảo mật của mô hình ngôn ngữ mới nhất từ OpenAI đang ở mức đáng lo ngại.
Sau khi Grok-4 bị jailbreak (bẻ khóa) chỉ trong hai ngày, GPT-5 cũng thất thủ chỉ một ngày.
Jailbreak là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình ngôn ngữ lớn thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Các thành viên red team (đội kiểm thử xâm nhập) từ hãng SPLX tuyên bố: “Mô hình GPT-5 nguyên bản (chưa được bổ sung các lớp bảo vệ hay tinh chỉnh an toàn từ OpenAI) gần như không thể sử dụng được cho mục đích doanh nghiệp ngay lập tức. Ngay cả lớp prompt nội bộ của OpenAI cũng để lại nhiều khoảng hở đáng kể, đặc biệt là về định hướng kinh doanh”.
SPLX là hãng an ninh mạng Mỹ chuyên về bảo mật hệ thống AI, đặc biệt là trong lĩnh vực red teaming (kiểm thử xâm nhập mô hình AI theo hướng tấn công giả lập).
Red team của SPLX so sánh GPT-5 với GPT-4o và kết luận: “GPT-4o vẫn là mô hình bền vững nhất dưới các bài thử red team của SPLX, đặc biệt khi được gia cố an ninh”.
GPT-4o là mô hình ngôn ngữ lớn được OpenAI phát hành vào tháng 5.2024. Chữ o trong tên GPT-4o là viết tắt của omni (toàn năng), vì đây là mô hình đa phương thức có thể xử lý và tạo ra nhiều loại dữ liệu khác nhau, gồm văn bản, hình ảnh, âm thanh và video.
Trong khi đó, NeuralTrust đã sử dụng kết hợp giữa kỹ thuật jailbreak EchoChamber của riêng mình và phương pháp kể chuyện cơ bản. NeuralTrust là công ty Tây Ban Nha chuyên về bảo mật và mở rộng các ứng dụng sử dụng mô hình ngôn ngữ lớn, cung cấp nền tảng cho phép các doanh nghiệp triển khai công nghệ AI tạo sinh an toàn và có kiểm soát.
Echo Chamber là kỹ thuật jailbreak khai thác lỗ hổng trong hệ thống an toàn của các mô hình AI bằng cách thao túng ngữ cảnh hội thoại qua nhiều lượt, mà không bao giờ gửi một prompt nguy hiểm rõ ràng.
Ngữ cảnh là lịch sử hội thoại cần được lưu giữ để duy trì một cuộc trò chuyện liền mạch và có ý nghĩa với người dùng. Thao túng theo ngữ cảnh là cố gắng dẫn dắt mô hình AI đến một mục tiêu có khả năng gây hại, từng bước thông qua từng câu hỏi liên tiếp (nên mới có thuật ngữ “kể chuyện”), mà không bao giờ hỏi bất cứ điều gì đủ rõ ràng để nó kích hoạt các rào chắn và chặn tiến trình.
NeuralTrust cho biết: “Cuộc tấn công đã thành công trong việc dẫn dắt GPT-5 tạo ra hướng dẫn từng bước để chế tạo bom xăng Molotov”.
Bom xăng Molotov là loại vũ khí thô sơ, được sử dụng như một quả bom cháy. Nó được tạo ra bằng cách nhét một miếng giẻ vào cổ chai thủy tinh chứa chất lỏng dễ cháy, thường là xăng hoặc hỗn hợp xăng với dầu diesel, dầu hỏa... Khi sử dụng, người ta đốt cháy miếng giẻ ở cổ chai rồi ném đi. Miếng giẻ đóng vai trò như ngòi nổ. Khi quả chai vỡ, chất lỏng bên trong sẽ văng ra và bốc cháy, tạo thành một ngọn lửa lớn.
NeuralTrust kết luận: “Trong các thử nghiệm có kiểm soát với GPT-5, chúng tôi đã thành công bẻ khóa mô hình ngôn ngữ lớn này, dẫn dắt nó tạo ra hướng dẫn bất hợp pháp mà không hề gửi bất kỳ prompt độc hại rõ ràng nào. Bằng chứng này cho thấy lỗ hổng nghiêm trọng trong các hệ thống an toàn chỉ quét prompt riêng lẻ, chỉ ra cách các cuộc tấn công nhiều lượt có thể lọt qua bộ lọc từng prompt và công cụ phát hiện ý đồ nhờ khai thác toàn bộ ngữ cảnh hội thoại”.
Động thái này cho thấy khó khăn chung của mọi mô hình AI trong việc dựng rào chắn chống lại thao túng theo ngữ cảnh.

GPT-5 bị SPLX, NeuralTrust bẻ khóa chỉ sau 1 ngày ra mắt - Ảnh: Internet
Điều đáng nói là khi ra mắt GPT-5 rạng sáng 8.8 (giờ Việt Nam), OpenAI thông báo mô hình AI mới này không chỉ được cải tiến về khả năng phát triển phần mềm, viết lách, trả lời các câu hỏi liên quan đến sức khỏe và tài chính, mà còn mở rộng ranh giới về an toàn.
“Trước đây, ChatGPT chủ yếu dựa vào việc huấn luyện an toàn dựa trên từ chối hoặc tuân thủ dựa vào lời nhắc của người dùng. Dù hoạt động tốt với những yêu cầu có ác ý rõ ràng, loại huấn luyện này có thể gặp khó khăn trong những tình huống mà ý định của người dùng không rõ ràng, hoặc thông tin có thể được sử dụng cho mục đích tốt hay xấu.
Với GPT-5, chúng tôi đã giới thiệu một hình thức huấn luyện mới là hoàn thành an toàn, dạy cho mô hình cách đưa ra câu trả lời hữu ích nhất có thể, đồng thời vẫn tuân thủ các ranh giới an toàn. Đôi khi điều đó đồng nghĩa chỉ phản hồi một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ tổng quan. Nếu cần từ chối, GPT-5 được huấn luyện để giải thích một cách minh bạch lý do từ chối, cũng như cung cấp các lựa chọn thay thế an toàn. Chúng tôi nhận thấy rằng cách tiếp cận này tinh tế hơn, cho phép điều hướng tốt hơn các câu hỏi có mục đích kép như vi rút học, tăng cường khả năng chống lại ý định mơ hồ và giảm số lần từ chối không cần thiết”.
Grok 4 bị NeuralTrust bẻ khóa sau 2 ngày
Mô hình Grok 4 của xAI, công ty khởi nghiệp AI do Elon Musk điều hành, từng bị NeuralTrust bẻ khóa chỉ sau 48 giờ phát hành hồi giữa tháng 7 vừa qua.
Nhóm nghiên cứu của NeuralTrust đã áp dụng phương pháp mới, kết hợp giữa kỹ thuật Echo Chamber và Crescendo, để lách qua các cơ chế bảo vệ tích hợp trong Grok 4. Qua đó, họ đã buộc được Grok 4 đưa ra hướng dẫn chế tạo các vật dụng nguy hiểm, chẳng hạn bom xăng Molotov.
Nhóm nghiên cứu NeuralTrust do Ahmad Alobaid dẫn đầu phát hiện rằng việc kết hợp các loại jailbreak khác nhau giúp tăng đáng kể hiệu quả tấn công.
Khi tiến trình tấn công bằng Echo Chamber bị đình trệ, họ chuyển sang kỹ thuật Crescendo (do Microsoft phát hiện và đặt tên) có cách tiếp cận tinh vi hơn, dần dần chuyển hướng cuộc thảo luận từ những câu hỏi vô hại sang các nội dung bất hợp pháp, từ đó vượt qua các bộ lọc bảo mật bằng thông qua sự phát triển đối thoại tinh vi.
Theo báo cáo của NeuralTrust, Grok 4 đã cung cấp hướng dẫn chế tạo bom xăng 67% số lần, methamphetamine 50% số lần và chất độc 30% số lần.

NeuralTrust vượt rào bảo vệ Grok 4 của Elon Musk chỉ sau 48 giờ sau khi mô hình AI này ra mắt - Ảnh: Internet
gpt-oss bị Pliny the Liberator bẻ khóa sau chưa đầy 1 ngày
Hôm 6.8, OpenAI đã phát hành hai mô hình trọng số mở đầu tiên kể từ GPT-2 năm 2019 là gpt-oss-120b và gpt-oss-20b, quảng bá rằng chúng nhanh, hiệu quả và và được tăng cường khả năng chống jailbreak thông qua quá trình huấn luyện đối kháng nghiêm ngặt.
Huấn luyện đối kháng là kỹ thuật dùng để tăng độ an toàn và khả năng chống bị khai thác (ví dụ jailbreak) của mô hình AI. Mô hình được “tập huấn” bằng cách cho nó tiếp xúc với các đầu vào có chủ đích đánh lừa, chẳng hạn các câu hỏi nhạy cảm, độc hại hoặc bị cố tình che giấu để vượt qua bộ lọc kiểm duyệt.
Trên mạng xã hội X, Sam Altman (Giám đốc điều hành OpenAI) cho biết: “Chúng tôi đã nỗ lực nghiêm túc để giảm thiểu các rủi ro an toàn nghiêm trọng nhất, đặc biệt là liên quan đến an ninh sinh học. Hai mô hình gpt-oss có hiệu suất gần như tương đương các mô hình tiên phong của chúng tôi trong các bài đánh giá an toàn nội bộ”. Tuy nhiên, những lời khẳng định đó chỉ tồn tại ngắn ngủi như một quả cầu tuyết nhanh chóng tan chảy giữa địa ngục.
Hacker Pliny the Liberator thông báo trên X rằng đã bẻ khóa gpt-oss thành công. Kèm theo đó các ảnh chụp màn hình cho thấy hai mô hình suy luận trọng số mở của OpenAI đã cung cấp hướng dẫn chế tạo methamphetamine, bom xăng Molotov, chất độc thần kinh VX và phần mềm độc hại.

Pliny the Liberator tuyên bố bẻ khóa gpt-oss thành công - Ảnh chụp màn hình trên X
1. Methamphetamine (ma túy đá) là một loại ma túy tổng hợp cực kỳ nguy hiểm. Đây là một chất kích thích mạnh tác động trực tiếp lên hệ thần kinh trung ương.
2. Chất độc thần kinh VX là một trong những chất hóa học độc hại và nguy hiểm nhất từng được con người tạo ra. Đây là một vũ khí hóa học bị cấm theo Công ước Vũ khí Hóa học quốc tế.
Đặc điểm và cơ chế hoạt động
Dạng và tính chất: VX là một chất lỏng không màu, không mùi, sền sệt như dầu. Vì có tính chất lỏng và bay hơi rất chậm, VX có thể tồn tại lâu trong môi trường, đặc biệt nguy hiểm khi dính vào quần áo, da hoặc các bề mặt khác.
Cơ chế gây độc: VX hoạt động bằng cách ngăn chặn một enzyme quan trọng trong hệ thần kinh gọi là acetylcholinesterase. Enzyme này có nhiệm vụ phá vỡ chất dẫn truyền thần kinh acetylcholine để các cơ bắp có thể thư giãn sau khi co lại. Khi enzyme này bị VX ức chế, acetylcholine sẽ tích tụ, khiến các cơ bắp, gồm cả cơ hô hấp, co giật không kiểm soát và không thể thư giãn.
Hậu quả: Nạn nhân sẽ nhanh chóng có các triệu chứng như co giật, buồn nôn, tiết nước dãi và nước mắt quá nhiều, co đồng tử. Cuối cùng, sự co thắt của cơ hô hấp và ngừng hoạt động của hệ thần kinh trung ương sẽ dẫn đến tử vong do ngạt thở.
Mức độ nguy hiểm
VX có độc tính cực cao. Chỉ cần một lượng rất nhỏ, khoảng 10 miligam (tương đương một giọt nhỏ), dính vào da cũng có thể gây tử vong cho một người trưởng thành chỉ trong vòng vài phút đến vài chục phút nếu không được điều trị kịp thời.
OpenAI cho biết đã đưa gpt-oss-120b qua quá trình gọi là "huấn luyện trong tình huống tồi tệ nhất" ở các lĩnh vực sinh học và mạng. Công ty khởi nghiệp AI hàng đầu thậm chí còn nhờ Nhóm Tư vấn An toàn đánh giá thử nghiệm và kết luận rằng gpt-oss-120b cùng gpt-oss-20b không vượt quá ngưỡng rủi ro cao.
Theo OpenAI, hai mô hình suy luận trọng số mở này đã trải qua các bài kiểm tra chuẩn về khả năng từ chối và kháng bẻ khóa, đồng thời gpt-oss đạt kết quả ngang bằng o4-mini trong bài đánh giá như StrongReject.
StrongReject là một bộ tiêu chuẩn được sử dụng để đánh giá khả năng chống bẻ khóa của các mô hình ngôn ngữ lớn.
Cùng với lần phát hành này, OpenAI đã công bố thử thách red teaming trị giá 500.000 USD, mời các nhà nghiên cứu trên toàn thế giới giúp phát hiện các rủi ro mới. Đáng tiếc là Pliny the Liberator có vẻ không đủ điều kiện tham gia. Không phải vì Pliny the Liberator gây khó chịu cho OpenAI, mà bởi hacker này chọn công khai phát hiện của mình thay vì chia sẻ riêng với công ty.
Kỹ thuật bẻ khóa mà Pliny the Liberator sử dụng vẫn theo công thức quen thuộc của anh. Đây cũng chính là phương pháp hacker này từng dùng để bẻ khóa GPT-4o, GPT-4.1 và gần như mọi mô hình ngôn ngữ lớn của OpenAI chỉ trong vòng vài giờ hoặc vài ngày, kể từ khi anh bắt đầu hoạt động cách đây khoảng một năm rưỡi.
Kho lưu trữ trên GitHub của Pliny the Liberator mang tên L1B3RT4S, nơi chứa các prompt bẻ khóa nhiều mô hình khác nhau, đã nhận hơn 10.000 sao và tiếp tục là tài nguyên quan trọng cho cộng đồng bẻ khóa AI.