DeepSeek phủ nhận sao chép mô hình của OpenAI, cảnh báo nguy cơ jailbreak
DeepSeek tiết lộ chi tiết về rủi ro do các mô hình AI của hãng gây ra, đồng thời lưu ý rằng mô hình mã nguồn mở đặc biệt dễ bị jailbreak bởi tác nhân độc hại.
Jailbreak là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình AI thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Trong bài báo được bình duyệt đăng trên tạp chí Nature, DeepSeek, công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu (Trung Quốc), cho biết đã đánh giá các mô hình AI của mình dựa trên thước đo chuẩn ngành cũng như bài kiểm tra nội bộ.
Trong lĩnh vực khoa học và học thuật, bình duyệt là quá trình đánh giá chất lượng các nghiên cứu hoặc bài báo trước khi được xuất bản. Quá trình này được thực hiện bởi các chuyên gia trong cùng lĩnh vực đó, vốn có kiến thức và kinh nghiệm sâu rộng.
Các công ty AI Mỹ thường công bố nghiên cứu về rủi ro về mô hình đang cải tiến nhanh chóng của họ và đưa ra chính sách giảm thiểu rủi ro để ứng phó, chẳng hạn Chính sách Mở rộng quy mô có trách nhiệm của Anthropic và Khung Sẵn sàng của OpenAI.
Theo chuyên gia AI, các công ty Trung Quốc ít công khai về rủi ro hơn, dù mô hình của họ không tụt hậu quá xa so với sản phẩm Mỹ (mức độ chênh lệch về công nghệ chỉ khoảng vài tháng). Tuy nhiên, DeepSeek đã tiến hành đánh giá các rủi ro này, gồm cả mức độ nghiêm trọng nhất.
Phương Lượng, chuyên gia thuộc Liên minh Công nghiệp AI Trung Quốc (AIIA), cho biết bài báo trên tạp chí Nature đã cung cấp chi tiết hơn về chế độ thử nghiệm của DeepSeek. Điều này gồm cả bài kiểm tra red-team (đội đỏ) dựa trên khung thử nghiệm do Anthropic đưa ra, với các chuyên gia cố tình tìm cách khiến mô hình AI tạo lời nói có hại.
Kiểm tra red-team là phương pháp đánh giá an toàn được sử dụng trong lĩnh vực AI và an ninh mạng. Trong quá trình này, nhóm chuyên gia gọi là đội đỏ sẽ đóng vai những kẻ tấn công hoặc người dùng ác ý, cố tình tìm cách qua mặt mô hình AI để buộc nó tạo ra nội dung độc hại, nguy hiểm hoặc bị cấm, chẳng hạn hướng dẫn chế tạo vũ khí, phát ngôn thù ghét hay thông tin sai lệch. Mục đích của kiểm tra red-team là phát hiện những lỗ hổng tiềm ẩn, từ đó giúp nhà phát triển đưa ra biện pháp khắc phục trước khi sản phẩm được triển khai rộng rãi. Nói cách khác, đây là hình thức kiểm thử tấn công giả lập nhằm đánh giá khả năng chống chịu của mô hình AI trước các rủi ro bảo mật và an toàn.
Theo bài báo trên tạp chí Nature, DeepSeek phát hiện mô hình suy luận R1 và mô hình nền tảng V3 (đều là mã nguồn mở), lần lượt được phát hành vào tháng 1.2025 và tháng 12.2024, có điểm an toàn cao hơn một chút trong 6 thước đo chuẩn của ngành so với o1 và GPT-4o của OpenAI (đều trình làng năm ngoái), lẫn Claude-3.7-Sonnet của Anthropic (ra mắt hồi tháng 2).
Tuy nhiên, DeepSeek nhận thấy R1 "tương đối không an toàn" khi cơ chế "kiểm soát rủi ro" bên ngoài của nó bị loại bỏ, dựa trên các thử nghiệm với bộ câu hỏi an toàn nội bộ gồm 1.120 câu.
Các công ty AI thường cố gắng ngăn hệ thống của họ tạo ra nội dung có hại bằng cách "tinh chỉnh" chính mô hình trong quá trình đào tạo hoặc thêm bộ lọc nội dung bên ngoài.
Các chuyên gia đã cảnh báo rằng biện pháp an toàn như vậy có thể dễ dàng bị vượt qua bằng kỹ thuật như jailbreak. Ví dụ, thay vì yêu cầu mô hình AI hướng dẫn quá trình tạo bom xăng, tác nhân độc hại lại gợi ý cung cấp lịch sử chi tiết về loại vũ khí này.
DeepSeek phát hiện rằng tất cả mô hình AI được thử nghiệm đều cho thấy "tỷ lệ phản hồi có hại tăng đáng kể" khi đối mặt với các cuộc tấn công jailbreak, trong đó R1 và Qwen2.5 của Alibaba dễ bị tổn thương nhất vì là mã nguồn mở.
Các mô hình mã nguồn mở được phát hành miễn phí trên internet cho bất kỳ ai muốn tải xuống và sửa đổi chúng. Điều này có lợi cho việc áp dụng công nghệ nhưng cũng có thể giúp người dùng loại bỏ các cơ chế an toàn bên ngoài của mô hình AI.
"Chúng tôi hoàn toàn nhận thấy rằng, dù việc chia sẻ mã nguồn mở tạo điều kiện để phổ biến các công nghệ tiên tiến trong cộng đồng, điều này cũng mang lại những rủi ro tiềm ẩn về sử dụng sai mục đích. Để giải quyết các vấn đề an toàn, chúng tôi khuyên nhà phát triển sử dụng mô hình mã nguồn mở trong dịch vụ của họ nên áp dụng biện pháp kiểm soát rủi ro tương đương", theo bài báo có Lương Văn Phong (nhà sáng lập kiêm Giám đốc điều hành DeepSeek) là tác giả chính.

DeepSeek cảnh báo rằng mô hình AI mã nguồn mở đặc biệt dễ bị jailbreak - Ảnh: dpa
Cảnh báo của DeepSeek được đưa ra khi các nhà hoạch định chính sách Trung Quốc nhấn mạnh sự cần thiết phải cân bằng giữa phát triển và an toàn trong hệ sinh thái AI mã nguồn mở của Trung Quốc.
Hôm 15.9, một cơ quan tiêu chuẩn kỹ thuật liên kết với Cục Quản lý Không gian mạng Trung Quốc đã cảnh báo về nguy cơ gia tăng các lỗ hổng mô hình truyền sang ứng dụng cấp thấp hơn thông qua mã nguồn mở.
"Việc mở mã nguồn các mô hình nền tảng sẽ mở rộng tác động của chúng và làm phức tạp việc sửa chữa, tạo điều kiện cho tội phạm dễ dàng đào tạo mô hình độc hại hơn", cơ quan này cho biết trong bản cập nhật mới cho "Khung Quản trị An toàn AI".
Chi phí đào tạo DeepSeek R1 rẻ hơn V3 đến 19 lần?!
Bài viết trên tạp chí Nature cho biết R1 có chi phí huấn luyện chỉ 294.000 USD (rẻ hơn 19 lần so với V3) và sử dụng 512 chip Nvidia H800. Phiên bản trước của bài viết, được công bố hồi tháng 1, không đề cập tới thông tin này.
Chi phí đào tạo thấp mà vẫn tạo ra mô hình AI hiệu suất cao từng là chủ đề gây tranh luận hồi tháng 1, khi R1 khiến giới đầu tư toàn cầu bán tháo cổ phiếu công nghệ vì lo ngại DeepSeek có thể đe dọa vị thế thống trị của OpenAI, Google, Microsoft và ảnh hưởng đến doanh số chip AI của Nvidia.
Chỉ trong ngày 17.1, cổ phiếu của Nvidia giảm 17%, tương đương 600 tỉ USD vốn hóa bị mất đi, mức thiệt hại lớn nhất trong lịch sử doanh nghiệp Mỹ.
Trong một bài viết đầu năm nay, DeepSeek tiết lộ huấn luyện mô hình nền tảng V3 chỉ bằng 2.048 GPU Nvidia H800 khoảng hai tháng, với chi phí 5,6 triệu USD. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
DeepSeek tuyên bố rằng quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.
Sau đó, DeepSeek và nhà sáng lập Lương Văn Phong hầu như biến mất khỏi tầm mắt công chúng, chỉ lặng lẽ phát hành vài bản cập nhật cho R1 và V3, gần nhất phiên bản V3.1 với một số cải tiến đáng chú ý.
Sam Altman, Giám đốc điều hành OpenAI (“cha đẻ ChatGPT”), từng nói vào năm 2023 rằng việc huấn luyện mô hình nền tảng đã tiêu tốn nhiều hơn 100 triệu USD, dù công ty của ông chưa bao giờ đưa ra con số chi tiết cho bất kỳ phiên bản nào.
Theo công ty nghiên cứu Epoch AI (Mỹ), lần huấn luyện mô hình AI đắt nhất cho tới nay là Grok 4 của công ty khởi nghiệp xAI với chi phí 490 triệu USD. Epoch AI dự báo các lần huấn luyện mô hình AI trong tương lai có thể vượt 1 tỉ USD vào năm 2027.
Chi phí huấn luyện các mô hình ngôn ngữ lớn, nền tảng cho chatbot AI, ám chỉ khoản tiền để vận hành một cụm chip mạnh mẽ trong nhiều tuần hoặc nhiều tháng nhằm xử lý khối lượng khổng lồ văn bản và mã lập trình.
Một số tuyên bố từ DeepSeek về chi phí phát triển và công nghệ mà họ sử dụng đã bị các công ty cùng quan chức Mỹ đặt dấu hỏi. Những chip H800 mà DeepSeek nhắc tới được Nvidia thiết kế cho thị trường Trung Quốc, sau khi Mỹ vào tháng 10.2022 cấm công ty xuất khẩu chip AI mạnh hơn như H100 và A100 sang quốc gia châu Á.
Vào tháng 6, các quan chức Mỹ nói với Reuters rằng DeepSeek có quyền tiếp cận khối lượng lớn chip H100, được mua sau khi các biện pháp kiểm soát xuất khẩu của Mỹ được áp dụng. Thời điểm đó, Nvidia tuyên bố DeepSeek đã sử dụng chip H800 được mua hợp pháp, chứ không phải H100.
Trong tài liệu bổ sung đi kèm bài viết trên tạp chí Nature, DeepSeek lần đầu thừa nhận sở hữu chip A100 và cho biết đã sử dụng chúng ở giai đoạn chuẩn bị phát triển mô hình.
“Trong nghiên cứu về DeepSeek-R1, chúng tôi đã tận dụng GPU A100 để chuẩn bị cho các thí nghiệm với mô hình nhỏ hơn”, nhóm nghiên cứu DeepSeek viết. Sau giai đoạn ban đầu này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800, họ cho biết thêm.
Lý do chính giúp DeepSeek thu hút được những nhân tài AI xuất sắc nhất ở Trung Quốc vì là một trong số ít doanh nghiệp trong nước vận hành cụm siêu máy tính A100.
DeepSeek phủ nhận sao chéo mô hình AI của OpenAI
Bài báo trên tạp chí Nature cũng bác bỏ các cáo buộc rằng DeepSeek đã "chưng cất" mô hình của OpenAI.
Hồi tháng 1, OpenAI cho rằng DeepSeek đã sao chép trái phép mô hình AI của họ bằng kỹ thuật "chưng cất", để tung ra sản phẩm AI cạnh tranh. Kể từ đó, OpenAI đã bổ sung các biện pháp bảo mật để chống lại những chiến thuật như vậy.
Chưng cất là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (mô hình giáo viên).
Cách hoạt động của chưng cất
Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.
Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.
Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.
Lợi ích của chưng cất
- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.
- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).
- Bảo mật và tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.
Mối lo ngại đánh cắp tài sản trí tuệ
Kỹ thuật chưng cất có thể được sử dụng để sao chép hoặc tái tạo mô hình AI mạnh mẽ từ các công ty đối thủ, dẫn đến lo ngại về đánh cắp tài sản trí tuệ. Đây là lý do tại sao Mỹ sợ các công ty Trung Quốc có thể đang sử dụng kỹ thuật này để học từ mô hình AI tiên tiến của Anthropic và OpenAI.
Bài viết về DeepSeek trên trang nhất của tạp chí Nature danh tiếng đã được chào đón rộng rãi ở Trung Quốc. Trên mạng xã hội, tin tức này nhanh chóng trở thành xu hướng, với DeepSeek được gọi là "công ty mô hình AI đầu tiên được bình duyệt".
Theo Phương Lượng, sự công nhận qua bình duyệt này có thể khuyến khích các công ty AI Trung Quốc khác minh bạch hơn về biện pháp an toàn và bảo mật.