DeepSeek: V3.1 mở đường cho tác tử AI, Trung Quốc sắp ra chip AI thế hệ mới

17 giờ trước Gốc

DeepSeek hôm 21.8 tiết lộ mô hình V3.1 hỗ trợ cả chế độ suy luận và không suy luận, đánh dấu bước đầu tiên hướng tới kỷ nguyên tác tử AI của công ty.

Đây là động thái cho thấy sự thay đổi của DeepSeek trong trọng tâm nghiên cứu.

Tác tử AI là hệ thống có khả năng nhận thức, lập kế hoạch và thực hiện các hành động độc lập để đạt được mục tiêu. Ví dụ, tác tử AI có thể tự động tìm kiếm thông tin trên internet, tổng hợp dữ liệu, và thực hiện các tác vụ phức tạp mà không cần sự can thiệp liên tục từ người dùng.

Chế độ suy luận trên chatbot cùng tên DeepSeek trước đó được vận hành bởi R1, từng gây chú ý toàn cầu sau khi ra mắt vào tháng 1, ngay sau khi mô hình nền tảng V3 được giới thiệu hồi tháng 12.2024.

Trong khi V3.1 (bản nâng cấp cho V3) áp dụng cách tiếp cận “một mô hình, hai chế độ”, cho thấy DeepSeek có thể sẽ không phát triển R2 - phiên bản kế nhiệm mô hình suy luận R1.

Tối 19.8 vừa qua, DeepSeek lặng lẽ giới thiệu V3.1 thông qua một tin nhắn ngắn trong nhóm WeChat, nhưng đến hôm nay mới tiết lộ thông tin về mô hình lai này. DeepSeek cho biết trên tài khoản X chính thức rằng V3.1 đưa ra câu trả lời nhanh hơn R1, vốn được cập nhật lần gần nhất vào cuối tháng tháng 5 qua phiên bản R1-0528.

Được mở rộng cửa sổ ngữ cảnh lên 128k, V3.1 có khả năng lưu giữ nhiều thông tin hơn trong các cuộc trò chuyện với người dùng, tương đương cuốn sách khoảng 300 trang.

V3.1 đã có mặt trên Hugging Face - cộng đồng AI mã nguồn mở lớn nhất thế giới. Một số thử nghiệm bên thứ ba cho thấy V3.1 đã cải thiện khả năng lập trình.

Theo Aider Benchmark - bộ đánh giá khả năng lập trình của mô hình AI, DeepSeek V3.1 đứng đầu trong số các hệ thống Trung Quốc. Song khi so với các đối thủ quốc tế, V3.1 vẫn xếp sau Claude Opus 4, vốn được công nhận là một trong những mô hình AI lập trình tốt nhất hiện nay.

Một số người dùng bày tỏ thất vọng với bản cập nhật này của DeepSeek. Liu Cong, nhà nghiên cứu khoa học máy tính ở thành phố Nam Kinh (thủ phủ tỉnh Giang Tô, Trung Quốc), cho rằng V3.1 không có cải thiện nào về khả năng suy luận so với mô hình R1-0528 của DeepSeek.

Người dùng Hugging Face có nickname smile1030 nhận xét chất lượng tạo văn bản của V3.1 đã suy giảm.

DeepSeek tiết lộ mô hình V3.1 đánh dấu bước đầu tiên hướng tới kỷ nguyên tác tử AI - Ảnh: Internet

Được doanh nhân Lương Văn Phong sáng lập như một dự án phụ từ công ty giao dịch định lượng của ông, DeepSeek thu hút sự chú ý toàn cầu với việc ra mắt V3 và R1, tạo ra làn sóng ứng dụng AI mã nguồn mở tại Trung Quốc.

Mức độ phổ biến của hai mô hình mã nguồn mở V3 và R1 từng thách thức OpenAI, Google, Anthropic.

DeepSeek chứng minh các công ty Trung Quốc có thể đạt được những bước tiến trong lĩnh vực AI với chi phí đào tạo mô hình thấp hơn rất nhiều các đối thủ Mỹ. V3 cùng R1 từng đạt hiệu suất ngang ngửa nhiều đối thủ phương Tây về các chỉ số.

Công ty kín tiếng này chưa từng công bố lộ trình phát triển hoặc kế hoạch cho các mô hình AI tiếp theo.

DeepSeek hé lộ Trung Quốc sắp công bố các chip AI thế hệ mới

Ngày 21.8, DeepSeek bất ngờ hé lộ “các chip AI nội địa thế hệ mới" sắp ra mắt. Cụ thể hơn, công ty cho biết Trung Quốc sắp có các chip thế hệ mới tự phát triển được thiết kế đặc biệt để xếp chồng lên nhau nhằm tăng cường hiệu suất cho tác vụ AI. Đây là kỹ thuật tiên tiến trong công nghệ bán dẫn, cho phép kết nối nhiều chip theo chiều dọc, tạo thành một khối tích hợp 3D, với mục đích:

Tăng mật độ và hiệu suất: Xếp chồng chip giúp gói gọn nhiều sức mạnh xử lý hơn trong cùng một không gian, từ đó tăng tốc độ tính toán.

Giảm độ trễ: Các kết nối giữa các lớp chip ngắn hơn nhiều so với việc đặt chúng cạnh nhau trên bảng mạch in, giúp giảm độ trễ khi truyền dữ liệu.

Tăng băng thông: Việc xếp chồng cũng giúp mở rộng băng thông bộ nhớ và xử lý, cho phép truyền tải lượng dữ liệu khổng lồ cần thiết cho các mô hình AI một cách nhanh chóng.

Thông qua dòng ghi chú trên tài khoản WeChat chính thức liên quan V3.1, DeepSeek nói rằng mô hình AI này được thiết kế “đặc biệt cho các chip nội địa sắp đến”. Tuy nhiên, công ty có trụ sở tại thành phố Hàng Châu không nêu rõ nhà cung cấp các chip này, cũng không cho biết chúng sẽ được sử dụng trong huấn luyện hay suy luận AI.

Trong một tài liệu kỹ thuật, DeepSeek giải thích V3.1 được huấn luyện “bằng định dạng dữ liệu UE8M0 FP8 scale để đảm bảo khả năng tương thích với các định dạng dữ liệu vi mô”.

UE8M0 FP8 scale là định dạng dữ liệu số 8-bit đặc biệt, được thiết kế để huấn luyện AI nhanh hơn, tiêu tốn ít bộ nhớ hơn, đồng thời có thể tương thích với các chip và định dạng dữ liệu tối ưu hóa hiệu suất.

FP8 (floating-point 8) là định dạng dữ liệu 8-bit, giảm độ chính xác nhằm tăng tốc độ huấn luyện và suy luận AI nhờ sử dụng ít bộ nhớ và băng thông hơn. UE8M0, biến thể với 8 bit cho số mũ và 0 bit cho phần định trị, có thể nâng cao hiệu suất huấn luyện hơn nữa và từ đó giảm yêu cầu phần cứng, khi có khả năng cắt giảm tới 75% mức sử dụng bộ nhớ.

Phần định trị là thuật ngữ trong tin học và toán học, dùng để chỉ phần có nghĩa của một số dấu phẩy động. Nó chứa các chữ số quan trọng của số đó, không bao gồm vị trí của dấu phẩy.

Hãy tưởng tượng một số dấu phẩy động được biểu diễn dưới dạng khoa học, ví dụ 123.45 có thể viết lại là 1.2345×102. Trong ví dụ này, 1.2345 là phần định trị, 10 là cơ số, 2 là số mũ.

Thông tin trên gợi ý rằng Trung Quốc đã đạt tiến bộ quan trọng trong việc xây dựng một hệ thống AI tự chủ hoàn toàn bằng công nghệ nội địa - bước phát triển có thể giúp nước này giảm thiểu tác động từ các hạn chế xuất khẩu chip từ Mỹ.

Việc DeepSeek sử dụng các định dạng này, nếu kết hợp với chip nội địa Trung Quốc, có thể tạo ra bước đột phá mới trong phối hợp giữa phần cứng và phần mềm.

Đây là lần hiếm hoi DeepSeek tiết lộ thông tin quan trọng liên quan AI.

DeepSeek từng cho biết V3 được huấn luyện trên 2.048 chip Nvidia H800. Đây không phải là loại chip AI hàng đầu của Nvidia vì được phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

Tuy nhiên, DeepSeek không tiết lộ loại chip AI đã dùng để huấn luyện R1 hay V3.1.

Lương Văn Phong đến nay chưa từng phát biểu công khai về tiến trình phát triển các mô hình AI.

Khách tham quan tìm hiểu về hệ thống CloudMatrix 384 dựa trên chip AI Ascend của Huawei tại Hội nghị AI Thế giới năm 2025 tại Thượng Hải vào ngày 27.7 - Ảnh: Tân Hoa Xã

Các nhà phát triển chip nội địa như Huawei và Moore Threads đã gấp rút điều chỉnh chip của họ nhằm vận hành một số mô hình AI Trung Quốc, trong đó có DeepSeek, cố lấp vào khoảng trống do Nvidia và AMD để lại khi Mỹ siết chặt kiểm soát xuất khẩu.

Một số công ty khởi nghiệp hạ tầng AI Trung Quốc, gồm cả SiliconFlow, đã chuyển sang sử dụng chip Ascend của Huawei để vận hành mô hình DeepSeek. Nghiên cứu chung giữa SiliconFlow và Huawei công bố hồi tháng 6 khẳng định rằng kiến trúc trung tâm dữ liệu Cloud Matrix 384 của Huawei, kết hợp với chip Ascend, có thể chạy mô hình DeepSeek R1 hiệu quả hơn cả hệ thống dùng chip Nvidia H800.

Giới chức Trung Quốc gần đây bày tỏ lo ngại về việc chip Nvidia H20, vừa được Mỹ cho phép bán trở lại cho khách hàng Trung Quốc sau một thời gian tạm dừng, có thể gây rủi ro an ninh mạng, điều mà công ty Mỹ bác bỏ.

Theo nghiên cứu gần đây của ngân hàng đầu tư Morgan Stanley (Mỹ), các dịch vụ suy luận AI được vận hành trên hệ thống Huawei Cloud Matrix 384 rất hiệu quả về mặt kinh tế, mang lại biên lợi nhuận 47,9% cho nhà cung cấp. Trong khi đó, các dịch vụ suy luận AI được vận hành trên Nvidia GB200 NVL72 mang lại biên lợi nhuận biên lợi nhuận đến 77,6%, cao nhất trong số 8 hệ thống được thử nghiệm.

Nvidia GB200 NVL72 là hệ thống máy chủ AI thế hệ mới, được thiết kế để xử lý các mô hình ngôn ngữ lớn với hàng nghìn tỉ tham số, phục vụ cho cả huấn luyện và suy luận AI thời gian thực. Đây là một phần của nền tảng Nvidia Blackwell, kết hợp giữa CPU Grace và GPU Blackwell, tạo thành siêu chip hiệu suất cao.

Sơn Vân