DeepSeek nâng cấp mô hình suy luận R1 trước sự kiện của Nvidia được giới công nghệ mong chờ

DeepSeek vừa cho biết đã nâng cấp R1, mô hình trí tuệ nhân tạo (AI) suy luận từng giúp công ty khởi nghiệp Trung Quốc này nổi tiếng toàn cầu hồi đầu năm nay.

Bloomberg đưa tin DeepSeek đã hoàn tất một bản “nâng cấp thử nghiệm nhỏ” và thông báo rằng người dùng có thể bắt đầu thử nghiệm, theo bài đăng hôm 28.5 của một đại diện công ty trong nhóm WeChat chính thức.

DeepSeek không cung cấp chi tiết về bản nâng cấp này và cũng không phản hồi email từ trang Bloomberg đề nghị cung cấp thêm thông tin.

Sau mô hình ngôn ngữ lớn nguồn mở V3 với chi phí đào tạo chỉ 5,6 triệu USD, công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu khiến ngành công nghệ toàn cầu sửng sốt vào tháng 1 khi ra mắt R1. Đây là mô hình suy luận nguồn mở vượt nhiều đối thủ phương Tây trong các bài kiểm tra tiêu chuẩn và được đào tạo với chi phí thấp hơn nhiều. Sự kiện này khiến cổ phiếu công nghệ toàn cầu giảm sâu khi nhà đầu tư bắt đầu đặt câu hỏi rằng liệu các công ty hàng đầu còn cần chi tiêu lớn để phát triển mô hình AI không.

Việc phát hành R1 đã biến Lương Văn Phong, nhà sáng lập DeepSeek, trở thành một người nổi tiếng trong ngành công nghệ và là biểu tượng cho năng lực cạnh tranh của Trung Quốc so với Thung lũng Silicon (Mỹ). Động thái này cũng khơi mào cuộc chạy đua phát triển thêm các mô hình AI mới tại Trung Quốc.

Vào tháng 2, Chủ tịch Trung Quốc Tập Cận Bình đã mời Lương Văn Phong tham dự một sự kiện quy tụ nhiều doanh nhân hàng đầu đất nước. Vị sáng lập DeepSeek trẻ tuổi này được sắp xếp ngồi cùng các tên tuổi như Jack Ma (đồng sáng lập Alibaba) và Mã Hóa Đằng (Giám đốc điều hành Tencent).

Thông tin về bản nâng cấp R1 của DeepSeek được công bố chỉ vài giờ trước khi Nvidia, hãng chip AI hàng đầu thế giới, công bố báo cáo tài chính mới nhất - sự kiện được giới công nghệ và các nhà đầu tư mong chờ.

Nvidia đang dẫn đầu toàn cầu trong lĩnh vực chip AI, đặc biệt là bộ xử lý đồ họa (GPU) - thành phần cốt lõi cho các mô hình AI. Do đó, doanh thu và lợi nhuận của Nvidia phản ánh sức nóng thực sự trong ngành AI, không chỉ ở Mỹ mà còn trên toàn cầu. Cổ phiếu Nvidia từng bị ảnh hưởng nặng trong đợt bán tháo hồi cuối tháng 1 vì R1.

DeepSeek âm thầm nâng cấp mô hình suy luận R1 - Ảnh: Getty Images

DeepSeek âm thầm nâng cấp mô hình suy luận R1 - Ảnh: Getty Images

Cuối tháng 2, DeepSeek đã tiết lộ các chi tiết kỹ thuật về quá trình phát triển mô hình suy luận R1 có hiệu suất ngang bằng o1 của OpenAI, với chi phí chỉ bằng một phần nhỏ so với thông thường. Đây là động thái được cho là sẽ thúc đẩy những tiến bộ toàn cầu trong lĩnh vực này.

Đây là lần đầu tiên DeepSeek tiết lộ chi tiết về cách họ khai thác hiệu suất tốt nhất từ các chip trong tính toán, truyền thông và lưu trữ, vốn là những yếu tố then chốt của đào tạo mô hình AI.

Nhóm các nhà khoa học trẻ của DeepSeek cho biết đã tiết lộ "các khối xây dựng được thử nghiệm trong thực tế để chia sẻ tiến bộ tuy nhỏ nhưng chân thành với sự minh bạch tuyệt đối".

DeepSeek được các nhà phát triển toàn cầu hoan nghênh, ca ngợi vì tiết lộ các kỹ thuật mà họ sử dụng để xây dựng các mô hình AI hiệu suất cao, chi phí thấp của mình.

Cuối tháng 4, DeepSeek âm thầm công bố mã nguồn mở Prover-V2 với 671 tỉ tham số, là bản nâng cấp cho mô hình chuyên biệt được thiết kế để xử lý các bằng chứng toán học. Tuy nhiên, công ty vẫn im lặng về tiến độ phát triển mô hình suy luận R2 được chờ đợi từ lâu.

Nhận xét trái chiều về R1, đội ngũ DeepSeek vẫn đánh giá cao

Satya Nadella, Giám đốc điều hành Microsoft, cho biết R1 là mô hình AI đầu tiên mà ông thấy có thể cạnh tranh ngang ngửa với OpenAI.

"OpenAI đã đi trước quá xa đến mức không ai thực sự bắt kịp. DeepSeek, đặc biệt là R1, là mô hình AI đầu tiên mà tôi thấy đã đạt được những thành tích đáng kể khi so với OpenAI", Satya Nadella nói trong một cuộc phỏng vấn với tạp chí Bloomberg Businessweek gần đây.

Microsoft hiện là nhà đầu tư lớn nhất vào OpenAI (hơn 13 tỉ USD).

Từ tháng 1, Microsoft đã bắt đầu cung cấp các phiên bản của R1 trên nền tảng đám mây Azure AI Foundry. Ngoài DeepSeek, nền tảng này còn có mô hình AI từ các công ty như OpenAI, Meta Platforms, Mistral, xAI của Elon Musk.

Sử dụng R1 trên Azure AI Foundry đồng nghĩa với việc dữ liệu sẽ không bị gửi đến các máy chủ của DeepSeek tại Trung Quốc.

Hồi tháng 1, Asha Sharma (Phó chủ tịch điều hành của Microsoft phụ trách sản phẩm nền tảng AI) cho biết R1 đã trải qua "các bài kiểm tra nghiêm ngặt về an toàn và đánh giá bảo mật" trước khi được cung cấp cho khách hàng.

Azure AI Foundry là nền tảng tích hợp trên đám mây của Microsoft Azure, được thiết kế để hỗ trợ các nhà phát triển và kỹ sư trong việc xây dựng, đào tạo, đánh giá và triển khai các mô hình AI. Nó cung cấp một môi trường tập trung với các công cụ và tài nguyên cần thiết để:

- Truy cập và khám phá mô hình: Cung cấp thư viện đa dạng các mô hình AI, gồm cả các mô hình tiên tiến hàng đầu và nguồn mở từ nhiều nhà cung cấp khác nhau như OpenAI, Meta Platforms, Mistral, DeepSeek…

- Xây dựng và tùy chỉnh: Cho phép nhà phát triển tùy chỉnh các mô hình AI có sẵn hoặc xây dựng mô hình mới cho các trường hợp sử dụng cụ thể của họ.

- Đánh giá và cải tiến: Cung cấp các công cụ để kiểm tra, đo lường hiệu suất và đảm bảo tính an toàn, có trách nhiệm của các mô hình AI.

- Triển khai và quản lý: Hỗ trợ triển khai các ứng dụng AI ở quy mô lớn và quản lý vòng đời của chúng trên nền tảng Azure.

- Làm việc với dữ liệu riêng: Hỗ trợ kỹ thuật tạo sinh có tăng cường truy xuất để tích hợp dữ liệu riêng của doanh nghiệp vào các mô hình AI, giúp chúng đưa ra phản hồi phù hợp và chính xác hơn.

Tạo sinh có tăng cường truy xuất là kỹ thuật được sử dụng để cải thiện khả năng của mô hình AI trong việc tạo ra các phản hồi. Thay vì chỉ dựa vào thông tin đã được học trong quá trình đào tạo ban đầu (có thể bị lỗi thời hoặc thiếu chi tiết), kỹ thuật này kết hợp hai bước chính:

1. Truy xuất: Khi nhận được câu hỏi từ người dùng, mô hình AI trước tiên sẽ tìm kiếm và truy xuất thông tin liên quan từ kho kiến thức bên ngoài, chẳng hạn cơ sở dữ liệu, tập hợp tài liệu, trang web…

2. Tạo sinh: Mô hình AI sẽ sử dụng những thông tin vừa tìm thấy để tạo ra câu trả lời chính xác và có căn cứ hơn, thay vì chỉ dựa vào những gì đã học từ trước.

Cũng trong tháng 1, Sam Altman (Giám đốc điều hành OpenAI) gọi R1 là "một mô hình AI ấn tượng, đặc biệt là về những gì DeepSeek có thể cung cấp với mức giá này". Ông cho biết OpenAI sẽ "đưa ra một số bản phát hành" để đáp lại sự cạnh tranh mạnh mẽ từ DeepSeek.

Song vào tháng 3, Ben Buchanan (cựu cố vấn đặc biệt về AI trong chính quyền Biden) nhận xét: “Thực ra R1 cũng không có gì quá đặc biệt”.

Ben Buchanan cho rằng dù các kỹ sư của DeepSeek “vô cùng tài năng”, ông không nghĩ “sự cường điệu trên truyền thông về công ty này là hợp lý”.

“Bạn nghĩ họ cải thiện hiệu suất từ đâu? Chúng tôi đã đọc các bài nghiên cứu của họ. Họ là những người thông minh, đang thực hiện chính xác các công việc tối ưu hóa thuật toán giống các công ty như Google, Anthropic và OpenAI đang làm”, ông nói thêm.

Đồng quan điểm với Ben Buchanan, Jack Clark (nhà đồng sáng lập Anthropic và cựu giám đốc chính sách OpenAI) gọi sự cường điệu gần đây xung quanh DeepSeek “có lẽ được thổi phồng quá mức”, đồng thời nhận định công ty khởi nghiệp Trung Quốc này vẫn còn “tụt hậu 6 đến 8 tháng so với các hãng tiên phong của Mỹ”.

Tuy vậy, Jack Clark cũng dành lời khen cho DeepSeek: “Công nghệ của họ có những ý tưởng thuật toán thông minh. Nếu có quyền tiếp cận lượng tài nguyên điện toán lớn tùy ý, DeepSeek có thể trở thành đối thủ cạnh tranh đáng gờm hơn”.

Ông nói rằng nên theo dõi tiến bộ từ DeepSeek, nhưng theo các bài kiểm tra nội bộ tại Anthropic, các mô hình AI của công ty khởi nghiệp Trung Quốc này không gây ra rủi ro an ninh quốc gia.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/deepseek-nang-cap-mo-hinh-suy-luan-r1-truoc-su-kien-cua-nvidia-duoc-gioi-cong-nghe-mong-cho-233114.html
Zalo