DeepSeek tiết lộ mô hình AI R1 chỉ tốn 294.000 USD để đào tạo
VietTimes - Con số chi phí 294.000 USD này tương phản mạnh mẽ với tuyên bố của Sam Altman, CEO OpenAI, rằng chi phí đào tạo các mô hình nền tảng của họ 'cao hơn nhiều' so với 100 triệu USD.

DeepSeek đào tạo mô hình AI chỉ tốn 294.000 USD. Ảnh: Reuters.
Một bài báo học thuật mới đây từ công ty phát triển AI Trung Quốc DeepSeek đang làm dấy lên cuộc tranh luận toàn cầu về chi phí đào tạo các mô hình trí tuệ nhân tạo. Theo bài báo được công bố trên tạp chí Nature, DeepSeek cho biết họ chỉ tốn 294.000 USD để đào tạo mô hình R1 của mình, một con số thấp hơn rất nhiều so với ước tính của các đối thủ tại Mỹ.
Thông tin hiếm hoi về chi phí này - ước tính đầu tiên của DeepSeek về mô hình R1 - đã thu hút sự chú ý lớn từ giới chuyên môn. Tháng 1 vừa qua, khi DeepSeek ra mắt những gì họ tuyên bố là một hệ thống AI chi phí thấp, thị trường chứng khoán toàn cầu đã chứng kiến một đợt bán tháo cổ phiếu công nghệ. Các nhà đầu tư lo ngại rằng các mô hình mới, hiệu quả hơn có thể đe dọa vị thế thống trị của các công ty AI hàng đầu, bao gồm cả Nvidia.
Mô hình R1 của DeepSeek được đào tạo bằng cách sử dụng 512 chip Nvidia H800, trong suốt 80 giờ. Con số chi phí 294.000 USD này tương phản mạnh mẽ với tuyên bố của Sam Altman, CEO OpenAI, rằng chi phí đào tạo các mô hình nền tảng của họ "cao hơn nhiều" so với 100 triệu USD.
Sự minh bạch của DeepSeek về chi phí và công nghệ đang được các công ty và quan chức Mỹ đặt câu hỏi. Một số người nghi ngờ về việc DeepSeek có thể đã tiếp cận các chip AI mạnh hơn, vốn bị Mỹ cấm xuất khẩu sang Trung Quốc.
Trong tài liệu bổ sung của bài báo trên Nature, DeepSeek lần đầu tiên thừa nhận sở hữu chip Nvidia A100 và cho biết đã sử dụng chúng trong giai đoạn chuẩn bị cho việc đào tạo mô hình nhỏ hơn. Tuy nhiên, họ khẳng định mô hình R1 chính thức được đào tạo trên cụm chip H800 hợp pháp. Thông tin này cũng xác nhận những báo cáo trước đó của Reuters rằng DeepSeek là một trong số ít công ty Trung Quốc vận hành cụm siêu máy tính A100.
Bên cạnh đó, bài báo cũng gián tiếp trả lời cáo buộc từ một số cố vấn cấp cao của Nhà Trắng và các nhân vật AI khác của Mỹ. Những người này cho rằng DeepSeek đã cố tình "chưng cất" (distill) các mô hình của OpenAI thành mô hình của riêng mình. "Chưng cất mô hình" là một kỹ thuật để một hệ thống AI học hỏi từ một hệ thống AI khác, cho phép mô hình mới tận dụng lợi ích từ khoản đầu tư khổng lồ vào mô hình gốc mà không phải chịu chi phí.
DeepSeek giải thích rằng dữ liệu đào tạo cho mô hình V3 của họ được lấy từ các trang web có chứa "một số lượng lớn câu trả lời do mô hình OpenAI tạo ra" và việc thu thập kiến thức từ các mô hình mạnh mẽ khác chỉ là "một cách gián tiếp". Họ nhấn mạnh đây là sự ngẫu nhiên, không phải hành động cố ý.
Việc DeepSeek tiết lộ chi tiết về chi phí và phương pháp đào tạo không chỉ làm nóng thêm cuộc chiến công nghệ giữa Mỹ và Trung Quốc mà còn đặt ra những câu hỏi quan trọng về tính minh bạch, đạo đức và tương lai của ngành công nghiệp AI toàn cầu.