Bí mật đằng sau DeepSeek: Trung Quốc khiến cả thế giới chao đảo với cú sốc AI

Các chính sách hỗ trợ của chính phủ, nguồn tài trợ và lực lượng kỹ sư AI dồi dào đã tạo điều kiện cho các công ty Trung Quốc phát triển những mô hình ngôn ngữ lớn (LLM) tiên tiến như DeepSeek.

Cuối tháng 1, DeepSeek gây bão giới công nghệ toàn cầu với việc phát hành hai mô hình LLM “ngang cơ” sản phẩm của Mỹ nhưng chi phí chỉ bằng một phần nhỏ. Trong đó, mô hình lý luận nguồn mở DeepSeek-R1 có thể giải quyết một số vấn đề khoa học tương tự o1, LLM tiên tiến nhất của OpenAI.

Trong khi thế giới ngạc nhiên, các nhà nghiên cứu trong nước cho rằng thành tựu này hoàn toàn dự đoán được và phù hợp với tham vọng trở thành cường quốc đi đầu về trí tuệ nhân tạo (AI) của Bắc Kinh.

Yunji Chen, nhà khoa học máy tính đến từ Viện Công nghệ máy tính của Viện Hàn lâm Khoa học Trung Quốc, chỉ ra không sớm thì muộn một công ty như DeepSeek sẽ xuất hiện ở Trung Quốc.

Nguyên nhân là vì nguồn vốn đầu tư khổng lồ rót vào các doanh nghiệp phát triển LLM và số lượng người có bằng tiến sĩ các môn STEM (khoa học, công nghệ, kỹ thuật hoặc toán học).

“Nếu không có DeepSeek, sẽ có các LLM Trung Quốc khác”, Chen nói.

Đây là một thực tế đã được chứng minh. Vài ngày sau “cơn địa chấn” DeepSeek, Alibaba đã phát hành LLM tiên tiến nhất cho đến nay, Qwen2.5-Max, với tuyên bố vượt trội hơn DeepSeek-V3.

Moonshot AI và ByteDance cũng công bố các mô hình suy luận mới, Kimi 1.5 và 1.5-pro, có thể hiệu quả hơn o1 trong một số bài kiểm tra hiệu chuẩn.

Ưu tiên của chính phủ

Vào năm 2017, chính phủ Trung Quốc đã công bố ý định trở thành quốc gia dẫn đầu về AI vào năm 2030. Trung Quốc đặt mục tiêu hoàn thành những đột phá lớn về AI "sao cho công nghệ và ứng dụng đạt cấp độ hàng đầu thế giới" vào năm 2025.

Để làm được điều đó, phát triển hệ thống nhân tài AI là ưu tiên hàng đầu. Tính đến năm 2022, Bộ Giáo dục Trung Quốc cho phép 440 trường đại học đào tạo chuyên ngành AI, theo báo cáo từ Trung tâm An ninh và Công nghệ mới nổi (CSET) thuộc Đại học Georgetown.

Cùng năm này, Trung Quốc chiếm phân nửa số nhà nghiên cứu AI hàng đầu, còn Mỹ chỉ đóng góp 18%, theo tổ chức tư vấn MacroPolo.

DeepSeek gây bất ngờ với loạt mô hình ngôn ngữ lớn giá rẻ, hiệu suất cao. Ảnh: Bloomberg

DeepSeek gây bất ngờ với loạt mô hình ngôn ngữ lớn giá rẻ, hiệu suất cao. Ảnh: Bloomberg

Marina Zhang, nhà nghiên cứu khoa học chính sách tại Đại học Công nghệ Sydney, nhận định DeepSeek có lẽ được hưởng lợi từ khoản đầu tư của chính phủ vào đào tạo và phát triển nhân tài AI, bao gồm nhiều học bổng, tài trợ nghiên cứu và quan hệ đối tác giữa giới học thuật và ngành công nghiệp.

Đơn cử, các sáng kiến được nhà nước hậu thuẫn như Phòng thí nghiệm Kỹ thuật Quốc gia về Công nghệ và Ứng dụng Học sâu đã đào tạo hàng nghìn chuyên gia AI.

Rất khó tìm thấy số liệu chính xác về lực lượng nhân sự của DeepSeek, nhưng người sáng lập Liang Wenfeng chia sẻ công ty tuyển dụng sinh viên tốt nghiệp và nghiên cứu sinh từ các trường đại học lớn nhất trong nước.

Một số thành viên trong đội ngũ lãnh đạo chưa đến 35 tuổi và trưởng thành cùng với sự trỗi dậy của Trung Quốc như một siêu cường công nghệ, Zhang nói. "Họ được thúc đẩy sâu sắc bởi động lực tự lực trong đổi mới".

Wenfeng, 39 tuổi, tốt nghiệp ngành khoa học máy tính tại Đại học Chiết Giang. Ông đồng sáng lập quỹ phòng hộ High-Flyer gần một thập kỷ trước và thành lập DeepSeek vào năm 2023.

Theo Jacob Feldgoise, người nghiên cứu về nhân tài AI ở Trung Quốc tại CSET, các chính sách quốc gia thúc đẩy hệ sinh thái mô hình cho AI sẽ giúp các công ty như DeepSeek thu hút cả tài trợ và con người.

Song, bất chấp sự gia tăng các khóa học AI tại các trường đại học, Feldgoise không rõ có bao nhiêu sinh viên tốt nghiệp chuyên ngành AI và họ có được dạy các kỹ năng mà các công ty cần hay không.

Những năm gần đây, doanh nghiệp AI Trung Quốc phàn nàn sinh viên tốt nghiệp từ các chương trình này không đạt được chất lượng mà họ mong đợi, khiến một số phải hợp tác với các trường đại học để nâng cao chất lượng.

“Tôi luyện”

Các nhà khoa học cho biết, có lẽ yếu tố ấn tượng nhất trong thành công của DeepSeek là họ đã phát triển DeepSeek-R1 và Janus-Pro-7B trong bối cảnh chính phủ Mỹ kiểm soát xuất khẩu, ngăn chặn quyền tiếp cận các chip điện toán AI tiên tiến kể từ năm 2022.

Theo Zhang, DeepSeek thể hiện cách tiếp cận rõ rệt của Trung Quốc với đổi mới, nhấn mạnh hiệu quả khi đối mặt với hàng loạt hạn chế.

Startup của Wenfeng nói sử dụng khoảng 2.000 chip Nvidia H800 để đào tạo DeepSeek-V3. Ngược lại, Llama 3.1 405B, một LLM tinh vi được Meta phát hành vào tháng 7/2024 dựa trên hơn 16.000 chip Nvidia H100.

Trong một bài đăng vào năm 2022 trên WeChat, High-Flyer cho biết họ có 10.000 chip A100 đời cũ của Nvidia. "Vấn đề chúng ta phải đối mặt chưa bao giờ là tiền, mà là lệnh cấm chip cao cấp", Wenfeng nói với truyền thông Trung Quốc tháng 7/2024.

DeepSeek sử dụng nhiều cách khác nhau để tăng hiệu quả của các mô hình. Chẳng hạn, nó triển khai kiến trúc Mixture of Expert (MoE), một phương pháp học máy đào tạo các mô hình nhanh hơn với ít tham số hơn so với các kỹ thuật truyền thống.

Theo nhà khoa học máy tính Chang Xu của Đại học Sydney, nó giúp DeepSeek đào tạo mô hình với số lượng chip ít hơn.

Một kỹ thuật khác là multi-head latent attention (MLA), cho phép mô hình lưu trữ nhiều dữ liệu hơn với ít bộ nhớ hơn.

Những thành tựu của DeepSeek có thể là “kim chỉ nam” cho các quốc gia có tham vọng AI nhưng thiếu nguồn lực tài chính và phần cứng để đào tạo các LLM khổng lồ, Yanbo Wang, một nhà nghiên cứu khoa học chính sách tại Đại học Hồng Kông cho biết.

(Theo Nature, Fortune)

Du Lam

Nguồn VietnamNet: https://vietnamnet.vn/bi-mat-dang-sau-deepseek-trung-quoc-khien-ca-the-gioi-chao-dao-voi-cu-soc-ai-2391114.html
Zalo