Đồng sáng lập Anthropic: 'Công nghệ của DeepSeek thông minh nhưng được thổi phồng quá mức'

Jack Clark, nhà đồng sáng lập Anthropic và cựu giám đốc chính sách OpenAI, cho rằng DeepSeek 'có thể trở thành đối thủ cạnh tranh đáng gờm hơn' nếu có quyền tiếp cận nhiều tài nguyên điện toán hơn.

Jack Clark cho biết DeepSeek vẫn còn “tụt hậu 6 đến 8 tháng so với các công ty tiên phong của Mỹ”, đồng thời gọi sự cường điệu gần đây gần đây xung quanh hãng khởi nghiệp Trung Quốc này “có lẽ được thổi phồng quá mức”.

Nhà đồng sáng lập Anthropic phát biểu điều này tại Diễn đàn Hill and Valley được tổ chức ở Washington (Mỹ), nơi quy tụ các nhà làm luật Mỹ và lãnh đạo công nghệ, trang SCMP đưa tin hôm 6.5.

Đứng sau các mô hình AI Claude, Anthropic là đối thủ cạnh tranh lớn với OpenAI. Anthropic được cơ cấu như một công ty vì lợi ích cộng đồng với trọng tâm là an toàn AI. Công ty Mỹ này đã nhận được sự hậu thuẫn mạnh mẽ từ các hãng công nghệ lớn như Amazon và Google, cũng như nhiều quỹ đầu tư mạo hiểm hàng đầu. Hồi tháng 3, Anthropic đã huy động được 3,5 tỉ USD trong vòng gọi vốn do Lightspeed Venture Partners dẫn đầu, nâng định giá công ty lên 61,5 tỉ USD.

Lightspeed Venture Partners là hãng đầu tư mạo hiểm nổi tiếng có trụ sở tại Mỹ. Họ chuyên đầu tư vào các hãng công nghệ ở giai đoạn sớm và tăng trưởng, đặc biệt trong các lĩnh vực như AI, phần mềm, công nghệ tiêu dùng, công nghệ tài chính, y tế và công nghệ sinh học.

“Công nghệ của DeepSeek có những ý tưởng thuật toán thông minh. Nếu có quyền tiếp cận lượng tài nguyên điện toán lớn tùy ý, DeepSeek có thể trở thành đối thủ cạnh tranh đáng gờm hơn”, Jack Clark nhận xét.

Ông nói rằng nên theo dõi tiến bộ của DeepSeek, nhưng theo các bài kiểm tra nội bộ tại Anthropic, các mô hình AI của công ty khởi nghiệp Trung Quốc này không gây ra rủi ro an ninh quốc gia.

Jack Clark phát biểu tại Diễn đàn Hill and Valley - Ảnh: Getty Images

Jack Clark phát biểu tại Diễn đàn Hill and Valley - Ảnh: Getty Images

Jack Clark đưa ra nhận định mang tính hạ thấp DeepSeek giữa lúc có nhiều suy đoán về thời điểm công ty đặt trụ sở tại thành phố Hàng Châu sắp phát hành mô hình AI mới.

Cuối tháng 4, DeepSeek âm thầm công bố mã nguồn mở Prover-V2 với 671 tỉ tham số, là bản nâng cấp cho mô hình chuyên biệt được thiết kế để xử lý các bằng chứng toán học. Tuy nhiên, công ty vẫn im lặng về tiến độ phát triển mô hình suy luận R2 được chờ đợi từ lâu.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

Chi phí phát triển mô hình

DeepSeek đã gây chấn động Thung lũng Silicon và Phố Wall hồi tháng 1, khi công bố mô hình suy luận mã nguồn mở R1, dựa trên nền tảng V3 ra mắt một tháng trước đó.

Dario Amodei, Giám đốc điều hành Anthropic, từng viết trong một bài đăng trên blog tháng 1 rằng DeepSeek không phát triển các mô hình của mình với chi phí thấp như nhiều người vẫn nghĩ, đồng thời kêu gọi Mỹ siết chặt việc xuất khẩu chip sang Trung Quốc.

Trong một bài viết, DeepSeek tiết lộ đào tạo mô hình nguồn mở V3 chỉ bằng 2.048 GPU (bộ xử lý đồ họa) Nvidia H800 khoảng hai tháng. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

DeepSeek tuyên bố quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.

Việc DeepSeek tuyên bố huấn luyện mô hình với chi phí thấp đã củng cố niềm tin của ngành AI Trung Quốc, trong bối cảnh có nhiều nghi ngờ về việc liệu các hạn chế công nghệ cao từ Mỹ có cản trở sự tiến bộ ở quốc gia châu Á này hay không.

Hai mô hình V3 và R1 đã khơi dậy làn sóng ứng dụng AI trong nhiều lĩnh vực khác nhau, từ nông nghiệp đến tài chính, nhờ mã nguồn mở, cho phép sử dụng và chỉnh sửa miễn phí.

Đáng chú ý là có khoảng cách 7 tháng giữa việc DeepSeek phát hành mô hình V2 hồi tháng 5.2024 và V3 vào tháng 12.2024.

Cuộc đua phát triển mô hình AI tại Trung Quốc trở nên nóng bỏng trong năm nay sau khi DeepSeek chuyển trọng tâm ngành sang công nghệ mã nguồn mở.

Gã khổng lồ thương mại điện tử Alibaba đã ra mắt loạt mô hình AI Qwen3 cuối tháng 4 vừa qua. 8 mô hình trong loạt sản phẩm này có quy mô từ 600 triệu đến 235 tỉ tham số. Theo Alibaba, biến thể lớn nhất là Qwen3-235B, đã vượt qua o3-mini và o1 của OpenAI, cũng như DeepSeek-R1 trong các lĩnh vực như hiểu ngôn ngữ, kiến thức chuyên ngành, toán học và lập trình.

DeepSeek có thể phát hành mô hình suy luận R2 trong tháng 5 này - Ảnh: SCMP

DeepSeek có thể phát hành mô hình suy luận R2 trong tháng 5 này - Ảnh: SCMP

Cũng vào cuối tháng 4, những lời đồn đoán mới nhất về R2 của DeepSeek đã xuất hiện trên mạng xã hội, trong đó có việc sản phẩm sắp ra mắt cùng những chuẩn mực mới về hiệu quả chi phí và hiệu suất hoạt động mà nó thiết lập.

Theo các bài đăng trên nền tảng mạng xã hội giao dịch chứng khoán Jiuyangongshe (Trung Quốc), R2 được phát triển bằng kiến trúc kết hợp gọi là “hỗn hợp các chuyên gia” (MoE), với tổng cộng 1.200 tỉ tham số, giúp chi phí xây dựng rẻ hơn 97,3% so với mô hình GPT-4o của OpenAI.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Theo các bài đăng trên Jiuyangongshe (sau đó đã bị xóa), R2 được huấn luyện bằng cụm máy chủ sử dụng chip Ascend 910B của Huawei - đạt 91% hiệu suất so với cụm máy chủ cùng quy mô dùng chip Nvidia A100.

Các bài đăng khác trên Jiuyangongshe còn cho rằng R2 có “khả năng thị giác tốt hơn” so với R1, vốn không có chức năng xử lý hình ảnh.

Nhiều tài khoản trên mạng xã hội X dẫn lại các bài viết từ Jiuyangongshe, làm dấy lên làn sóng thảo luận về R2.

Trong một bài đăng trên X, Deedy Das (đối tác tại Menlo Ventures, một trong những quỹ đầu tư mạo hiểm lâu đời nhất Thung lũng Silicon) viết rằng R2 đánh dấu “sự dịch chuyển lớn khỏi chuỗi cung ứng của Mỹ”, dựa trên việc mô hình AI này được phát triển bằng chip AI Trung Quốc?!

DeepSeek và Huawei hiện chưa phản hồi khi được trang SCMP đề nghị bình luận.

Theo nguồn tin của Reuters, DeepSeek có thể ra mắt mô hình suy luận mới R2 đầu tháng 5 tới, nhưng công ty vẫn chưa công bố bất kỳ thông tin nào liên quan đến tiến độ phát hành này.

Dù nhận được sự quan tâm rất lớn, DeepSeek vẫn không tương tác nhiều với công chúng ngoài việc công bố vài bản cập nhật sản phẩm và xuất bản các bài báo nghiên cứu. Bản nâng cấp mô hình ngôn ngữ lớn gần nhất của DeepSeek là vào ngày 25.3, khi công ty tung ra phiên bản nâng cấp cho V3, với những cải thiện đáng kể về khả năng suy luận và lập trình.

DeepSeek đã khởi động chiến dịch tuyển dụng khẩn cấp các vị trí liên quan đến “sản phẩm và thiết kế” tại thủ đô Bắc Kinh và thành phố Hàng Châu, làm dấy lên đồn đoán về mô hình AI mới mà công ty vẫn giữ kín thông tin.

Thông báo tuyển dụng cho biết ứng viên sẽ tham gia xây dựng “trải nghiệm sản phẩm thông minh thế hệ tiếp theo” dựa trên mô hình ngôn ngữ lớn, theo tài khoản WeChat chính thức của DeepSeek.

DeepSeek được sáng lập bởi doanh nhân công nghệ Lương Văn Phong vào năm 2023. Đây là lần đầu tiên DeepSeek thông báo tuyển dụng các vị trí như quản lý và thiết kế sản phẩm, thiết kế trực quan. Trước đó, công ty có trụ sở tại Hàng Châu chủ yếu tập trung vào nghiên cứu mô hình AI nền tảng.

Chiến dịch tuyển dụng này cho thấy DeepSeek đang chuyển mình thành một tổ chức doanh nghiệp thực thụ (tức là công ty hoạt động chuyên nghiệp, có cấu trúc rõ ràng, vận hành bài bản như các doanh nghiệp lớn).

DeepSeek cũng đang trong quá trình tuyển dụng giám đốc tài chính (CFO), giám đốc vận hành (COO) cùng bốn vị trí khác ở lĩnh vực nghiên cứu và kỹ thuật, theo trang web tuyển dụng của họ.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/dong-sang-lap-anthropic-cong-nghe-cua-deepseek-thong-minh-nhung-duoc-thoi-phong-qua-muc-232313.html
Zalo