Huawei tuyên bố có phương pháp huấn luyện AI tốt hơn DeepSeek nhờ dùng chip Ascend

Tiến bộ của Huawei trong kiến trúc mô hình trí tuệ nhân tạo (AI) mang ý nghĩa quan trọng, khi gã khổng lồ công nghệ Trung Quốc nỗ lực giảm sự phụ thuộc vào công nghệ Mỹ.

Các nhà nghiên cứu đang làm việc trên mô hình ngôn ngữ lớn Pangu của Huawei cho biết họ đã cải tiến phương pháp huấn luyện AI ban đầu của DeepSeek bằng cách tận dụng chip AI độc quyền thuộc công ty.

Một bài báo của nhóm nghiên cứu Pangu đã giới thiệu khái niệm Mixture of Grouped Experts (MoGE - tổ hợp các chuyên gia theo nhóm). Đây là phiên bản nâng cấp cho kỹ thuật Mixture of Experts (MoE - tổ hợp các chuyên gia), vốn đóng vai trò then chốt trong các mô hình AI tiết kiệm chi phí của DeepSeek.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các expert (chuyên gia), mỗi expert tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Theo bài báo của Huawei, dù MoE giúp tiết kiệm tài nguyên điện toán với các mô hình AI có số lượng tham số lớn và khả năng học tăng cường, nhưng kỹ thuật này thường dẫn đến sự không hiệu quả trong việc thực thi. Nguyên nhân là do việc kích hoạt không đồng đều các expert, khiến hiệu suất giảm khi chạy song song trên nhiều thiết bị.

Theo các nhà nghiên cứu của Huawei, MoGE cải tiến bằng cách “gom các expert lại trong quá trình lựa chọn và phân bổ khối lượng công việc tốt hơn”.

Trong huấn luyện AI, expert đề cập đến các mô hình con hoặc thành phần chuyên biệt trong một mô hình lớn hơn, mỗi cái được thiết kế để xử lý một nhiệm vụ cụ thể hoặc loại dữ liệu riêng biệt. Điều này giúp hệ thống tổng thể tận dụng chuyên môn đa dạng để nâng cao hiệu suất.

1. Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

2. Học tăng cường là phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Bước tiến đó đến vào thời điểm quan trọng, khi các công ty AI Trung Quốc đang tập trung vào việc cải thiện hiệu suất huấn luyện và suy luận của mô hình thông qua cải tiến thuật toán, cũng như sự kết hợp chặt chẽ giữa phần cứng và phần mềm, bất chấp các hạn chế từ Mỹ trong việc xuất khẩu các chip AI tiên tiến như của Nvidia.

Các nhà nghiên cứu của Huawei đã thử nghiệm kiến trúc mới này trên bộ xử lý thần kinh (NPU) Ascend - chip được thiết kế để tăng tốc các tác vụ AI. Họ nhận thấy rằng MoGE “giúp cân bằng khối lượng công việc giữa các expert tốt hơn, thực thi hiệu quả hơn cho cả huấn luyện và suy luận mô hình”.

So với các mô hình AI như DeepSeek-V3, Qwen2.5-72B của Alibaba và Llama-405B của Meta Platforms, Pangu đạt được hiệu suất hàng đầu trong hầu hết bài kiểm tra tiếng Anh tổng quát và tất cả bài kiểm tra tiếng Trung, đồng thời cho thấy hiệu quả cao hơn trong huấn luyện ngữ cảnh dài (xử lý và hiểu được những đoạn văn bản rất dài), theo bài báo.

Các nhà nghiên cứu của Huawei cũng cho biết Pangu vượt trội trong các nhiệm vụ hiểu ngôn ngữ tổng quát, đặc biệt là tác vụ suy luận.

Tiến bộ của Huawei trong kiến trúc mô hình AI có thể mang tính đột phá, khi công ty có trụ sở tại thành phố Thâm Quyến (Trung Quốc) đang tìm cách giảm sự phụ thuộc vào công nghệ Mỹ trong bối cảnh các lệnh trừng phạt vẫn tiếp diễn. Chip AI Ascend của Huawei được xem là lựa chọn thay thế trong nước cho một số sản phẩm Nvidia.

Pangu Ultra, mô hình ngôn ngữ lớn với 135 tỉ tham số được tối ưu hóa cho NPU, là minh chứng rõ ràng cho hiệu quả của những cải tiến kiến trúc và hệ thống từ Huawei.

Theo Huawei, quá trình huấn luyện gồm ba giai đoạn chính: Tiền huấn luyện, mở rộng ngữ cảnh dài và hậu huấn luyện. Điều này liên quan đến tiền huấn luyện với 13.200 tỉ token và mở rộng ngữ cảnh dài bằng 8.192 chip Ascend.

Các nhà nghiên cứu cho biết mô hình và hệ thống này sẽ sớm được cung cấp cho khách hàng thương mại của Huawei.

“R1-0528 giúp DeepSeek hãng dẫn đầu về mô hình AI mã nguồn mở”

Thông tin trên được Huawei công bố sau khi DeepSeek đạt bước tiến lớn với R1-0528, bản cập nhật cho mô hình suy luận R1.

DeepSeek nhấn mạnh về những cải tiến về khả năng suy luận và viết sáng tạo của R1-0528, giúp mô hình này giỏi hơn trong việc viết các bài văn nghị luận, tiểu thuyết và văn xuôi theo phong cách gần giống các tác giả là con người. Theo công ty khởi nghiệp có trụ sở ở thành phố Hàng Châu (Trung Quốc), khả năng lập trình của R1-0528 cũng được nâng cao.

DeepSeek cho biết R1-0528 đã giảm 50% hiện tượng “ảo giác”, tức mô hình AI tạo ra thông tin sai lệch, không dựa trên cơ sở thực tế.

Những cải tiến này đạt được nhờ việc đầu tư thêm tài nguyên điện toán vào giai đoạn hậu huấn luyện (thời điểm các nhà phát triển thực hiện những điều chỉnh cuối cùng sau quá trình huấn luyện chính), theo công ty khởi nghiệp AI Trung Quốc. Hậu huấn luyện thường tập trung vào việc nâng cao hiệu quả, tính an toàn và độ chính xác của nội dung.

“Mô hình R1 được cập nhật đã vượt trội các mô hình AI trong nước ở nhiều bài kiểm tra chuẩn, gồm toán học, lập trình và tư duy logic tổng quát, và sánh ngang những mô hình hàng đầu toàn cầu như o3 của OpenAI và Gemini 2.5 Pro của Google”, DeepSeek tuyên bố.

Tư duy logic tổng quát đề cập đến khả năng suy luận hợp lý, phân tích và giải quyết vấn đề một cách logic trong nhiều bối cảnh khác nhau, không giới hạn trong một lĩnh vực chuyên môn cụ thể.

R1-0528 được DeepSeek phát hành hôm 28.5, khoảng 1 tháng sau khi R1 bị Qwen3 (mô hình hàng đầu của gã khổng lồ thương mại điện tử Alibaba) soán ngôi hồi cuối tháng 4 trên bảng xếp hạng LiveBench dành cho các hệ thống AI mã nguồn mở. Sự thay đổi này cho thấy mức độ cạnh tranh gay gắt giữa các hãng công nghệ Trung Quốc trong cuộc đua phát triển AI.

Các kết quả đánh giá hiệu năng mà DeepSeek trích dẫn cho thấy R1-0528 đã vươn lên dẫn đầu, vượt Qwen3, vốn chỉ mới ra mắt một tháng trước đó.

R1-0528 cho thấy DeepSeek đã “vượt xAI, Meta Platforms và Anthropic để trở thành phòng thí nghiệm AI số thứ 2 thế giới, chỉ kém OpenAI”, theo nhận định từ công ty tư vấn Artificial Analysis.

Artificial Analysis nhấn mạnh rằng DeepSeek đã trở thành công ty dẫn đầu không thể chối cãi trong lĩnh vực mô hình AI mã nguồn mở, khi khoảng cách giữa mô hình nguồn mở và đóng đang thu hẹp đáng kể.

So với các mô hình AI nguồn đóng, R1-0528 chỉ xếp sau o4-mini (bản High) và o3 thuộc OpenAI trong bảng chỉ số trí tuệ của Artificial Analysis. Đây là bảng xếp hạng các mô hình AI hàng đầu theo năng lực toán học, lập trình, kiến thức chuyên ngành và hiểu ngôn ngữ.

Nền tảng đánh giá độc lập LiveCodeBench cũng báo cáo rằng R1-0528 đã cải thiện rõ rệt trong khả năng lập trình có sự hỗ trợ của AI.

Hiện tại, R1-0528 được xếp hạng là mô hình AI hàng đầu Trung Quốc về khả năng lập trình trên bảng xếp hạng LiveCodeBench, chỉ sau o4-mini-high, o3-high và o4-mini-medium của OpenAI ở quy mô toàn cầu.

R1-0528 vượt qua cả Qwen3 của Alibaba và Claude 3.7 của Anthropic, vốn từng được xem là hai trong những mô hình AI lập trình hàng đầu thế giới hiện nay.

LiveCodeBench là nền tảng đánh giá chuyên sâu về khả năng lập trình của các mô hình AI.

Việc ra mắt R1-0528 đã thu hút sự chú ý từ cộng đồng công nghệ cả trong và ngoài Trung Quốc, tạo nên làn sóng áp dụng mô hình này nhanh chóng tương tự khi R1 được giới thiệu hồi tháng 1. R1 từng gây ấn tượng mạnh với các nhà phát triển nhờ hiệu năng cao và chi phí huấn luyện thấp.

Các hãng công nghệ lớn Trung Quốc như Tencent Holdings, Baidu và ByteDance (chủ sở hữu TikTok) đều công bố tích hợp R1-0528 vào nền tảng điện toán đám mây của họ dành cho nhà phát triển và khách hàng doanh nghiệp.

Trên phạm vi toàn cầu, các công ty khởi nghiệp hạ tầng và huấn luyện AI như Fireworks AI, Hyperbolics cũng tích hợp R1-0528 vào nền tảng của họ.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/huawei-tuyen-bo-co-phuong-phap-huan-luyen-ai-tot-hon-deepseek-nho-dung-chip-ascend-233388.html
Zalo