Tranh luận về bí quyết giúp các mô hình AI của DeepSeek thành công không ngờ
Khi công ty khởi nghiệp DeepSeek (Trung Quốc) khuấy đảo ngành công nghệ toàn cầu, nhiều người trong nước này đã thảo luận về những điều đã mang lại lợi thế bất ngờ cho các mô hình trí tuệ nhân tạo (AI) của họ so với đối thủ toàn cầu.
DeepSeek đã nhận được lời khen ngợi vì phát hành hai mô hình AI nguồn mở V3 và R1 có hiệu suất mạnh mẽ với chi phí huấn luyện thấp hơn các công ty khác, nhưng nhiều người dùng mạng xã hội cho rằng thành công của công ty này chủ yếu là do kết hợp các chữ Hán trong giai đoạn tiền huấn luyện.
Giả thuyết được đưa ra là mật độ thông tin cao hơn trong dữ liệu huấn luyện tiếng Trung đã cải thiện khả năng logic của DeepSeek, cho phép nó xử lý các khái niệm phức tạp hiệu quả hơn. Những người ủng hộ giả thuyết này cho rằng việc huấn luyện bằng tiếng Trung đã cho phép DeepSeek mài giũa khả năng thông hiểu ngôn ngữ của mình. Các chữ Hán là chữ tượng hình, truyền tải ý nghĩa ngay cả khi chúng được viết không chính xác, cho phép người đọc vẫn hiểu được văn bản.
“Các chữ Hán đạt được mức truyền thông tin tối đa với chi phí tối thiểu. Là hệ thống mã hóa thông tin hiệu quả, tiếng Trung đã cải thiện đáng kể hiệu quả và giảm chi phí trong quá trình xử lý AI”, Xiang Ligang, nhà phân tích ngành viễn thông, cho biết trên tài khoản mạng xã hội của mình.
Những người khác cho rằng các chữ Hán có liên kết chặt chẽ với thông tin đa chiều như hình ảnh và âm thanh. Thơ ca truyền thống Trung Quốc thường đi kèm với tranh vẽ hoặc âm nhạc, cung cấp cho DeepSeek tài liệu học tập đa phương thức phong phú.
Trong cổng thông tin truyền thông công nghệ DeepTech, Yang Zhuoran (Phó giáo sư Đại học Yale) nhấn mạnh tầm quan trọng của chất lượng dữ liệu trong việc đào tạo các mô hình lớn. Ông nói chất lượng dữ liệu không chỉ ảnh hưởng đến khả năng tiếp thu và thể hiện kiến thức của mô hình mà còn ảnh hưởng đến phong cách và độ chính xác của nội dung được tạo ra.
Nguồn dữ liệu huấn luyện của DeepSeek vẫn chưa được tiết lộ. Thế nhưng, một số người cho rằng các nguồn huấn luyện tiếng Trung của mô hình DeepSeek có văn học cổ điển, tiếng lóng trên internet, bài báo học thuật, tài liệu chính phủ và tiếng địa phương.
Sự suy đoán này gợi lại những lo ngại khi ChatGPT lần đầu tiên trở nên phổ biến. Các nhà phê bình lo sợ rằng việc kiểm duyệt internet của Trung Quốc sẽ dẫn đến tình trạng khan hiếm dữ liệu tiếng Trung và kéo tụt ngành AI nước này.
Tuy nhiên, một số người hiện cho rằng bản chất trừu tượng của ngôn ngữ internet, được định hình bởi việc Trung Quốc kiểm duyệt từ khóa, lại có lợi cho dữ liệu huấn luyện mô hình.
Người dùng internet Trung Quốc thường sử dụng từ đồng âm hoặc cách diễn đạt gián tiếp để vượt qua sự kiểm duyệt, dẫn đến sự phức tạp hơn về ngôn ngữ. Một ký tự duy nhất có thể có nhiều nghĩa, khiến mô hình AI gặp khó khăn lúc đầu. Song theo nhận xét của một người dùng, với việc huấn luyện nhiều hơn, mô hình AI sẽ học được cách hiểu lối diễn đạt mà người Trung Quốc thường dùng để né tránh kiểm duyệt. Quá trình này giúp nâng cao năng lực tổng thể của mô hình AI.
Khả năng xử lý tiếng Trung của chatbot AI DeepSeek gây ấn tượng với nhiều người. Người dùng đã sử dụng chatbot AI DeepSeek để viết văn ngôn, tạo câu đối, dịch phương ngữ, thậm chí soạn thảo văn bản hành chính, với nhiều đánh giá nó vượt trội so với các AI trước đây.
![Nhiều người cho rằng thành công của DeepSeek chủ yếu là do kết hợp các chữ Hán trong giai đoạn tiền huấn luyện mô hình AI - Ảnh: SCMP](https://photo-baomoi.bmcdn.me/w500_r1/2025_02_15_287_51483609/2fef6a4f5901b05fe910.jpg)
Nhiều người cho rằng thành công của DeepSeek chủ yếu là do kết hợp các chữ Hán trong giai đoạn tiền huấn luyện mô hình AI - Ảnh: SCMP
Giới học thuật có xu hướng cho rằng việc dùng tiếng Trung làm dữ liệu huấn luyện không mới, nên mô hình AI của DeepSeek không hoàn toàn độc đáo. Họ tin rằng yếu tố cốt lõi hơn nằm ở chất lượng dữ liệu, chiến lược huấn luyện và quá trình tối ưu hóa lặp lại.
Blog công nghệ Shi Yu Xing Kong (Trung Quốc) chỉ ra rằng trong lĩnh vực AI, không tồn tại rào cản ngôn ngữ khi tiếp thu tri thức nhân loại. Nói cách khác, bất kể là tiếng Trung hay tiếng Anh, AI đều học cùng một kiến thức.
Một ví dụ đáng chú ý là người dùng tương tác với chatbot AI DeepSeek bằng tiếng Anh đôi khi có thể thấy tiếng Trung xuất hiện trong cuộc trò chuyện. Hiện tượng này đã được thấy cả trong mô hình DeepSeek-R1 và O3-mini của OpenAI.
Theo báo cáo kỹ thuật DeepSeek-R1, quá trình huấn luyện gồm hai giai đoạn. Trong giai đoạn đầu tiên, nhóm nghiên cứu đã thu thập một lượng lớn dữ liệu chuỗi tư duy. Dữ liệu khởi động này được dùng để tinh chỉnh mô hình nền tảng DeepSeek-V3, đảm bảo nó có khả năng suy luận nhất định trước khi bước vào giai đoạn học tăng cường.
Giai đoạn thứ hai là học tăng cường, liên quan đến việc các nhà nghiên cứu thiết kế phần thưởng cho độ chính xác và định dạng. Sự tăng cường, cung cấp phản hồi về mỗi phản hồi được tạo ra, đã hướng dẫn quá trình tối ưu hóa của mô hình và giúp nó điều chỉnh các chiến thuật tạo sinh của mình theo thời gian.
Học tăng cường là phương pháp huấn luyện AI thông qua cơ chế trial and error (thử và sai), trong đó mô hình nhận phần thưởng (reward) khi làm đúng và hình phạt (hoặc không nhận phần thưởng) khi làm sai.
Trial and error là một phương pháp học tập hoặc giải quyết vấn đề bằng cách thử nhiều cách khác nhau, rút kinh nghiệm từ những sai lầm, rồi điều chỉnh cho đến khi đạt được kết quả mong muốn.
Trong trường hợp của DeepSeek, giai đoạn học tăng cường là bước tối ưu hóa sau khi mô hình đã được huấn luyện cơ bản.
Các nhà nghiên cứu tạo ra tiêu chí đánh giá để "thưởng" cho mô hình khi nó:
- Đưa ra thông tin/câu trả lời đúng về mặt nội dung (ví dụ trả lời đúng câu hỏi toán học, cung cấp dữ kiện chuẩn xác).
- Trình bày câu trả lời rõ ràng, có cấu trúc (ví dụ chia đoạn hợp lý, dùng dấu câu chính xác, tuân thủ yêu cầu về văn phong).
Trong chuỗi bài đăng trên mạng xã hội X vào ngày 1.2, nhà nghiên cứu Daya Guo, một trong những người đóng góp chính cho mô hình suy luận R1, cho biết DeepSeek đang trên đà đạt được "tiến bộ đáng kể" để cải tiến các hệ thống AI của mình thông qua học tăng cường.
Daya Guo viết rằng "khoảnh khắc hạnh phúc nhất trong dịp Tết Nguyên đán là chứng kiến hiệu suất của R1 liên tục cải thiện và thực sự cảm nhận được sức mạnh của học tăng cường".
Chuỗi bài đăng của Daya Guo sau đó bị xóa khỏi trên X khi các hãng tin địa phương đưa tin về nội dung này.
DeepSeek thúc đẩy Baidu và các đối thủ AI khác áp dụng chiến lược nguồn mở
DeepSeek đang thúc đẩy các đối thủ trong và nước ngoài xem xét chiến lược mã nguồn mở trong phát triển AI, sau khi phát hành các mô hình mạnh mẽ với chi phí thấp, làm thay đổi cách đào tạo các mô hình ngôn ngữ lớn.
Mô hình ngôn ngữ lớn là công nghệ hỗ trợ các dịch vụ AI tạo sinh như ChatGPT, Ernie Bot và chatbot cùng tên của DeepSeek.
Mã nguồn mở cho phép công chúng truy cập vào mã nguồn của một chương trình, giúp các nhà phát triển phần mềm bên thứ ba chỉnh sửa hoặc chia sẻ thiết kế, sửa lỗi hoặc mở rộng khả năng của nó. Các công nghệ mã nguồn mở đã đóng góp to lớn vào sự phát triển mạnh mẽ của ngành công nghệ Trung Quốc vài thập kỷ qua.
Baidu và OpenAI nằm trong số những công ty lớn trong lĩnh vực AI chuyển sự chú ý sang nguồn mở. Điều này sẽ cho phép cải thiện hiệu quả và áp dụng rộng rãi hơn các sản phẩm AI của họ.
Hôm 14.2, Baidu thông báo phiên bản tiếp theo của các mô hình ngôn ngữ lớn Ernie sẽ được cung cấp dưới dạng mã nguồn mở từ ngày 30.6. Đây là một bước ngoặt 180 độ so với quan điểm lâu nay của Robin Li Yanhong (nhà sáng lập, Chủ tịch kiêm Giám đốc điều hành Baidu), vốn ủng hộ phát triển AI theo hướng mã nguồn đóng.
Trước đó, hôm 13.2, Baidu cho biết dịch vụ Ernie Bot sẽ được dùng miễn phí từ ngày 1.4, giúp nhiều người hơn tiếp cận với các mô hình ngôn ngữ lớn Ernie của công ty. Động thái này sẽ chấm dứt nỗ lực kéo dài 17 tháng nhằm kiếm tiền từ dịch vụ Ernie Bot, vốn đang thu phí người dùng 49,90 nhân dân tệ (6,84 USD) mỗi tháng để truy cập vào các mô hình ngôn ngữ lớn Ernie.
![Baidu cho biết phiên bản tiếp theo của các mô hình ngôn ngữ lớn Ernie sẽ được cung cấp dưới dạng mã nguồn mở từ ngày 30.6 - Ảnh: SCMP](https://photo-baomoi.bmcdn.me/w500_r1/2025_02_15_287_51483609/a1e0e540d60e3f50661f.jpg)
Baidu cho biết phiên bản tiếp theo của các mô hình ngôn ngữ lớn Ernie sẽ được cung cấp dưới dạng mã nguồn mở từ ngày 30.6 - Ảnh: SCMP
Sự thay đổi lớn trong chiến lược của Baidu phản ánh sự cạnh tranh gia tăng trên thị trường AI Trung Quốc, nơi DeepSeek và Alibaba gần đây đã có những bước tiến lớn trong việc phát triển và tăng cường áp dụng mô hình AI.
Các mô hình Qwen của Alibaba đang đóng vai trò quan trọng trong việc vận hành hoặc hỗ trợ phát triển những mô hình ngôn ngữ lớn mã nguồn mở mạnh nhất hiện nay, theo đánh giá của Hugging Face – nền tảng nổi tiếng trong lĩnh vực học máy.
Dù sáng kiến mã nguồn mở của Baidu có thể giúp thu hút nhiều người dùng hơn và đối phó với sự cạnh tranh ngày càng tăng, nhưng nó cũng đặt thêm gánh nặng tài chính lên công ty trong bối cảnh triển vọng kiếm tiền từ AI vẫn còn chưa chắc chắn, theo Su Lian Jye - nhà phân tích chính tại công ty nghiên cứu Omdia.
Dự đoán nhu cầu về các mô hình AI nền tảng sẽ tiếp tục tăng nhanh trong năm nay, Su Lian Jye cho biết thị trường này sẽ bắt đầu chứng kiến sự hợp nhất và tập trung nhiều hơn vào các mô hình cũng như tác tử AI dành riêng cho ngành.
Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.
OpenAI đang tìm cách xem xét lại cách tiếp cận nguồn đóng của mình với quá trình phát triển AI, Sam Altman (Giám đốc điều hành OpenAI) chia sẻ trong chủ đề hỏi đáp trên mạng xã hội Reddit hôm 31.1.
Sau bước đột phá của DeepSeek trong quá trình phát triển mô hình AI, Sam Altman viết trên Reddit: "Cá nhân tôi nghĩ rằng chúng tôi đã đi sai hướng trong lịch sử và cần tìm ra một chiến lược nguồn mở khác". Tuy nhiên, ông nói thêm rằng động thái như vậy không phải là "ưu tiên cao nhất hiện tại" của OpenAI.
Sam Altman thừa nhận rằng DeepSeek đã "làm tốt" trong việc tạo ra chatbot AI để cạnh tranh với ChatGPT.
Dù OpenAI tuyên bố có bằng chứng rằng DeepSeek đã sử dụng quy trình distillation (chưng cất) để huấn luyện mô hình của mình dựa trên dữ liệu công ty Mỹ mà không có sự cho phép, Sam Altman vẫn không có kế hoạch khởi kiện đối thủ. Ông nhấn mạnh OpenAI sẽ tiếp tục đổi mới và duy trì vị thế dẫn đầu, thay vì vướng vào các tranh chấp pháp lý.
"Không, chúng tôi không có kế hoạch kiện DeepSeek vào thời điểm này. Chúng tôi sẽ tiếp tục xây dựng những sản phẩm tuyệt vời và dẫn đầu thế giới với khả năng mô hình của mình. Tôi nghĩ điều đó sẽ ổn thôi", Sam Altman phát biểu trước báo giới hôm 3.2.