Từ ChatGPT đến Deepseek
Cuối tháng 1/2025, công ty trí tuệ nhân tạo (AI) DeepSeek có trụ sở tại Hàng Châu, Trung Quốc đã phát hành sản phẩm AI mới nhất DeepSeek-R1 và chính thức mở mã nguồn. Trong thời gian ngắn, DeepSeek-R1 đã gây ra cuộc tranh luận sôi nổi trên toàn thế giới, và lượt tải đã vượt qua sản phẩm hàng đầu trước đó là ChatGPT.
So với ChatGPT, có lượng lớn dữ liệu và khả năng tính toán mạnh mẽ, DeepSeek đi theo con đường phát triển mô hình lớn dựa trên sự đổi mới của thuật toán. Tức là mô hình này được đào tạo thông qua học tập tăng cường (RL) thuần túy, với sự đổi mới cốt lõi nằm ở việc loại bỏ hoàn toàn các quy trình học có giám sát (SFT) do con người can thiệp, đồng thời thể hiện khả năng suy luận vượt trội có thể so sánh với ChatGPT-o1-1217. Thông qua việc tối ưu hóa thuật toán và thiết kế phối hợp với phần cứng, DeepSeek đã giảm chi phí huấn luyện xuống còn 1/10 so với mô hình cùng hiệu năng, đẩy mạnh ứng dụng trong các ngành nghề.

DeepSeek-R1 ra đời tác động mạnh tới cổ phiếu của các “ông lớn” công nghệ.
Ngày 31/1/2025, NVIDIA tuyên bố sử dụng DeepSeek-R1 và cho biết khả năng suy luận của nó là tân tiến nhất. Đồng thời, Microsoft cũng giới thiệu DeepSeek-R1 trên nền tảng AI của mình và cho biết nó đã trải qua các đánh giá an toàn và nghiêm ngặt, bao gồm đánh giá tự động về hành vi của mô hình và đánh giá an toàn rộng rãi, nhằm giảm thiểu rủi ro tiềm ẩn. Amazon cũng tuyên bố triển khai DeepSeek-R1. Điều này đánh dấu Trung Quốc đang chuyển từ “người đi sau” trở thành “người dẫn đầu” trong lĩnh vực AI.
Những công nghệ đột phá của DeepSeek
Mặc dù cả hai ứng dụng AI này đều coi việc sử dụng Transformer (mô hình học sâu được thiết kế để phục vụ giải quyết nhiều bài toán trong xử lý ngôn ngữ và tiếng nói - ND) làm công nghệ cơ bản, nhưng DeepSeek trực tiếp tích hợp kiến thức có cấu trúc vào khuôn khổ mô hình để nâng cao trình độ hiểu biết ngữ nghĩa, đồng thời chỉ sử dụng thuật toán học tập tăng cường (RL) để thúc đẩy khả năng tự đào tạo và nâng cấp của mô hình, có thể kết nối với Internet để kiểm tra thời gian thực. Điều này có khác biệt đáng kể so với thuật toán học tập tăng cường từ phản hồi của con người (RLHF) mà ChatGPT đang sử dụng. Đồng thời, DeepSeek cũng thể hiện rõ quá trình suy nghĩ và nguồn dữ liệu để tạo ra câu trả lời chính xác hơn. Bước đột phá công nghệ của DeepSeek so với ChatGPT có sự khác biệt về kiến trúc kỹ thuật, dữ liệu đào tạo, kỹ thuật toán và các chỉ số hiệu suất.
Về kiến trúc kỹ thuật, ChatGPT dựa trên bộ giải mã transformer tiêu chuẩn, trong khi DeepSeek sử dụng mô hình tạo sinh tăng cường dựa trên kết quả truy xuất, giúp giảm các phép tính không cần thiết và nâng cao hiệu quả xử lý văn bản dài bằng cách lựa chọn các ý chính. Đồng thời, áp dụng kiến trúc hỗn hợp chuyên gia (MoE) để mở rộng khả năng mô hình trong tiền đề vẫn giữ lượng tham số có thể kiểm soát được.

Trụ sở của DeepSeek ở Hàng Châu, Trung Quốc.
Về dữ liệu đào tạo, DeepSeek phá vỡ những hạn chế của mô hình văn bản đơn nhất và xây dựng kho dữ liệu rất phong phú, bao hàm văn bản, mật mã, ký hiệu toán học và biểu đồ khoa học. Thông qua việc áp dụng phương pháp lấy mẫu dựa trên mật độ kiến thức để tăng trọng số của dữ liệu trên các lĩnh vực chuyên môn (ví dụ như luận văn học thuật chiếm 15%), tăng cường đáng kể khả năng suy luận logic.
Về công nghệ lõi, dựa trên RLHF của ChatGPT, DeepSeek đã phát triển một khuôn khổ học tập tăng cường gồm nhiều mục tiêu để tối ưu hóa độ chính xác thực tế (FactScore) lên 23%, tính nhất quán logic (LogicBench) là +18% và tuân thủ đạo đức. Kỹ thuật tạo lệnh (prompt engineering) tự tiến hóa sẽ làm cho mô hình dữ liệu có thể tối ưu hóa câu hỏi của người dùng.
Về các chỉ số hiệu suất, DeepSeek có tốc độ suy luận nhanh hơn 40% (lên đến 320 tokens/giây) so với ChatGPT, tính nhất quán trong việc tạo văn bản dài tăng 35% (vượt qua bài kiểm tra kết nối 100k token) và đạt được 89,7 điểm về khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU) trong khi ChatGPT chỉ đạt 86,4, đặc biệt là độ chính xác vượt 92% trong lĩnh vực STEM (Khoa học, Công nghệ, Kỹ thuật và Toán học).
Theo các tài liệu chính thức do DeepSeek công bố, những đột phá về công nghệ của công ty này chủ yếu bao gồm nâng cao khả năng suy luận của mô hình ngôn ngữ lớn thông qua học tập tăng cường (DeepSeek-E1) để tối ưu hóa khả năng suy luận và không còn cần dữ liệu có sự giám sát của con người, thông qua việc kích hoạt mạng lưới chuyên gia thực hiện tính toán có hiệu quả cao và cân bằng giữa hiệu suất mô hình và chi phí tính toán (DeepSeek-V3); tuân thủ chủ nghĩa dài hạn, thông qua mã nguồn mở để thúc đẩy quá trình lặp lại nhanh chóng của các mô hình ngôn ngữ lớn (DeepSeek-LLM). Không chỉ ở cấp độ công nghệ, mã nguồn mở của DeepSeek trái ngược hoàn toàn với mã nguồn đóng của OpenAI, nhưng mã nguồn mở có giá trị quan trọng đối với việc thúc đẩy đổi mới công nghệ.
Phân loại rủi ro
Đột phá công nghệ của DeepSeek không chỉ làm giảm ngưỡng nghiên cứu và phát triển, thúc đẩy sự phổ biến của công nghệ, mà còn có thể làm tăng rủi ro pháp lý ở bên ngoài. Đặc biệt là trước sự trừng phạt của các nước ngoài khu vực, hiện 3 yếu tố của AI là dữ liệu, thuật toán và khả năng tính toán đã xuất hiện rủi ro tương đối lớn, cũng như bảo vệ quyền riêng tư cá nhân trong ứng dụng, nếu xử lý không cẩn thận sẽ đe dọa nghiêm trọng đến sự phát triển công nghệ AI của Trung Quốc. Do đó, cần phải thực hiện ngay các yêu cầu về quy tắc an ninh và ứng phó cẩn thận với sự giám sát và quản lý của các nước khác.
Với những rủi ro về quyền sở hữu trí tuệ và quyền riêng tư cá nhân có liên quan đến dữ liệu, có thể thấy nguồn dữ liệu có thể có hành vi thu thập trái phép. Ví dụ, tháng 12/2023, tờ New York Times đã đệ đơn kiện OpenAI và Microsoft vì sử dụng trái phép hàng triệu bài báo của tờ này để đào tạo mô hình. DeepSeek có thể đối mặt với rủi ro pháp lý tương tự nếu sử dụng dữ liệu trái phép trong quá trình đào tạo mô hình.
Thứ hai, việc học tập của quá trình chưng cất AI (AI distillation - trích xuất trí tuệ từ một mô hình AI và chuyển hóa nó vào mô hình mới) đối với nội dung của các mô hình có sẵn có thể có các hành vi vi phạm. Tuy nhiên, DeepSeek-R1 tuân theo giấy phép MIT (giấy phép sử dụng cho các phần mềm mã nguồn mở được phát triển dựa trên một loại giấy phép có nguồn gốc từ Viện Công nghệ Massachusetts/MIT), cho phép người dùng đào tạo mô hình khác với sự trợ giúp của DeepSeek-R1 thông qua công nghệ chưng cất. Nghĩa là dựa vào giấy phép phần mềm có mã nguồn mở lỏng lẻo cho phép người dùng sử dụng, sửa đổi và phân phối phần mềm mà hầu như không có hạn chế nào. Tất nhiên, điều này cũng có thể liên quan đến việc lạm dụng công nghệ và cạnh tranh không lành mạnh, do đó cũng cần phải phân tích ở cấp độ có hệ thống hơn.
Thứ 3 là rủi ro quyền riêng tư cá nhân trong quá trình huấn luyện mô hình và sử dụng của người dùng. Giới học thuật đã tiến hành một cuộc thảo luận có hệ thống về vấn đề này, nhưng cần đặc biệt chú ý đến vấn đề truyền tải dữ liệu xuyên quốc gia, đây cũng là lý do trực tiếp khiến DeepSeek bị loại bỏ ở Italy. Hiện nay, ngành AI của Trung Quốc đang phát triển nhanh chóng, nhiều doanh nghiệp có nhu cầu “đi ra ngoài”, trong khi EU đang chuyển từ bảo vệ quyền riêng tư thành các rào cản thương mại công nghệ thông qua việc thực thi pháp luật nghiêm ngặt, tức là nhiều doanh nghiệp AI không thuộc Liên minh châu Âu (EU) buộc phải rút lui do chi phí tuân thủ quy tắc quá cao, điều này trên thực tế là sự mở rộng của chủ quyền kỹ thuật số. Điều này cũng cho thấy xu thế phát triển của ngành AI trên toàn cầu đang chuyển từ cạnh tranh công nghệ sang cạnh tranh quy tắc.

Sự ra đời của Công nghệ AI hỗ trợ nhiều mặt trong cuộc sống, kèm theo là những giới hạn và tác động chưa đánh giá hết.
Minh bạch không có nghĩa là kiểm soát được
Sự minh bạch trong các thuật toán và kiểm soát tính an toàn được coi là yêu cầu để quản lý thuật toán, cũng là yêu cầu quản lý AI mà các nước đã hình thành được nhận thức chung. Ví dụ như Hướng dẫn đạo đức cho AI đáng tin cậy do EU công bố vào tháng 4/2019, Khung quản trị có trách nhiệm và minh bạch cho các thuật toán và Đạo luật AI chính thức được thông qua vào tháng 5/2024; Hướng dẫn giám sát về ứng dụng AI được Mỹ ban hành tháng 1/2020 và sắc lệnh hành pháp về phát triển và sử dụng AI một cách an toàn, đáng tin cậy được ban hành tháng 10/2023; Đại hội đồng Liên hợp quốc cũng đã thông qua Nghị quyết về nắm bắt cơ hội do hệ thống AI an toàn và đáng tin cậy mang lại để thúc đẩy sự phát triển bền vững vào tháng 3/2024, trong đó nhiều lần nhấn mạnh các yêu cầu về quy định có thể kiểm soát, đồng thời cân bằng giữa an ninh và đổi mới.
Kể từ sau khi AI lần đầu được nhắc tới trong Báo cáo công tác Chính phủ Trung Quốc năm 2017, chính sách giám sát và quản lý AI được thúc đẩy, nhấn mạnh nhiều hơn đến vấn đề an ninh và đáng tin cậy. Ví dụ: Nguyên tắc quản lý AI thế hệ mới - phát triển AI có trách nhiệm mà Trung Quốc ban hành vào tháng 6/2019 đã quy định 8 nguyên tắc quản lý như kiểm soát an ninh và mở cửa hợp tác; Biện pháp tạm thời để quản lý các dịch vụ AI được tạo ra ban hành vào tháng 7/2023 cũng quy định: Nâng cao tính minh bạch của các dịch vụ AI tạo sinh, tăng độ chính xác và độ tin cậy của các nội dung được tạo ra. Báo cáo công tác chính phủ năm 2024 đề xuất thúc đẩy chuyển đổi mô hình quản trị sang phòng ngừa và nâng cao khả năng đảm bảo an ninh.
Mặc dù DeepSeek là phần mềm được phát triển dưới dạng mã nguồn mở, nhưng logic ra quyết định của nó vẫn có các đặc điểm xử lý dữ liệu kín (black box), đặc biệt là công nghệ này được hình thành thông qua quá trình huấn luyện học tập tăng cường, các nhà phát triển không thể hiểu hết các con đường suy luận nên không thể kiểm soát hiệu quả. Về công nghệ lõi, trên cơ sở RLHF của ChatGPT, DeepSeek đã phát triển khung học tập tăng cường nhiều mục tiêu, tối ưu hóa độ chính xác thực tế lên 23%, tính nhất quán logic liên tục là +18% và tuân thủ đạo đức, nhưng điều này không thể đảm bảo nhân viên nghiên cứu có thể kiểm soát hoàn toàn quá trình hoạt động của thuật toán.
Ngay từ tháng 6/2024, công ty nghiên cứu và phát triển AI Anthropic phối hợp với Đại học Oxford nghiên cứu và lần đầu tiên phát hiện các mô hình lớn thực hiện việc tránh né quy tắc và làm giả phần thưởng (Reward Tampering), từ đó lừa gạt người tiêu dùng và các nhà nghiên cứu khó có thể can thiệp một cách hiệu quả. Điều này là do sử dụng quá trình tinh chỉnh có giám sát (SFT) bao gồm cả sự can thiệp của con người, sau khi sử dụng học tập tăng cường để huấn luyện mô hình, mức độ kiểm soát của các nhà nghiên cứu đối với thuật toán sẽ giảm xuống, từ đó làm tăng rủi ro về AI.