Cuộc đua AI giữa Mỹ và Trung Quốc nóng lên với DeepSeek
Một cuộc rượt đuổi mới trong lĩnh vực trí tuệ nhân tạo (AI) đang diễn ra, với sự xuất hiện của DeepSeek, một mô hình AI đầy hứa hẹn từ Trung Quốc, đang làm rung chuyển cán cân quyền lực với các đối thủ từ phương Tây.
Cuộc đua này không chỉ là về công nghệ, mà còn là về sự đổi mới, cạnh tranh và tham vọng chinh phục tương lai.
Mỹ và Trung Quốc từ lâu đã là những cường quốc hàng đầu trong việc phát triển AI, với Mỹ hiện đang nắm giữ một chút lợi thế về công nghệ. Tuy nhiên, những diễn biến gần đây cho thấy sự cạnh tranh ngày càng gay gắt.
Còn nhớ vào tháng 10/2022, Mỹ đã áp đặt các biện pháp kiểm soát xuất khẩu để hạn chế quyền tiếp cận của Trung Quốc đối với chip AI NVIDIA tiên tiến, loại phần cứng chuyên dụng rất quan trọng để tăng tốc các tác vụ tính toán chuyên sâu như học sâu, xử lý ngôn ngữ tự nhiên và thị giác máy tính.
Động thái này nhằm cản trở sự tiến bộ của AI Trung Quốc và giảm cạnh tranh trong việc phát triển công nghệ AI.
ChatGPT: Bước đột phá thay đổi cục diện AI
Sự ra mắt của các mô hình GPT của OpenAI, đặc biệt là ChatGPT và GPT-3, đã gây chấn động trên toàn cầu. Những hệ thống này, với khả năng tạo ra văn bản giống con người và thực hiện các nhiệm vụ trước đây được coi là độc quyền của trí thông minh con người, đã khiến giới quan sát kinh ngạc.
Trước ChatGPT, AI phần lớn bị giới hạn trong các ứng dụng hẹp như chatbot cơ bản hoặc tự động hóa sản xuất. Tuy nhiên, bước đột phá của OpenAI đã cách mạng hóa bối cảnh AI.
ChatGPT, với khả năng tham gia vào các cuộc trò chuyện, soạn thảo bài luận, viết thơ và thậm chí gỡ lỗi mã, thể hiện mức độ trôi chảy và khả năng thích ứng chưa từng có. Người dùng, ban đầu mong đợi các phản hồi tương tự như các chatbot sơ khai trước đó, thường ngỡ ngàng trước kết quả đầu ra sâu sắc và giống con người của hệ thống.
Các nền tảng truyền thông xã hội nhanh chóng tràn ngập các ví dụ về sức mạnh của ChatGPT trong vòng vài ngày sau khi ra mắt. Người dùng chia sẻ ảnh chụp màn hình về các câu trả lời chi tiết, bài viết sáng tạo và thậm chí cả các sản phẩm hài hước của nó, thường đi kèm với những bình luận như "Đây có phải là thật không?" hoặc "Tôi không thể tin rằng AI lại biết điều này!".
Đối với nhiều người, đây là lần đầu tiên họ gặp một AI thực sự có vẻ như "suy nghĩ" một cách tự nhiên và giống con người.
Chỉ sau một đêm, những người không có kiến thức nền tảng kỹ thuật đã thấy mình sử dụng các công cụ AI mạnh mẽ. Trải nghiệm tương tác với ChatGPT giống như có một trợ lý thiên tài cá nhân, trao quyền cho người dùng với những khả năng mới.
Việc phát hành GPT-4 sau đó, với khả năng đa phương thức (xử lý cả văn bản và hình ảnh) và các tính năng nâng cao được kế thừa từ các phiên bản trước, càng củng cố thêm nhận thức rằng chúng ta đã đạt đến đỉnh cao của sự tiến bộ AI.
DeepSeek-V3: Bước nhảy vọt của Trung Quốc
Giữa lúc thế giới đang bị cuốn hút bởi các mô hình AI của phương Tây, Trung Quốc đã tung ra một đòn đáp trả mạnh mẽ với DeepSeek-V3.
Đây là một mô hình AI mang tính đột phá, có khả năng thiết lập một tiêu chuẩn mới trên toàn cầu, không chỉ về hiệu suất mà còn về giá cả và chiến lược phát triển nguồn mở.
DeepSeek-V3 đã gây bão trong cộng đồng AI, vượt qua nhiều mô hình AI hàng đầu, bao gồm cả AI nguồn đóng, thách thức quan điểm rằng AI nguồn mở chỉ có thể đóng vai trò thứ yếu.
DeepSeek-V3 tự hào có tốc độ và hiệu quả ấn tượng, xử lý thông tin với tốc độ chóng mặt 60 token mỗi giây, gấp ba lần so với phiên bản tiền nhiệm.
Mô hình này sử dụng kiến trúc "Hỗn hợp chuyên gia (MoE)". Kiến trúc này bao gồm nhiều mạng nơ-ron, mỗi mạng được tối ưu hóa cho các nhiệm vụ cụ thể.
Khi DeepSeek-V3 nhận được một lời nhắc, một bộ định tuyến sẽ định hướng một cách thông minh yêu cầu đến mạng nơ-ron phù hợp nhất để xử lý nó. Mỗi mạng nơ-ron riêng lẻ trong cấu trúc MoE này có 34 tỷ tham số.
Để minh họa: Hãy tưởng tượng một lớp học mà mỗi học sinh chuyên về một môn học khác nhau, chẳng hạn như toán học, kể chuyện hoặc nghệ thuật. Khi có một vấn đề phát sinh, giáo viên (bộ định tuyến) sẽ xác định học sinh nào (mạng nơ-ron) được trang bị tốt nhất để giải quyết nó. Kiến trúc này đảm bảo rằng người dùng nhận được các phản hồi phù hợp và hiệu quả nhất.
Hơn nữa, DeepSeek-V3 được đào tạo trên một tập dữ liệu khổng lồ gồm 14,8 nghìn tỷ token. Trong khoa học dữ liệu, token đại diện cho các đơn vị dữ liệu thô, với một triệu token tương đương với khoảng 750.000 từ. Điều này có nghĩa là mô hình đã được đào tạo trên 11 nghìn tỷ từ đáng kinh ngạc.
Trước DeepSeek-V3, GPT-4 nắm giữ kỷ lục về tập dữ liệu đào tạo lớn nhất, với khoảng một nghìn tỷ token. Với hiệu suất ấn tượng của GPT-4 với lượng dữ liệu đó, người ta chỉ có thể tưởng tượng ra khả năng của DeepSeek-V3.
Một khía cạnh đáng chú ý khác của DeepSeek-V3 là chi phí sản xuất thấp đáng kể. Công ty tiết lộ rằng họ chỉ chi 5,5 triệu USD để đào tạo mô hình này, một con số thấp hơn đáng kể so với chi phí liên quan đến việc phát triển các mô hình hàng đầu khác, như GPT-4, được báo cáo là có chi phí hơn 100 triệu USD.
Hơn nữa, DeepSeek-V3 vượt trội hơn các mô hình AI khác trên nhiều tiêu chuẩn đánh giá và số liệu đánh giá thường được sử dụng để đánh giá hiệu suất của AI.
Các báo cáo chỉ ra rằng DeepSeek-V3, với 6,71 nghìn tỷ tham số, vượt trội hơn Llama 3.1 của Meta và vượt trội hơn các mô hình nguồn đóng chính thống như GPT-4 trong nhiều thử nghiệm tiêu chuẩn.
Thành tích này không chỉ biểu thị một bước đột phá trong công nghệ AI của Trung Quốc mà còn đại diện cho một sự đổi mới đáng kể trong bối cảnh AI toàn cầu.
Việc nhận ra rằng những tính năng mạnh mẽ này không chỉ có thể truy cập mà còn hoàn toàn miễn phí để sử dụng là điều thực sự phi thường. Nó nhấn mạnh tiềm năng to lớn có thể được mở khóa mà không gặp bất kỳ rào cản tài chính nào.
Bất chấp những hạn chế về chip AI của Mỹ, Trung Quốc đã chứng minh khả năng vượt qua các trở ngại và đạt được những đổi mới mang tính đột phá. Sự phát triển của DeepSeek-V3 không chỉ bất chấp mong đợi mà còn đóng vai trò là một mô hình tiềm năng cho Mỹ trong việc thúc đẩy và tinh chỉnh các hệ thống AI do chính quốc gia này phát triển. Nó minh họa cho câu ngạn ngữ: Cái gì không giết được bạn sẽ làm cho bạn mạnh mẽ hơn.
Sự phát triển của DeepSeek-V3 đánh dấu một thời điểm then chốt trong quá trình phát triển của công nghệ AI. Nó thách thức các chuẩn mực thông thường được thiết lập bởi các mô hình trước đó như GPT-4 và chứng minh rằng AI tiên tiến không nhất thiết phải đắt đỏ.
DeepSeek-V3 chứng minh rằng sự đổi mới có thể đạt được đồng thời duy trì khả năng chi trả, đặt ra một tiêu chuẩn mới cho sự phát triển AI trong tương lai, nhấn mạnh tính dễ tiếp cận và giá cả phải chăng.
Tương lai của AI: Hợp tác và cạnh tranh
Tiêu chuẩn đã được nâng cao. Giờ đây, các nhà đổi mới, nhà nghiên cứu và nhà phát triển có nghĩa vụ phải hợp tác, cạnh tranh và cố gắng đẩy lùi các ranh giới của AI hơn nữa.
Tương lai của AI sẽ được định hình bởi sự hợp tác, cạnh tranh lành mạnh và cam kết chung trong việc tạo ra các hệ thống mạnh mẽ và tốt hơn nữa. Cùng nhau, Mỹ, Trung Quốc và các quốc gia khác có thể định hình thế hệ AI tiếp theo, những công nghệ sẽ định nghĩa tương lai.