DeepSeek bị tấn công mạng sau khi reo rắc nỗi sợ ở Thung lũng Silicon, khiến vốn hóa Nvidia giảm kỷ lục
Công ty khởi nghiệp DeepSeek (Trung Quốc) hôm 27.1 thông báo sẽ tạm thời giới hạn việc đăng ký do bị tấn công mạng sau khi trợ lý AI của hãng đột nhiên trở nên phổ biến.
Trước đó, cùng ngày, website DeepSeek đã gặp sự cố gián đoạn sau khi trợ lý AI của họ trở thành ứng dụng miễn phí được đánh giá cao nhất trên Apple App Store tại Mỹ.
DeepSeek đã giải quyết các vấn đề liên quan đến giao diện lập trình ứng dụng (API) và tình trạng người dùng không thể đăng nhập vào website. Các sự cố gián đoạn hôm 27.1 là dài nhất trong khoảng 90 ngày qua của DeepSeek và trùng hợp với sự gia tăng đột biến về mức độ phổ biến.
Tuần trước, DeepSeek ra mắt mô hình AI nguồn mở mạnh mẽ mang tên R1, được cho là sử dụng ít dữ liệu hơn với chi phí đào tạo chỉ bằng một phần nhỏ so với các mô hình của các hãng công nghệ hàng đầu Mỹ như OpenAI ("cha đẻ" ChatGPT), Meta Platforms (chủ sở hữu Facebook) và Anthropic. Điều này có thể đánh dấu bước ngoặt trong mức đầu tư cần thiết cho AI.
Thung lũng Silicon rất lo lắng sau khi DeepSeek phát hành R1. Trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình AI của OpenAI, Meta Platforms và Anthropic.
Được vận hành bởi mô hình V3, phiên bản đời trước của R1, ứng dụng AI miễn phí của DeepSeek đã nhanh chóng trở nên phổ biến trong số người dùng tại Mỹ kể từ khi ra mắt vào ngày 10.1, theo Sensor Tower. Sensor Tower là công ty phân tích dữ liệu và nghiên cứu thị trường, chuyên cung cấp thông tin chi tiết về hiệu suất của các ứng dụng di động trên các nền tảng như Apple App Store và Google Play Store.
Cột mốc này nhấn mạnh cách DeepSeek đã để lại ấn tượng sâu sắc tại Thung lũng Silicon, làm lung lay quan niệm phổ biến về sự thống trị của Mỹ trong lĩnh vực AI cùng hiệu quả từ các biện pháp kiểm soát xuất khẩu nhằm vào chip tiên tiến và năng lực AI của Trung Quốc.
Các nhà đầu tư toàn cầu đã bán tháo cổ phiếu công nghệ hôm 27.1 vì lo ngại R1 sẽ đe dọa sự thống trị của các công ty AI hàng đầu. Cổ phiếu Nvidia giảm gần 17% hôm 27.1, khiến vốn hóa thị trường mất 593 tỉ USD, mức giảm kỷ lục trong một ngày với bất kỳ công ty nào ở Phố Wall, theo tập đoàn tài chính và dịch vụ LSEG (London Stock Exchange Group).
Không riêng Nvidia, cổ phiếu các hãng công nghệ Mỹ khác liên quan đến AI cũng giảm sâu, với Broadcom (hãng sản xuất chip có tiếng) giảm 17,4%, Microsoft (nhà đầu tư lớn nhất vào OpenAI) giảm 2,1%, Alphabet (công ty mẹ Google) giảm 4,2%.
Chỉ số bán dẫn Philadelphia (.SOX) đã giảm 9,2%, mức giảm lớn nhất tính theo phần trăm kể từ tháng 3.2020, với cổ phiếu giảm mạnh nhất là Marvell Technology, giảm 19,1%.
Các chỉ số chứng khoán Mỹ sụt giảm sau một đợt bán tháo cổ phiếu bắt đầu tại châu Á, khi cổ phiếu SoftBank (Nhật Bản) giảm 8,3%, và tiếp tục lan sang châu Âu, nơi cổ phiếu ASML (hãng cung cấp thiết bị sản xuất chip lớn nhất thế giới của Hà Lan) giảm 7%.
Các mô hình AI thường cần các chip tiên tiến cho quá trình huấn luyện. Từ năm 2021, chính quyền Biden đã mở rộng phạm vi các lệnh cấm nhằm ngăn những chip tiên tiến được xuất khẩu sang Trung Quốc và sử dụng để đào tạo mô hình AI cho các công ty nước này.
Tuy nhiên, các nhà nghiên cứu DeepSeek viết trong một bài báo vào tháng 12.2024 rằng mô hình V3, được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD. Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là "ngân sách nực cười".
V3 được DeepSeek đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.
Nvidia H800 không phải là loại chip hàng đầu. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Dù gây tranh cãi, chi tiết này cùng chi phí đào tạo mô hình AI tương đối rẻ của DeepSeek khiến các giám đốc công nghệ Mỹ đặt câu hỏi về hiệu quả của các biện pháp kiểm soát xuất khẩu chip.
DeepSeek là công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu (Trung Quốc), được thành lập vào năm 2023, thời điểm gã khổng lồ tìm kiếm Baidu ra mắt mô hình ngôn ngữ lớn AI đầu tiên của Trung Quốc.
Kể từ đó, hàng chục hãng nghệ lớn và nhỏ Trung Quốc đã tung ra các mô hình AI riêng, nhưng DeepSeek là cái tên đầu tiên được ngành công nghệ ca ngợi là đạt hoặc thậm chí vượt qua hiệu suất của các mô hình tiên tiến ở Mỹ.
DeepSeek: Janus-Pro-7B vượt các đối thủ trong việc tạo hình ảnh
Janus-Pro-7B, mô hình AI mã nguồn mở mới của DeepSeek, vượt trội Stability AI và DALL-E 3 của OpenAI trong các bài đánh giá về khả năng tạo hình ảnh, theo báo cáo kỹ thuật từ công ty khởi nghiệp Trung Quốc hôm 27.1.
Janus-Pro-7B là phiên bản nâng cấp so với Janus, được DeepSeek ra mắt cuối năm ngoái.
DeepSeek dựa vào đội ngũ "thiên tài trẻ" để cạnh tranh với các gã khổng lồ AI Mỹ
Theo các nguồn tin nội bộ và các báo cáo từ truyền thông Trung Quốc, DeepSeek đang đặt cược vào “vũ khí bí mật” là đội ngũ các “thiên tài trẻ” để đối đầu với những gã khổng lồ AI giàu có của Mỹ.
Vào ngày 26.12.2024, DeepSeek ra mắt V3, được đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ. Bước đột phá này được đánh giá là quan trọng vì có thể mở ra con đường để Trung Quốc vượt Mỹ về năng lực AI, bất chấp những hạn chế trong việc tiếp cận các chip tiên tiến và nguồn tài chính.
Đằng sau bước đột phá của DeepSeek là nhà sáng lập kín tiếng và một nhóm nghiên cứu mới thành lập, theo cuộc kiểm tra các tác giả được ghi nhận trên báo cáo kỹ thuật mô hình V3, các trang web nghề nghiệp, cuộc phỏng vấn với cựu nhân viên cũng như phương tiện truyền thông địa phương.
Báo cáo kỹ thuật của mô hình V3 được thực hiện bởi 150 nhà nghiên cứu và kỹ sư Trung Quốc, cùng với nhóm 31 người chuyên về nghiên cứu tự động hóa dữ liệu.
DeepSeek V3 được tách ra vào năm 2023 từ High Flyer-Quant, công ty quản lý quỹ đầu tư. Doanh nhân đứng sau DeepSeek là ông Liang Wenfeng, người sáng lập High Flyer-Quant, từng nghiên cứu về AI tại Đại học Chiết Giang. Tên của ông cũng xuất hiện trong báo cáo kỹ thuật.
Trong cuộc phỏng vấn với trang 36Kr vào tháng 5.2023, Liang Wenfeng cho biết hầu hết nhà phát triển tại DeepSeek đều là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, phù hợp với định hướng ưu tiên năng lực hơn kinh nghiệm của công ty. Liang Wenfeng nói: “Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu được đảm nhận bởi những sinh viên mới tốt nghiệp hoặc những người chỉ có từ một đến hai năm kinh nghiệm làm việc”.
Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện “những đổi mới quan trọng trong nghiên cứu kiến trúc MLA”.
Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.
Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.
Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).
Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là “thần đồng AI”.
Đội ngũ “nhân tài AI” của công ty được dẫn dắt bởi nhà sáng lập kín tiếng Liang Wenfeng. Liang Wenfeng là người khiêm tốn nhưng có trực giác và chú ý đến từng chi tiết kỹ thuật, một cựu nhân viên DeepSeek kể cho SCMP với điều kiện giấu tên vì anh không được phép phát biểu công khai.
Ở các cuộc thảo luận nhóm, Liang Wenfeng đôi khi đề xuất giải pháp cho các thành viên trẻ hơn trong đội ngũ của mình bằng cách sử dụng những cụm từ gợi ý thay vì chỉ đạo trực tiếp. Nhiều lần, các thành viên trong đội ngũ nhận ra rằng những gợi ý của Liang Wenfeng đã mang lại hiệu quả. Cựu nhân viên DeepSeek nói thêm rằng Liang Wenfeng giống người cố vấn hơn là ông chủ theo mô hình doanh nghiệp truyền thống.
Vào tháng 9.2024, OpenAI đã phát hành mô hình o1 có "khả năng lý luận vượt trội so với các phiên bản trước đó". Ba tháng sau đó, DeepSeek đã tung ra mô hình lý luận tương tự là V3 khiến OpenAI ngỡ ngàng.
Một bản tin trên trang TechCrunch cuối tháng 12.2024 cho rằng DeepSeek có thể đã sử dụng kết quả từ o1 để đào tạo mô hình AI của riêng mình.
"Họ có lẽ là những người đầu tiên tái tạo o1. Tôi đã hỏi nhiều người ở OpenAI xem họ nghĩ gì về điều này. Họ nói DeepSeek V3 trông giống như cùng một thứ với o1, nhưng không biết DeepSeek đã làm điều này nhanh như vậy như thế nào”, một chuyên gia AI cho hay.
DeepSeek V3 được mô tả có thể xử lý khối lượng lớn công việc và tác vụ thông qua văn bản đầu vào "theo cách thông minh nhất", như lập trình, dịch thuật, viết bài luận và email từ lời nhắc. Mô hình AI này được phát hành miễn phí, có thể sử dụng đa mục đích, gồm cả thương mại.
DeepSeek cho biết trong các thử nghiệm nội bộ, V3 "vượt trội so với các mô hình có thể tải về hiện nay", tính cả mã nguồn mở và nguồn đóng. Trong bản chạy thử trên Codeforces - nền tảng cho các cuộc thi lập trình, DeepSeek V3 vượt qua các mô hình khác như Llama 3.1 405B (405 tỉ tham số) của Meta Platforms, GPT-4o của OpenAI và Qwen 2.5 72B (72 tỉ tham số) của Alibaba. V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot - bài kiểm tra được thiết kế để đo lường khả năng của các mô hình AI.
DeepSeek giới thiệu V3 được đào tạo trên một tập dữ liệu gồm 14.800 tỉ token. Trong khoa học dữ liệu, token được sử dụng để biểu diễn các bit dữ liệu thô, với 1 triệu token tương đương khoảng 750.000 từ.
Không chỉ có bộ dữ liệu đào tạo đồ sộ, V3 có kích thước khổng lồ với 671 tỉ tham số, lớn hơn khoảng 1,6 lần so với Llama 3.1 405B. Tuy nhiên, DeepSeek cho biết V3 không cần quá nhiều GPU (bộ xử lý đồ họa) để vận hành do sử dụng phần cứng hiệu quả.
Tuy nhiên, trong thử nghiệm của TechCrunch và một số chia sẻ của người dùng trên mạng xã hội, DeepSeek V3 lại tự nhận nó là ChatGPT. Khi được yêu cầu giải thích, V3 khẳng định mình là phiên bản của GPT-4, được OpenAI phát hành năm 2023.
Về câu hỏi liên quan đến API của DeepSeek, V3 lại hướng dẫn cách sử dụng API của OpenAI. Nó thậm chí kể một số câu chuyện cười, những câu đùa dí dỏm theo phong cách GPT-4.
DeepSeek không đề cập đến nguồn dữ liệu đào tạo V3. Tuy nhiên, theo suy đoán của TechCrunch, V3 có thể đang dùng lại các tập dữ liệu công khai chứa văn bản do GPT-4 tạo ra thông qua ChatGPT.