DeepSeek vượt nhiều hãng AI lớn nhờ triết lý lãnh đạo 'không đi tắt đón đầu' của Lương Văn Phong

Đánh giá của Lý Tường, Giám đốc điều hành kiêm Chủ tịch hãng ô tô điện Li Auto, phản ánh cách Lương Văn Phong dẫn dắt DeepSeek trở thành nhà đổi mới thực thụ trong lĩnh vực trí tuệ nhân tạo (AI).

Lương Văn Phong, nhà sáng lập DeepSeek - công ty khởi nghiệp AI hàng đầu Trung Quốc, là người “vô cùng kỷ luật” và “không bao giờ không đi tắt đón đầu”, theo Lý Tường.

Trong một video được Li Auto (có trụ sở tại Bắc Kinh, thủ đô Trung Quốc) đăng lên các nền tảng mạng xã hội, Lý Tường chia sẻ một số thông tin thú vị về Lương Văn Phong.

Lý Tường cho biết một cuộc gặp gỡ với Lương Văn Phong vào tháng 9.2024 đã khiến ông ngộ ra nhiều điều về những phương pháp hay nhất mà DeepSeek áp dụng, cũng như tầm quan trọng trong việc “chống lại sự lười biếng cố hữu của con người, chẳng hạn đi tắt đón đầu”.

“Bất cứ khi nào chúng ta muốn thay đổi và nâng cao năng lực, bước đầu tiên luôn phải là nghiên cứu. Bước thứ hai là phát triển. Bước thứ ba là diễn đạt rõ năng lực và bước thứ tư là biến khả năng đó thành giá trị kinh doanh”, Lý Tường nhấn mạnh.

Lý Tường cũng ghi nhận cách tiếp cận mã nguồn mở từ Lương Văn Phong trong phát triển AI đã giúp DeepSeek thành công, đồng thời đóng vai trò định hướng cho tham vọng mở rộng vào lĩnh vực AI và chế tạo robot hình người của Li Auto.

Đánh giá đó phản ánh những nỗ lực của Lương Văn Phong trong việc dẫn dắt DeepSeek trở thành nhà đổi mới thực sự trong lĩnh vực AI, vượt qua cả các hãng công nghệ lớn và nhiều công ty khởi nghiệp trong ngành công nghiệp đang phát triển nhanh chóng này.

Lương Văn Phong là người “vô cùng kỷ luật” và “không bao giờ không đi tắt đón đầu” - Ảnh: Internet

Lương Văn Phong là người “vô cùng kỷ luật” và “không bao giờ không đi tắt đón đầu” - Ảnh: Internet

DeepSeek thu hút sự chú ý toàn cầu vào cuối tháng 12.2024 và tháng 1 khi liên tiếp ra mắt hai mô hình AI mã nguồn mở tiên tiến V3 và R1, được phát triển với chi phí và sức mạnh điện toán thấp hơn rất nhiều những gì các hãng công nghệ lớn thường cần để xây dựng các sản phẩm tương tự.

Cách tiếp cận mã nguồn mở cho phép công khai mã nguồn của chương trình, từ đó các nhà phát triển phần mềm bên thứ ba có thể sửa đổi, chia sẻ thiết kế, khắc phục lỗi hoặc mở rộng khả năng. Trong vài thập kỷ qua, công nghệ mã nguồn mở đã góp phần to lớn cho ngành công nghệ của Trung Quốc.

“Đứng trên vai người khổng lồ”

Vài tháng sau cuộc gặp với Lương Văn Phong, Lý Tường cho biết Li Auto đã quyết định “đứng trên vai người khổng lồ” bằng cách áp dụng các mô hình AI của DeepSeek để tăng tốc phát triển mô hình thị giác - ngôn ngữ - hành động riêng. Đây là hệ thống tích hợp khả năng cảm nhận hình ảnh, hiểu ngôn ngữ tự nhiên và thực hiện hành động vật lý.

Lý Tường nói rằng quyết định đó hoàn toàn xuất phát từ “lòng biết ơn dành cho DeepSeek”. Nhà sản xuất ô tô điện Trung Quốc này đã công khai mã nguồn hệ điều hành ô tô nội bộ mang tên Halo OS.

Lý Tường biết ơn DeepSeek - Ảnh: Sohu

Lý Tường biết ơn DeepSeek - Ảnh: Sohu

Năm ngoái, Lương Văn Phong từng dự đoán rằng các nhà phát triển mô hình AI khác rồi sẽ vượt qua OpenAI, “cha đẻ” ChatGPT, ngay cả khi công ty khởi nghiệp Mỹ này tiếp tục giữ kín mã nguồn sản phẩm.

“Hiện có ít nhất 18 nhóm tại Trung Quốc có trình độ tương đương đội ngũ DeepSeek. Chỉ là DeepSeek bứt phá trước”, Ngô Trí Cường, chuyên gia quy hoạch đô thị và nông thôn, nói tại Hội nghị Thượng đỉnh Kỹ thuật số Trung Quốc tháng trước ở thành phố Phúc Châu, thủ phủ tỉnh Phúc Kiến.

Trong giới doanh nhân công nghệ Trung Quốc, Lương Văn Phong vẫn giữ hình ảnh kín tiếng, không xuất hiện trên các nền tảng mạng xã hội. Bằng chứng duy nhất cho thấy Lương Văn Phong có vai trò trực tiếp tại DeepSeek là tên ông xuất hiện trong các bài nghiên cứu do công ty công bố.

Tuy nhiên, điều đó không ngăn cản các giám đốc công nghệ nổi tiếng khác nhận xét về Lương Văn Phong và DeepSeek.

CEO Tencent và 01.AI ngưỡng mộ DeepSeek

Mã Hóa Đằng, Chủ tịch kiêm Giám đốc điều hành gã khổng lồ công nghệ Tencent, nói vào tháng 3 rằng ông từng trao đổi với Lương Văn Phong và “rất ngưỡng mộ” việc DeepSeek đã tạo ra những sản phẩm “thật sự mã nguồn mở cũng như miễn phí”. Ông Mã Hóa Đằng và Lương Văn Phong từng ngồi cạnh nhau ở hàng ghế đầu tại một hội nghị lớn quy tụ các doanh nhân hàng đầu, do Chủ tịch Trung Quốc Tập Cận Bình chủ trì vào tháng 2.

Tencent (có trụ sở tại thành phố Thâm Quyến) là một trong những hãng công nghệ Trung Quốc đầu tiên tích hợp công nghệ DeepSeek vào các mô hình ngôn ngữ lớn của mình. Đáp lại, DeepSeek gần đây cũng ghi nhận vai trò quan trọng của một giải pháp kỹ thuật do Tencent cung cấp trong việc khắc phục vấn đề dai dẳng trong hệ thống của họ.

DeepSeek gặp khó khăn trong việc tối ưu hóa hiệu suất của DeepEP - thư viện mã nguồn mở chuyên xử lý giao tiếp giữa các GPU trong các mô hình AI sử dụng kiến trúc "hỗn hợp các chuyên gia" (MoE). Cụ thể, hệ thống của DeepSeek chưa tận dụng hiệu quả băng thông card mạng hai cổng và gặp độ trễ trong điều khiển CPU, dẫn đến hiệu suất giao tiếp không ổn định và chậm chạp.

Đội ngũ kỹ thuật của Tencent đã can thiệp và tối ưu hóa DeepEP. Những cải tiến này giúp DeepSeek tăng tốc độ huấn luyện mô hình AI, giảm độ trễ và nâng cao độ ổn định của hệ thống. Đặc biệt, DeepEP giờ đây hỗ trợ tốt hơn cho các tác vụ tính toán hiệu năng cao như huấn luyện mô hình ngôn ngữ lớn với chi phí thấp.

Trong cuộc phỏng vấn với tờ SCMP hồi tháng 3, Lý Khai Phục (nhà sáng lập kiêm Giám đốc điều hành 01.AI) cho biết công ty khởi nghiệp này đã ngừng phát triển mô hình AI riêng và đang tận dụng độ phổ biến của DeepSeek để cung cấp giải pháp AI cho khách hàng doanh nghiệp, đặc biệt là lĩnh vực tài chính, game và pháp lý.

Việc DeepSeek ra mắt các mô hình mã nguồn mở đã đánh dấu “thời khắc ChatGPT” của Trung Quốc, kích thích làn sóng ứng dụng AI mạnh mẽ, đồng thời đặt ra câu hỏi về tính khả thi của việc phát triển các mô hình nội bộ được đào tạo trước, theo Lý Khai Phục - cựu Chủ tịch Google Trung Quốc.

Được thành lập vào giữa năm 2023, 01.AI là một trong những kỳ lân tiên phong trong lĩnh vực mô hình ngôn ngữ lớn tại Trung Quốc. Quá trình chuyển đổi 01.AI từ phát triển mô hình ngôn ngữ lớn sang cung cấp giải pháp đã bắt đầu từ năm ngoái, nhưng được đẩy nhanh nhờ cơ hội mà DeepSeek mang lại.

Nhiều nhà cung cấp phần cứng và phần mềm Trung Quốc đã điều chỉnh dịch vụ của họ để phù hợp với mô hình AI DeepSeek.

Lý Khai Phục cho biết kinh nghiệm phát triển mô hình ngôn ngữ lớn của 01.AI giúp công ty nổi bật. 01.AI đã ưu tiên DeepSeek, một chiến lược khác biệt so với các đối thủ vẫn thiên về mô hình AI nội bộ.

Trong khi nhiều nhà sản xuất phần cứng có thể cung cấp các giải pháp tích hợp sẵn với đầy đủ chức năng kinh doanh, lợi thế của 01.AI là khả năng tinh chỉnh các mô hình DeepSeek theo nhu cầu khách hàng.

Lý Khai Phục nhận định Trung Quốc đã rút ngắn khoảng cách phát triển AI với Mỹ xuống chỉ còn ba tháng trong một số lĩnh vực, nhờ các công ty như DeepSeek tối ưu hóa việc sử dụng chip và áp dụng thuật toán hiệu quả hơn.

Ông nói với Reuters rằng DeepSeek đã giúp Trung Quốc vượt lên trong một số lĩnh vực như kỹ thuật phần mềm hạ tầng.

"Trước đây, tôi nghĩ rằng khoảng cách là từ 6 đến 9 tháng và Trung Quốc thua kém ở mọi mặt. Song bây giờ, tôi tin rằng có lẽ Trung Quốc chỉ chậm hơn Mỹ khoảng 3 tháng trong một số công nghệ cốt lõi, nhưng thực tế lại đang dẫn trước ở một số lĩnh vực cụ thể", Lý Khai Phục nói với Reuters trong một cuộc phỏng vấn cuối tháng 3.

Ông cho rằng các lệnh trừng phạt về chất bán dẫn của Mỹ là "con dao hai lưỡi", gây ra khó khăn trong ngắn hạn nhưng cũng buộc các công ty Trung Quốc phải đổi mới trong điều kiện hạn chế, đặc biệt về việc phát triển thuật toán.

"Việc DeepSeek có thể tìm ra chuỗi tư duy mới để cải tiến học tăng cường cho thấy họ đang bắt kịp Mỹ rất nhanh, hoặc thậm chí còn sáng tạo hơn", Lý Khai Phục nhận định, đề cập đến khả năng của mô hình DeepSeek trong việc hiển thị quá trình lập luận trước khi đưa ra câu trả lời.

Học tăng cường là phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Ứng dụng của học tăng cường

Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.

Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.

Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.

Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/deepseek-vuot-nhieu-hang-ai-lon-nho-triet-ly-lanh-dao-khong-di-tat-don-dau-cua-luong-van-phong-232448.html
Zalo