Kỹ thuật 'chưng cất' AI đang đặt ra câu hỏi lớn

Thành công của DeepSeek nhờ học hỏi trực tiếp từ các mô hình AI lớn hơn đặt ra dấu hỏi về sự hiệu quả của hàng tỷ USD đang được đổ vào những công nghệ tiên tiến nhất.

Các ông lớn công nghệ đã chi hàng tỷ USD với niềm tin rằng "càng nhiều càng tốt" trong trí tuệ nhân tạo (AI).

Tuy nhiên, bước đột phá của DeepSeek cho thấy những mô hình nhỏ hơn cũng có thể đạt hiệu quả tương đương chỉ với chi phí thấp hơn nhiều.

Vào cuối tháng 1, DeepSeek tuyên bố chi phí huấn luyện cuối cùng của mô hình R1 chỉ là 5,6 triệu USD. Con số này chỉ bằng một phần nhỏ so với chi phí của các công ty Mỹ.

“Cướp biển công nghệ”

Bước nhảy vọt của DeepSeek đã đưa công ty này vào hàng ngũ các nhà sản xuất AI hàng đầu. Tuy nhiên, ở một phương diện khác, startup đến từ Hàng Châu cũng làm dấy lên những cuộc thảo luận sôi nổi tại Thung lũng Silicon về một quy trình gọi là "distillation" (chưng cất).

Đây là một kỹ thuật ám chỉ hệ thống mới học từ hệ thống hiện có bằng cách đặt ra hàng trăm nghìn câu hỏi và phân tích các câu trả lời.

Thông qua chưng cất, các công ty sẽ lấy một mô hình ngôn ngữ lớn (LLM) – được gọi là mô hình "giáo viên" – có khả năng dự đoán từ tiếp theo có nhiều khả năng xuất hiện nhất trong một câu.

Mô hình giáo viên tạo ra dữ liệu, sau đó dữ liệu này được sử dụng để huấn luyện một mô hình "học sinh" nhỏ hơn. Quá trình này giúp chuyển giao nhanh chóng kiến thức và khả năng dự đoán từ mô hình lớn sang mô hình nhỏ.

 Thay vì tiêu tốn hàng tỷ USD để đào tạo mô hình, kỹ thuật "chưng cất" giúp DeepSeek có thể đạt thành tựu tương tự chỉ bằng việc học hỏi từ mô hình lớn có sẵn. Ảnh: Mint.

Thay vì tiêu tốn hàng tỷ USD để đào tạo mô hình, kỹ thuật "chưng cất" giúp DeepSeek có thể đạt thành tựu tương tự chỉ bằng việc học hỏi từ mô hình lớn có sẵn. Ảnh: Mint.

Mặc dù kỹ thuật chưng cất đã được sử dụng rộng rãi trong nhiều năm qua, các tiến bộ gần đây khiến những chuyên gia trong ngành tin rằng nó sẽ ngày càng trở thành lợi thế lớn cho các startup như DeepSeek.

Khác so với những ông lớn trong ngành như OpenAI, những công ty này luôn tìm kiếm các giải pháp tiết kiệm chi phí để phát triển ứng dụng dựa trên công nghệ AI.

"Chưng cất khá kỳ diệu. Đó là quá trình lấy một mô hình biên lớn và thông minh, rồi sử dụng mô hình đó để dạy một mô hình nhỏ hơn. Nó rất hiệu quả trong các nhiệm vụ cụ thể, siêu rẻ và siêu nhanh để thực thi", Olivier Godement trưởng bộ phận sản phẩm của OpenAI nói.

Dấu hỏi về tính hiệu quả của hàng tỷ USD vốn

Các LLM như GPT-4 của OpenAI, Gemini (Google) hay Llama (Meta) nổi tiếng với việc đòi hỏi lượng dữ liệu và sức mạnh tính toán khổng lồ để phát triển và duy trì.

Dù các công ty không công bố chi phí chính xác, ước tính việc huấn luyện các mô hình này có thể tiêu tốn hàng trăm triệu USD.

Trong số này, có thể dễ dàng kể tên Google, OpenAI, Anthropic và xAI của Elon Musk. Sau khi ông Trump nhậm chức, OpenAI đã công bố hợp tác với SoftBank và các đối tác khác để đầu tư 500 tỷ USD vào hạ tầng AI trong 5 năm tới.

Tuy nhiên, nhờ chưng cất, các nhà phát triển và doanh nghiệp có thể tiếp cận những khả năng mạnh mẽ của các mô hình lớn với một phần nhỏ chi phí. Điều này cho phép các ứng dụng AI chạy nhanh chóng trên các thiết bị như laptop hay smartphone

 Mô hình về kỹ thuật "chưng cất" trong huấn luyện mô hình AI. Ảnh: arXiv.

Mô hình về kỹ thuật "chưng cất" trong huấn luyện mô hình AI. Ảnh: arXiv.

Thậm chí, WSJ cho rằng sau thành công của DeepSeek, các giám đốc điều hành và nhà đầu tư tại Thung lũng Silicon đang xem xét lại mô hình kinh doanh của họ và đặt câu hỏi liệu việc dẫn đầu ngành có còn xứng đáng hay không.

"Liệu có xứng đáng về mặt kinh tế để đi đầu nếu chi phí tốn gấp 8 lần so với người đi theo sau?", Mike Volpi, một giám đốc điều hành công nghệ kỳ cựu và nhà đầu tư mạo hiểm tại Hanabi Capital đặt câu hỏi.

Các giám đốc công nghệ kỳ vọng sẽ thấy nhiều ứng dụng AI chất lượng cao được tạo ra bằng kỹ thuật "chưng cất" trong thời gian tới.

Cụ thể, các nhà nghiên cứu tại công ty AI Hugging Face đã bắt đầu cố gắng xây dựng một mô hình tương tự như của DeepSeek. "Điều dễ sao chép nhất là quy trình chưng cất", nhà nghiên cứu cấp cao Lewis Tunstall cho biết.

Các mô hình AI từ OpenAI và Google vẫn dẫn đầu trên các bảng xếp hạng được sử dụng rộng rãi ở Thung lũng Silicon.

Các ông lớn công nghệ có khả năng duy trì lợi thế trong các hệ thống tiên tiến nhất nhờ vào việc thực hiện nghiên cứu gốc nhiều nhất. Tuy nhiên, nhiều người tiêu dùng và doanh nghiệp sẵn sàng sử dụng công nghệ kém hơn một chút nhưng có mức giá rẻ hơn rất nhiều.

 Kỹ thuật "chưng cất" không phải là ý tưởng mới, nhưng thành công của DeepSeek đã chứng minh mô hình AI chi phí thấp vẫn có thể đạt hiệu quả tương đương những mô hình tiêu hàng tỷ USD. Ảnh: Shutterstock.

Kỹ thuật "chưng cất" không phải là ý tưởng mới, nhưng thành công của DeepSeek đã chứng minh mô hình AI chi phí thấp vẫn có thể đạt hiệu quả tương đương những mô hình tiêu hàng tỷ USD. Ảnh: Shutterstock.

Dù chưng cất có thể tạo ra các mô hình hoạt động tốt, nhưng nhiều chuyên gia cũng cảnh báo rằng chúng vẫn có hạn chế nhất định.

"Chưng cất mang lại một sự đánh đổi thú vị. Khi bạn làm cho mô hình nhỏ hơn, không thể tránh khỏi việc giảm khả năng của nó", Ahmed Awadallah từ Microsoft Research giải thích.

Theo Awadallah, một mô hình chưng cất có thể rất giỏi trong việc tóm tắt email, nhưng đồng thời cũng thực sự không tốt cho bất kỳ tác vụ nào khác.

Trong khi đó, David Cox, phó chủ tịch phụ trách mô hình AI tại IBM Research nhận định hầu hết doanh nghiệp không cần mô hình khổng lồ để vận hành sản phẩm.

Các mô hình chưng cất hiện đã đủ sức mạnh để phục vụ các mục đích như chatbot cho dịch vụ khách hàng hoặc hoạt động trên các thiết bị nhỏ như điện thoại.

"Bất cứ khi nào có thể giảm chi phí mà vẫn đạt được hiệu suất mong muốn, chẳng có lý do gì để không làm điều đó", Cox nói thêm.

Anh Tuấn

Nguồn Znews: https://znews.vn/ky-thuat-chung-cat-ai-dang-dat-ra-cau-hoi-lon-post1535517.html
Zalo