Cha đẻ Facebook ra mô hình AI mới
Ông lớn công nghệ tuyên bố rằng các mô hình mới của họ vượt trội hơn so với OpenAI và Google trên một loạt các thước đo đánh giá.
Công ty mẹ của Facebook vừa công bố 2 mô hình mới trong bộ sưu tập Llama 4. Đây cũng là mô hình đang được sử dụng cho trợ lý Meta AI trên web cũng như trong WhatsApp, Messenger và Instagram, giúp mọi người tạo ra những trải nghiệm đa phương tiện cá nhân hóa hơn.
Hai mô hình mới, hiện có thể tải xuống từ Meta hoặc Hugging Face, là Llama 4 Scout, và Llama 4 Maverick. Meta cho biết họ vẫn đang trong quá trình huấn luyện Llama 4 Behemoth, mô hình cực lớn mà theo CEO Mark Zuckerberg là “mô hình nền tảng có hiệu suất cao nhất thế giới”.
Theo Meta, Llama 4 Scout có cửa sổ ngữ cảnh lên tới 10 triệu token, gấp nhiều lần so với mô hình có số token cao nhất hiện giờ, Gemini. Con số này thể hiện bộ nhớ làm việc của một mô hình AI.
Meta mô tả mô hình trên vượt trội hơn so với Gemma 3 và Gemini 2.0 Flash-Lite của Google, cũng như Mistral 3.1 “trên nhiều bộ thước đo phổ biến được công bố rộng rãi”, đồng thời vẫn có thể “chạy trên một GPU Nvidia H100 duy nhất”.
Đối với Llama 4 Maverick, công ty cũng đưa ra những tuyên bố tương tự về hiệu suất khi so sánh với GPT-4o của OpenAI và Gemini 2.0 Flash của Google. Các tác vụ lập trình và suy luận của Maverick có thể so sánh với DeepSeek-V3, dù chỉ mới sử dụng chưa đến một nửa số tham số.

Số liệu của các mô hình mới trong bộ sưu tập Llama 4. Ảnh: Meta.
Trong khi đó, Behemoth sở hữu 288 tỷ tham số hoạt động trong tổng số lên tới 2.000 tỷ tham số. Dù vẫn chưa được phát hành, Meta cho biết Behemoth có khả năng vượt mặt các đối thủ (cụ thể là GPT-4.5 và Claude Sonnet 3.7) “trên một số thước đo đánh giá trong lĩnh vực STEM”.
Meta cho biết họ đã chuyển sang sử dụng kiến trúc “mixture of experts” (MoE), loại kiến trúc đã tạo nên sự thành công của DeepSeek. Phương pháp giúp tiết kiệm tài nguyên bằng cách chỉ kích hoạt những phần của mô hình cần thiết cho từng tác vụ cụ thể. Các thông tin chỉ tiết về kế hoạch sản phẩm sẽ được công bố tại hội nghị LlamaCon, diễn ra vào 29/4.
Mặc dù từng bị chỉ trích về các hạn chế trong giấy phép sử dụng, Meta vẫn gọi Llama 4 là “mã nguồn mở”, giống như các mô hình trước đây. Ví dụ, giấy phép của Llama 4 yêu cầu các tổ chức thương mại có hơn 700 triệu người dùng hoạt động hàng tháng phải xin phép Meta trước khi sử dụng mô hình này.
Theo nhận định từ Tổ chức Sáng kiến Mã nguồn mở (Open Source Initiative) vào năm 2023, quy định như vậy đã “khiến mô hình không còn được xếp vào danh mục mã nguồn mở nữa”.