Meta lộ chiêu tinh chỉnh Llama 4 Maverick để xếp thứ 2 bảng xếp hạng mô hình AI của LMArena
Với Llama 4, Meta Platforms đã thao túng các bài kiểm tra điểm chuẩn để làm cho mô hình trí tuệ nhân tạo (AI) mới của hãng trông vượt trội hơn so với các đối thủ cạnh tranh.
Cuối tuần qua, Meta Platforms đã ra mắt dòng mô hình AI mới Llama 4. Trong đó có mô hình nhỏ Llama 4 Scout và mô hình tầm trung Llama 4 Maverick, mà công ty tuyên bố có thể vượt qua GPT-4o và Gemini 2.0 Flash "trong nhiều bài kiểm tra điểm chuẩn phổ biến".
Llama 4 Maverick nhanh chóng giành được vị trí số hai trên LMArena, trang đánh giá điểm chuẩn AI mà con người so sánh kết quả đầu ra từ các hệ thống khác nhau và bỏ phiếu cho mô hình tốt nhất.
Trong thông cáo báo chí, Meta đã nhấn mạnh điểm ELO của Maverick là 1417, vượt qua GPT-4o của OpenAI và chỉ đứng sau Gemini 2.5 Pro. Điểm ELO cao hơn nghĩa là mô hình chiến thắng thường xuyên hơn khi đối đầu trực tiếp với các đối thủ.
Điểm ELO là hệ thống xếp hạng được dùng để đánh giá kỹ năng tương đối của các đối thủ trong một trò chơi có tính cạnh tranh, ban đầu dành cho cờ vua, nhưng ngày nay được sử dụng rộng rãi, trong đó có cả việc đánh giá mô hình AI.
Trên các nền tảng như LMArena, điểm ELO đo lường mức độ "thắng thua" của một mô hình AI khi so sánh trực tiếp với các mô hình khác. Mỗi khi hai mô hình AI được so sánh qua cùng một câu hỏi, con người sẽ đánh giá đầu ra nào tốt hơn. Mô hình AI thắng sẽ tăng điểm, mô hình thua sẽ giảm điểm, tương tự cờ vua.
ELO càng cao thì mô hình AI được đánh giá là càng mạnh, vì nó thường thắng khi đối đầu với các đối thủ khác.
Tóm lại, ELO là thước đo khả năng cạnh tranh của mô hình AI dựa trên đánh giá từ con người, không phải điểm tuyệt đối, mà là điểm tương quan, phản ánh "ai hơn ai" trong các lần đối đầu.
Thành tích này dường như giúp mô hình mã nguồn mở Llama 4 trở thành đối thủ đáng gờm với các mô hình nguồn đóng mạnh mẽ đến từ OpenAI, Anthropic và Google. Song sau đó, các nhà nghiên cứu AI đã phát hiện ra điều bất thường khi xem kỹ tài liệu của Meta Platforms.
Trong phần chữ nhỏ, Meta Platforms thừa nhận rằng phiên bản Llama 4 Maverick được dùng để kiểm tra trên LMArena không giống phiên bản công khai. Theo tài liệu của chính Meta Platforms, công ty đã sử dụng một phiên bản “trò chuyện thử nghiệm” của Llama 4 Maverick trên LMArena, được “tối ưu hóa đặc biệt cho hội thoại”, theo trang TechCrunch.
“Cách diễn giải chính sách của Meta không khớp với những gì chúng tôi mong đợi từ các nhà cung cấp mô hình”, LMArena đăng trên mạng xã hội X hai ngày sau khi Llama 4 được phát hành.
“Meta lẽ ra nên nói rõ rằng Llama-4-Maverick-03-26-Experimental là một mô hình tùy chỉnh được tối ưu cho sở thích của con người. Vì vậy, chúng tôi đang cập nhật chính sách bảng xếp hạng của mình để củng cố cam kết về việc đánh giá công bằng, người khác có thể kiểm chứng, tránh gây hiểu nhầm trong tương lai”.
Ashley Gabriel, người phát ngôn của Meta Platforms, cho biết: “Chúng tôi thường xuyên thử nghiệm nhiều biến thể tùy chỉnh khác nhau của mô hình”.
“Llama-4-Maverick-03-26-Experimental là phiên bản tối ưu hóa cho hội thoại mà chúng tôi đã thử nghiệm và cũng hoạt động tốt trên LMArena. Chúng tôi hiện phát hành phiên bản mã nguồn mở và sẽ xem cách các nhà phát triển tùy chỉnh Llama 4 cho các trường hợp sử dụng riêng của họ. Chúng tôi rất mong đợi những gì họ sẽ xây dựng và luôn hoan nghênh phản hồi từ cộng đồng”, Ashley Gabriel phản hồi.
Dù những gì Meta Platforms đã làm với Llama-4 Maverick không vi phạm rõ ràng các quy tắc của LMArena, trang này từng cảnh báo về việc “gian lận hệ thống” và đã áp dụng các biện pháp để “ngăn ngừa việc mô hình học trước bài kiểm tra, từ đó đạt điểm cao một cách không trung thực”.
Khi các công ty có thể gửi những phiên bản mô hình AI được điều chỉnh đặc biệt để kiểm tra nhưng lại công bố phiên bản khác cho công chúng, các bảng xếp hạng như LMArena trở nên kém ý nghĩa hơn khi nói đến hiệu suất thực tế.
“Đó là điểm chuẩn chung được tôn trọng rộng rãi nhất vì tất cả những điểm chuẩn khác đều tệ. Khi Llama 4 ra mắt và đứng thứ hai trên LMArena, chỉ sau Gemini 2.5 Pro, tôi thật sự rất ấn tượng. Tuy nhiên, giờ tôi hối hận vì không đọc kỹ phần chữ nhỏ”, nhà nghiên cứu AI độc lập Simon Willison nói với trang The Verge.
Ngay sau khi Llama 4 Maverick và Scout trình làng, cộng đồng AI bắt đầu bàn tán về tin đồn Meta Platforms đã huấn luyện mô hình để đạt điểm cao trong khi che giấu những giới hạn thật sự.
Ahmad Al-Dahle, Phó chủ tịch mảng AI tạo sinh tại Meta Platforms, phản hồi những cáo buộc đó trên X: “Chúng tôi cũng nghe nói rằng có người cho rằng chúng tôi đã huấn luyện Llama 4 trên các bộ dữ liệu kiểm tra. Điều đó hoàn toàn không đúng và chúng tôi sẽ không bao giờ làm vậy”.
Theo Ahmad Al-Dahle, lý do khiến một số người dùng thấy Llama 4 hoạt động "lúc tốt lúc tệ" là vì quy trình triển khai mô hình vẫn đang được hoàn thiện chứ không phải vì họ gian lận.
Một số người cũng chú ý rằng Llama 4 được phát hành vào thời điểm khá kỳ lạ. Thứ Bảy (ngày 5.4) không phải là lúc thường có những tin lớn về AI. Khi có người hỏi trên mạng xã hội Threads tại sao Llama 4 lại ra mắt cuối tuần, Mark Zuckerberg (Giám đốc điều hành Meta Platforms) trả lời: “Vì lúc đó nó sẵn sàng”.
“Đây là một đợt ra mắt rất khó hiểu. Điểm số mà họ đạt được hoàn toàn vô nghĩa với tôi. Tôi thậm chí không thể sử dụng mô hình đã được dùng để đạt điểm cao đó”, theo Simon Willison, người thường xuyên theo dõi và ghi lại sự phát triển của các mô hình AI.
Hành trình phát hành Llama 4 của Meta Platforms cũng không mấy suôn sẻ. Theo một bản tin gần đây từ The Information, Meta Platforms đã nhiều lần trì hoãn phát hành do Llama 4 không đạt kỳ vọng nội bộ. Những kỳ vọng đó ngày càng càng cao sau khi DeepSeek, công ty khởi nghiệp Trung Quốc, tung ra mô hình AI nguồn mở V3 và R1 gây tiếng vang lớn, có hiệu suất ngang các sản phẩm của Mỹ nhưng được đào tạo với chi phí thấp hơn nhiều.

Thông tin về ba phiên bản Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth - Ảnh chụp màn hình
Việc dùng mô hình AI được tối ưu hóa trong LMArena khiến các nhà phát triển rơi vào thế khó. Khi lựa chọn các mô hình như Llama 4 cho ứng dụng của mình, nhà phát triển thường dựa vào các điểm chuẩn để tham khảo. Song ở trường hợp của Llama 4 Maverick, các điểm chuẩn đó có thể phản ánh những khả năng không thực sự tồn tại trong phiên bản mô hình mà công chúng truy cập.
Khi quá trình phát triển AI ngày càng tăng tốc, sự việc lần này cho thấy các điểm chuẩn đang trở thành “chiến trường”. Nó cũng cho thấy Meta Platforms rất muốn được nhìn nhận như hãng dẫn đầu trong lĩnh vực AI, kể cả khi phải “chơi chiêu”.
Meta Platforms quảng cáo những gì về Llama 4?
Theo Meta Platforms, Llama 4 là một hệ thống AI đa phương thức, có khả năng xử lý và tích hợp nhiều loại dữ liệu khác nhau gồm văn bản, video, hình ảnh và âm thanh, đồng thời hỗ trợ chuyển đổi nội dung giữa các định dạng này.
Llama 4 có ba phiên bản là Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth. Được phát hành hôm 5.4, Llama 4 Scout và Llama 4 Maverick là mô hình trọng số mở.
Mô hình trọng số mở nằm giữa mã nguồn mở và mô hình độc quyền, nghĩa là chia sẻ các tham số đã được huấn luyện trước nhưng giữ bí mật một số chi tiết phát triển quan trọng. Điều này cho phép các nhà phát triển tinh chỉnh và triển khai mô hình mà không cần dữ liệu huấn luyện gốc hoặc truy cập kiến trúc bên trong.
Meta Platforms đang giới thiệu bản xem trước của Llama 4 Behemoth, được gọi là "một trong những mô hình ngôn ngữ lớn thông minh nhất thế giới và là mô hình mạnh mẽ nhất của chúng tôi, đóng vai trò một giáo viên cho các mô hình mới".
Meta Platforms nói rằng Llama 4 Scout, với 17 tỉ tham số hoạt động và 16 chuyên gia, là mô hình đa phương thức tốt nhất thế giới trong phân khúc của nó, mạnh hơn tất cả thế hệ Llama trước, và có thể chạy trên một GPU (bộ xử lý đồ họa) Nvidia H100 duy nhất. Ngoài ra, Llama 4 Scout hỗ trợ cửa sổ ngữ cảnh lên đến 10 triệu token (dẫn đầu ngành) và vượt trội Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 trên nhiều bảng điểm chuẩn phổ biến, theo công ty.
Trong ngữ cảnh AI, token là đơn vị nhỏ nhất mà mô hình sử dụng để xử lý văn bản. Số token càng lớn thì chi phí xử lý và yêu cầu tính toán càng cao.
Meta Platforms cho biết Llama 4 Maverick, cũng với 17 tỉ tham số hoạt động nhưng có đến 128 chuyên gia, vượt qua GPT-4o và Gemini 2.0 Flash trong nhiều bài kiểm tra đánh giá, đồng thời đạt kết quả tương đương DeepSeek V3 ở các tác vụ suy luận và lập trình với chưa đến một nửa tham số hoạt động.
Theo Meta Platforms, hai mô hình này đạt được chất lượng cao nhờ vào sự tinh luyện từ Llama 4 Behemoth, mô hình lớn nhất và mạnh nhất của công ty đến nay, với 288 tỉ tham số hoạt động và 16 chuyên gia. Llama 4 Behemoth vượt trội GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro ở nhiều bài kiểm tra về STEM, theo Meta Platforms. Llama 4 Behemoth vẫn đang trong quá trình huấn luyện và công ty sẽ chia sẻ thêm chi tiết trong thời gian tới.
STEM là viết tắt của Science, Technology, Engineering, and Mathematics (Khoa học, Công nghệ, Kỹ thuật và Toán học).
Trên trang web của mình, Meta Platforms cho biết thêm: "Những mô hình này đại diện cho tinh hoa của dòng Llama, mang đến trí tuệ đa phương thức với mức chi phí hấp dẫn, đồng thời vượt trội hơn so với nhiều mô hình khác có kích thước lớn hơn đáng kể.
Việc xây dựng thế hệ tiếp theo của các mô hình Llama đòi hỏi chúng tôi phải áp dụng nhiều phương pháp mới trong giai đoạn huấn luyện sơ bộ. Các mô hình Llama 4 mới là những mô hình đầu tiên sử dụng kiến trúc mixture of experts (MoE, tạm dịch là tổ hợp chuyên gia). Trong các mô hình MoE, mỗi token đầu vào chỉ kích hoạt một phần nhỏ trong tổng số tham số của mô hình. Kiến trúc MoE hiệu quả hơn về mặt tính toán trong cả quá trình huấn luyện và suy luận".
Meta Platforms cho biết rằng Llama 4 được thiết kế để trả lời nhiều chủ đề gây tranh cãi hơn so với phiên bản trước, chẳng hạn về chính trị.
Các công ty AI thường thiết lập giới hạn để chatbot như Meta AI hay ChatGPT không đi vào những chủ đề quá gây tranh cãi. Đây là sự cân bằng khó khăn, vì né tránh câu hỏi quá nhiều có thể khiến người dùng khó chịu hoặc bỏ sót bối cảnh quan trọng.
Meta Platforms cho biết Llama 4 ít né tránh các câu hỏi nhạy cảm hơn. Trong khi phiên bản trước là Llama 3.3 từ chối trả lời 7% số câu hỏi có nội dung chính trị hoặc xã hội nhạy cảm, Llama 4 chỉ từ chối dưới 2%, theo các bài kiểm tra của Meta Platforms.
Công ty mẹ Facebook cũng nói rằng Llama 4 "cân bằng hơn đáng kể" trong việc từ chối các loại câu hỏi khác nhau.