Meta bị lật tẩy, phiên bản Llama 4 Maverick chưa tinh chỉnh xếp hạng thấp hơn nhiều mô hình AI phổ biến
Đầu tuần này, Meta Platforms đã gặp rắc rối khi sử dụng một phiên bản thử nghiệm, chưa phát hành của mô hình Llama 4 Maverick để đạt điểm cao trên bảng xếp hạng LM Arena.
LM Arena là trang đánh giá điểm chuẩn trí tuệ nhân tạo (AI) mà con người so sánh kết quả đầu ra từ các hệ thống khác nhau và bỏ phiếu cho mô hình tốt nhất.
Sự việc đó đã khiến những người quản lý LM Arena phải xin lỗi, thay đổi chính sách và chấm điểm lại phiên bản Llama 4 Maverick gốc chưa được tinh chỉnh. Hóa ra, phiên bản này lại không có tính cạnh tranh cao.
Phiên bản Llama 4 Maverick chưa chỉnh sửa, với tên gọi Llama-4-Maverick-17B-128E-Instruct, bị xếp hạng dưới nhiều mô hình AI phổ biến khác trên LM Arena như GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic và Google Gemini 1.5 Pro tính đến ngày 11.4, thay vì vị trí thứ hai. Nhiều trong số đó đã ra mắt từ vài tháng trước.

Tài khoản X Pigeon mỉa mai Meta Platforms: "Phiên bản Llama-4-Maverick-17B-128E-Instruct đã được thêm vào LMArena sau khi phát hiện Meta gian lận, nhưng có lẽ bạn không thấy nó vì phải cuộn xuống tận vị trí thứ 32".
Vì sao Llama-4-Maverick-17B-128E-Instruct lại bị xếp hạng thấp như vậy? Phiên bản thử nghiệm Llama-4-Maverick-03-26-Experimental của Meta Platforms được “tối ưu cho hội thoại”, theo giải thích từ công ty trong một biểu đồ được công bố hôm 5.4. Việc tối ưu hóa đó rõ ràng đã phát huy tác dụng tốt trên LM Arena, nơi những người đánh giá so sánh kết quả đầu ra của các mô hình AI và chọn ra kết quả mà họ ưa thích hơn.
Theo trang Tech Crunch, vì nhiều lý do, LM Arena chưa bao giờ là thước đo đáng tin cậy nhất về hiệu suất của một mô hình AI. Tuy nhiên, việc tùy chỉnh mô hình AI để phù hợp với một bảng xếp hạng cụ thể, ngoài việc dễ gây hiểu nhầm thì còn khiến các nhà phát triển gặp khó khăn để dự đoán chính xác hiệu suất của mô hình trong các bối cảnh khác nhau.
Trong một tuyên bố, Ashley Gabriel, người phát ngôn của Meta Platforms, cho biết: “Chúng tôi thường xuyên thử nghiệm nhiều biến thể tùy chỉnh khác nhau của mô hình. Llama-4-Maverick-03-26-Experimental là phiên bản tối ưu hóa cho hội thoại mà chúng tôi đã thử nghiệm và đạt kết quả tốt trên LMArena. Chúng tôi hiện phát hành phiên bản mã nguồn mở và sẽ xem cách các nhà phát triển tùy chỉnh Llama 4 cho các trường hợp sử dụng riêng của họ. Chúng tôi rất mong đợi những gì họ sẽ xây dựng và luôn hoan nghênh phản hồi từ cộng đồng”.
Hôm 5.4, Meta Platforms đã ra mắt dòng mô hình AI mới Llama 4 với ba phiên bản là Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth. Trong đó, Llama 4 Scout và Llama 4 Maverick là mô hình trọng số mở.
Mô hình trọng số mở nằm giữa mã nguồn mở và mô hình độc quyền, nghĩa là chia sẻ các tham số đã được huấn luyện trước nhưng giữ bí mật một số chi tiết phát triển quan trọng. Điều này cho phép các nhà phát triển tinh chỉnh và triển khai mô hình mà không cần dữ liệu huấn luyện gốc hoặc truy cập kiến trúc bên trong.
Meta Platforms đang giới thiệu bản xem trước của Llama 4 Behemoth, được gọi là "một trong những mô hình ngôn ngữ lớn thông minh nhất thế giới và là mô hình mạnh mẽ nhất của chúng tôi, đóng vai trò một giáo viên cho các mô hình mới".
Thời điểm đó, công ty tuyên bố mô hình nhỏ Llama 4 Scout và mô hình tầm trung Llama 4 Maverick có thể vượt qua GPT-4o và Gemini 2.0 Flash "trong nhiều bài kiểm tra điểm chuẩn phổ biến".
Llama 4 Maverick nhanh chóng giành được vị trí số hai trên LMArena. Trong thông cáo báo chí, Meta Platforms đã nhấn mạnh điểm ELO của Maverick là 1417, vượt qua GPT-4o của OpenAI và chỉ đứng sau Gemini 2.5 Pro. Điểm ELO cao hơn nghĩa là mô hình chiến thắng thường xuyên hơn khi đối đầu trực tiếp với các đối thủ.
Điểm ELO là hệ thống xếp hạng được dùng để đánh giá kỹ năng tương đối của các đối thủ trong một trò chơi có tính cạnh tranh, ban đầu dành cho cờ vua, nhưng ngày nay được sử dụng rộng rãi, trong đó có cả việc đánh giá mô hình AI.
Trên các nền tảng như LMArena, điểm ELO đo lường mức độ "thắng thua" của một mô hình AI khi so sánh trực tiếp với các mô hình khác. Mỗi khi hai mô hình AI được so sánh qua cùng một câu hỏi, con người sẽ đánh giá đầu ra nào tốt hơn. Mô hình AI thắng sẽ tăng điểm, mô hình thua sẽ giảm điểm, tương tự cờ vua.
ELO càng cao thì mô hình AI được đánh giá là càng mạnh, vì nó thường thắng khi đối đầu với các đối thủ khác.
Tóm lại, ELO là thước đo khả năng cạnh tranh của mô hình AI dựa trên đánh giá từ con người, không phải điểm tuyệt đối, mà là điểm tương quan, phản ánh "ai hơn ai" trong các lần đối đầu.
Thành tích này dường như giúp mô hình mã nguồn mở Llama 4 trở thành đối thủ đáng gờm với các mô hình nguồn đóng mạnh mẽ đến từ OpenAI, Anthropic và Google. Song sau đó, các nhà nghiên cứu AI đã phát hiện ra điều bất thường khi xem kỹ tài liệu của Meta Platforms.
Trong phần chữ nhỏ, Meta Platforms thừa nhận rằng phiên bản Llama 4 Maverick được dùng để kiểm tra trên LMArena không giống phiên bản công khai. Theo tài liệu của chính Meta Platforms, công ty đã sử dụng một phiên bản “trò chuyện thử nghiệm” của Llama 4 Maverick trên LMArena, được “tối ưu hóa đặc biệt cho hội thoại”, theo trang TechCrunch.
“Cách diễn giải chính sách của Meta không khớp với những gì chúng tôi mong đợi từ các nhà cung cấp mô hình. Meta lẽ ra nên nói rõ rằng Llama-4-Maverick-03-26-Experimental là một mô hình tùy chỉnh được tối ưu cho sở thích của con người. Vì vậy, chúng tôi đang cập nhật chính sách bảng xếp hạng của mình để củng cố cam kết về việc đánh giá công bằng, người khác có thể kiểm chứng, tránh gây hiểu nhầm trong tương lai”, LMArena đăng trên mạng xã hội X hai ngày sau khi Llama 4 được phát hành.
Khi các công ty có thể gửi những phiên bản mô hình AI được điều chỉnh đặc biệt để kiểm tra nhưng lại công bố phiên bản khác cho công chúng, các bảng xếp hạng như LMArena trở nên kém ý nghĩa hơn khi nói đến hiệu suất thực tế.
“Đó là điểm chuẩn chung được tôn trọng rộng rãi nhất vì tất cả những điểm chuẩn khác đều tệ. Khi Llama 4 ra mắt và đứng thứ hai trên LMArena, chỉ sau Gemini 2.5 Pro, tôi thật sự rất ấn tượng. Tuy nhiên, giờ tôi hối hận vì không đọc kỹ phần chữ nhỏ”, nhà nghiên cứu AI độc lập Simon Willison nói với trang The Verge.
Ngay sau khi Llama 4 Maverick và Scout trình làng, cộng đồng AI bắt đầu bàn tán về tin đồn Meta Platforms đã huấn luyện mô hình để đạt điểm cao trong khi che giấu những giới hạn thật sự.
Ahmad Al-Dahle, Phó chủ tịch mảng AI tạo sinh tại Meta Platforms, phản hồi những cáo buộc đó trên X: “Chúng tôi cũng nghe nói rằng có người cho rằng chúng tôi đã huấn luyện Llama 4 trên các bộ dữ liệu kiểm tra. Điều đó hoàn toàn không đúng và chúng tôi sẽ không bao giờ làm vậy”.
Theo Ahmad Al-Dahle, lý do khiến một số người dùng thấy Llama 4 hoạt động "lúc tốt lúc tệ" là vì quy trình triển khai mô hình vẫn đang được hoàn thiện chứ không phải vì họ gian lận.
Một số người cũng chú ý rằng Llama 4 được phát hành vào thời điểm khá kỳ lạ. Ngày 5.4 (thứ Bảy) không phải là lúc thường có những tin lớn về AI. Khi có người hỏi trên mạng xã hội Threads tại sao Llama 4 lại ra mắt cuối tuần, Mark Zuckerberg (Giám đốc điều hành Meta Platforms) trả lời: “Vì lúc đó nó sẵn sàng”.
“Đây là một đợt ra mắt rất khó hiểu. Điểm số mà họ đạt được hoàn toàn vô nghĩa với tôi. Tôi thậm chí không thể sử dụng mô hình đã được dùng để đạt điểm cao đó”, theo Simon Willison, người thường xuyên theo dõi và ghi lại sự phát triển của các mô hình AI.
Hành trình phát hành Llama 4 của Meta Platforms cũng không mấy suôn sẻ. Theo một bản tin từ trang The Information, Meta Platforms đã nhiều lần trì hoãn phát hành do Llama 4 không đạt kỳ vọng nội bộ. Những kỳ vọng đó ngày càng càng cao sau khi DeepSeek, công ty khởi nghiệp Trung Quốc, tung ra mô hình AI nguồn mở V3 và R1 gây tiếng vang lớn, có hiệu suất ngang các sản phẩm của Mỹ nhưng được đào tạo với chi phí thấp hơn nhiều.
Việc dùng mô hình AI được tối ưu hóa trong LMArena khiến các nhà phát triển rơi vào thế khó. Khi lựa chọn các mô hình như Llama 4 cho ứng dụng của mình, nhà phát triển thường dựa vào các điểm chuẩn để tham khảo. Song ở trường hợp của Llama 4 Maverick, các điểm chuẩn đó có thể phản ánh những khả năng không thực sự tồn tại trong phiên bản mô hình mà công chúng truy cập.
Khi quá trình phát triển AI ngày càng tăng tốc, sự việc lần này cho thấy các điểm chuẩn đang trở thành “chiến trường”. Nó cũng cho thấy Meta Platforms rất muốn được nhìn nhận như hãng dẫn đầu trong lĩnh vực AI, kể cả khi phải “chơi chiêu”.