Lãnh đạo LMArena hé lộ mô hình AI tốt nhất về sáng tạo, sửa ảnh, lập trình

LMArena là website phổ biến cho phép người dùng đưa mô hình AI từ Google, OpenAI, Meta và nhiều hãng khác vào cuộc đối đầu trực tiếp với nhau.

Một cuộc chiến đang diễn ra khi nhiều hãng công nghệ chạy đua để xây dựng các mô hình AI (trí tuệ nhân tạo) tiên tiến. Đôi khi cách tốt nhất để xác định mô hình AI nào tốt nhất là cho chúng đối đầu nhau.

Website LMArena cho phép người dùng làm điều đó. Năm 2023, một nhóm các nhà nghiên cứu từ Đại học California - Berkeley (Mỹ) đã khởi động dự án Chatbot Arena, nay gọi là LMArena, cho phép mọi người so sánh các mô hình AI khác nhau bằng các câu lệnh để xác định cái nào tốt hơn. Người dùng có thể bình chọn mức độ hiệu quả của nhiều mô hình AI và so sánh chúng trên bảng xếp hạng.

LMArena đã chứng kiến lưu lượng truy cập tăng gấp 10 lần vào tháng 8 khi mô hình AI bí ẩn có tên Nano Banana lan truyền nhờ tạo ra những hình ảnh và khả năng chỉnh sửa ấn tượng. Dựa trên bình chọn từ người dùng, Nano Banana đã đứng đầu bảng xếp hạng LMArena về tạo ảnh từ văn bản và chỉnh sửa ảnh. Như nhiều người dùng đã biết, Google chính là hãng đứng sau Nano Banana, còn được gọi là Gemini 2.5 Flash.

Gemini 2.5 Flash đứng đầu bảng xếp hạng LMArena về tạo ảnh từ văn bản và chỉnh sửa ảnh - Ảnh PV chụp màn hình

Gemini 2.5 Flash đứng đầu bảng xếp hạng LMArena về tạo ảnh từ văn bản và chỉnh sửa ảnh - Ảnh PV chụp màn hình

Giờ đây, LMArena có hơn 3 triệu người dùng hàng tháng, theo Wei-Lin Chiang (Giám đốc công nghệ của LMArena).

Wei-Lin Chiang đồng sáng lập nền tảng này cùng với nhà nghiên cứu ở Đại học California - Berkeley là Anastasios Angelopoulos (Giám đốc điều hành LMArena) và Ion Stoica (đồng sáng lập Databricks và Anyscale).

Databricks là hãng công nghệ Mỹ chuyên cung cấp nền tảng điện toán đám mây phục vụ phân tích dữ liệu lớn và AI.

Anyscale là hãng công nghệ Mỹ do nhóm phát triển Ray (framework điện toán phân tán mã nguồn mở) sáng lập vào năm 2019. Framework là bộ công cụ, thư viện và quy ước có sẵn, được thiết kế để giúp các lập trình viên xây dựng phần mềm hoặc ứng dụng một cách nhanh chóng và hiệu quả hơn.

"Chúng tôi tiếp tục xây dựng một nền tảng mở và dễ tiếp cận cho bất kỳ ai. Chúng tôi muốn mọi người thử nghiệm các mô hình AI này và bày tỏ ý kiến, sở thích của họ để giúp cộng đồng, gồm cả các nhà cung cấp cũng như đánh giá AI dựa trên các tình huống thực tế", Wei-Lin Chiang nói.

Wei-Lin Chiang (trái) và Anastasios Angelopoulos (phải) là hai nhà đồng sáng lập LMArena - Ảnh: Insider

Wei-Lin Chiang (trái) và Anastasios Angelopoulos (phải) là hai nhà đồng sáng lập LMArena - Ảnh: Insider

Tạp chí Insider đã phỏng vấn Wei-Lin Chiang về cách LMArena ra đời, những mô hình AI nổi bật nhất hiện nay và dự đoán của ông về những gì Meta Platforms đang xây dựng tại đơn vị siêu trí tuệ Superintelligence Labs.

Tại sao ôngđồng sáng lậpLMArena?

LMArena khởi đầu như một dự án nghiên cứu tại Đại học California - Berkeley khi ChatGPT trình làng trước đó vào tháng 11.2022. Mọi người tại LMArena đều đang cố gắng tìm cách xác định mô hình AI nào tốt nhất. Chúng tôi tự hỏi sự khác biệt thực sự giữa các mô hình AI này là gì. Các bài đánh giá truyền thống không thể hiện được nhiều điều, nên chúng tôi đã khởi động dự án này.

Ban đầu, chúng tôi gọi dự án là Chatbot Arena. Chúng tôi muốn xây dựng một nền tảng đánh giá lấy cộng đồng làm trung tâm, mời mọi người đến và tham gia. Nó đã thu hút khá nhiều sự chú ý.

Vài tuần đầu tiên, hàng chục nghìn người đã bình chọn, nghĩa là họ đặt một câu hỏi và cho biết mô hình AI nào tốt hơn. Chúng tôi đã sử dụng dữ liệu đó để soạn bảng xếp hạng đầu tiên của mình. Hầu hết mô hình lúc đó là trọng số mở, còn hai mô hình nguồn đóng hiếm hoi là Claude của Anthropic và GPT của OpenAI. Theo thời gian, chúng tôi đã thêm nhiều mô hình AI hơn và thu hút được nhiều sự chú ý hơn nữa.

Mô hình trọng số mở là loại mô hình AI được công bố trọng số sau khi huấn luyện, nhưng không nhất thiết công khai toàn bộ mã nguồn hay dữ liệu. Trọng số là kết quả huấn luyện của mô hình AI, thể hiện trí nhớ và kiến thức mà mô hình học được từ dữ liệu. Đây là phần quan trọng nhất quyết định khả năng trả lời, suy luận hay sáng tạo của AI.

Các mô hình AI hàng đầu trên LMArena và cái nào đang phát triển nhanh chóng?

Điều đó phụ thuộc vào các trường hợp sử dụng. Mọi người đến đây và có thể hỏi bất kỳ câu hỏi nào. Một số hỏi về lập trình hoặc câu hỏi dạng mở, chẳng hạn lệnh viết sáng tạo.

Claude được xếp hạng tốt nhất trong lập trình. Về mặt sáng tạo, tôi nghĩ Google Gemini đứng đầu.

Ngoài văn bản, chúng tôi cũng có các phương thức khác nhau. Ví dụ, trên bảng xếp hạng thị giác, mọi người tải lên một hình ảnh và hỏi các câu về ảnh đó. Gemini đang hoạt động rất tốt và loạt mô hình GPT cũng vậy. Với việc tạo ảnh từ văn bản và chỉnh sửa ảnh, đó là nơi chúng tôi đã thử nghiệm các mô hình Nano Banana mới nhất.

Sau phản ứng thờ ơ với Llama 4 năm nay, các nhà phát triển đang sử dụng Llama của Meta thế nào? Ông có mong đợi bất kỳ bản cập nhật nào từ Llama không?

Gần đây chúng tôi không nghe nhiều từ Meta Platforms, có lẽ vì họ đang tự mình tìm cách cơ cấu lại phòng thí nghiệm và nhóm mới. Chúng tôi đã trò chuyện với nhóm Reality Labs của Meta Platforms để có thể hợp tác đánh giá các mô hình và sản phẩm đa phương thức. Chúng tôi mong muốn hợp tác với họ để đánh giá các mô hình văn bản và lập trình.

Đội ngũ siêu trí tuệ của Meta đang xây dựng một mô hình toàn diện. Ông có đoán gì về nó không?

Mô hình hợp nhất các phương thức khác nhau thành một là xu hướng mà chúng tôi đang quan sát trong ngành.

Google, Meta và các hãng công nghệ lớn khác nhận được gì khi đưa mô hình của họ lên LMArena? Có phải chỉ là để xây dựng hình ảnh, hay nhận được phản hồi để cải thiện các mô hình?

Mục tiêu chính của LMArena là xây dựng một không gian mở, nơi bất kỳ ai cũng có thể tham gia đánh giá mọi loại mô hình. Đây là cách tiếp cận dựa vào cộng đồng, phản ánh quan điểm của mọi người về các mô hình khác nhau bằng cách khuyến khích họ đặt câu hỏi và bình chọn theo ý kiến của mình.

Khi đến đây để để xem cộng đồng đánh giá các mô hình AI của mình, OpenAI, Google hoặc Meta Platforms sẽ cung cấp cho chúng tôi vài biến thể.

Về cơ bản, bảng xếp hạng công khai mà bạn thấy cũng chính là thông tin họ nhận được. Chẳng hạn, mô hình AI của họ đứng hạng 5 về lập trình, hạng 10 về sáng tạo, hạng 4 về viết lách… Chúng tôi đưa cho họ báo cáo chi tiết và phân tích dựa trên phản hồi cộng đồng. LMArena cũng công khai một phần dữ liệu thu thập được, cùng mã nguồn và quy trình.

Khi tất cả mô hình AI này có hiệu suất gần ngang bằng nhau, chúng ta có cần các tiêu chuẩn đánh giá mới không?

Xây dựng thêm các tiêu chuẩn đánh giá chắc chắn sẽ mang lại lợi ích cho chúng tôi. Một điều cốt lõi mà chúng tôi muốn đảm bảo là các tiêu chuẩn đánh giá này dựa trên các trường hợp sử dụng trong thế giới thực.

Nếu AI có thể giúp một bác sĩ hoặc luật sư tiết kiệm hai giờ mỗi ngày, đó sẽ là giá trị gia tăng khổng lồ cho xã hội.

Chúng tôi muốn đảm bảo rằng LMArena vượt ra ngoài các tiêu chuẩn đánh giá truyền thống, để có tiêu chuẩn đánh giá được thúc đẩy bởi người dùng thực sự và đặc biệt là các chuyên gia sử dụng công cụ AI để hoàn thành công việc.

Gần đây, chúng tôi đã ra mắt một tiêu chuẩn đánh giá gọi là WebDev. Bạn có thể yêu cầu một mô hình AI xây dựng một trang web. Đây là công cụ có thể giúp dân công nghệ xây dựng các nguyên mẫu (phiên bản thử nghiệm ban đầu) để hoàn thành công việc nhanh chóng.

Ông nghĩ gì về báo cáo từ Học viện Công nghệ Massachusetts (MIT) cho rằng hầu hết công ty chưa thấy lợi nhuận từ AI?

Đó chắc chắn là một nghiên cứu thú vị. Vì vậy, việc gắn AI với tình huống thực tế là cực kỳ quan trọng. Đây chính xác là lý do tại sao chúng tôi muốn xây dựng LMArena và mở rộng sang nhiều ngành công nghiệp hơn. Chúng tôi bắt đầu từ cộng đồng công nghệ. Chúng tôi tin tưởng vào công nghệ và điều mọi người đang nhận được rất nhiều giá trị từ AI. Với Cursor và Copilot, nhiều người đang trả tiền cho ứng dụng AI này để viết mã và phát triển phần mềm nhanh hơn, tốt hơn.

Chúng tôi muốn điều đó được áp dụng rộng rãi hơn sang nhiều lĩnh vực khác. Với dữ liệu đang thu thập được, chúng tôi muốn giúp thu hẹp khoảng cách và đo lường giá trị thực tế.

Có lĩnh vực câu hỏi cụ thể nào, như luật, y học hoặc giáo dục, mà mô hình AI đặc biệt gặp khó khăn trong việc trả lời?

Chúng tôi muốn tìm hiểu tỷ lệ phần trăm các truy vấn đến từ các ngành này lẫn cả pháp lý và tài chính... Chúng tôi chắc chắn rất muốn chia sẻ khi có thêm thông tin chi tiết và kết quả.

Với LMArena, mục tiêu là dùng dữ liệu thu được để nắm rõ giới hạn của các mô hình AI, minh bạch cách chúng tôi nghiên cứu dữ liệu và công bố để cộng đồng tiếp tục phát triển.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/lanh-dao-lmarena-he-lo-mo-hinh-ai-tot-nhat-ve-sang-tao-sua-anh-lap-trinh-237074.html
Zalo