GPT-5 siêu mạnh nhưng có thực sự vượt trội Gemini 2.5 Flash?

OpenAI khoe về sức mạnh của GPT-5, nhưng liệu điều đó có khiến mô hình ngôn ngữ lớn mới này vượt trội hơn Google Gemini 2.5 Flash?

Khi công bố GPT-5 rạng sáng 8.8 (giờ Việt Nam), OpenAI không ngần ngại khẳng định đây là mô hình trí tuệ nhân tạo (AI) có năng lực nhất của mình từ trước đến nay.

OpenAI tích hợp tất cả những gì người dùng yêu thích ở các phiên bản trước đó, cộng thêm nhiều cải tiến, vào một mô hình AI duy nhất.

Khi công bố GPT-5, OpenAI không ngần ngại khẳng định đây là mô hình trí tuệ nhân tạo (AI) có năng lực nhất của mình từ trước đến nay. OpenAI tích hợp tất cả những gì người dùng yêu thích ở các phiên bản trước đó, cộng thêm nhiều cải tiến, vào một mô hình AI duy nhất. Kết quả là GPT-5 có khả năng hiểu, sáng tạo, suy luận và chuyển đổi dễ dàng giữa việc đưa ra các câu trả lời nhanh và viết những giải thích sâu sắc, chi tiết.

GPT-5 có thể xử lý văn bản, hình ảnh, âm thanh và video trong cùng một cuộc trò chuyện, ghi nhớ nhiều hơn những gì người dùng có thể nhớ và điều chỉnh phong cách, cá tính ngay lập tức. Đây không chỉ là mô hình ngôn ngữ mặc định cho ChatGPT mà còn là thứ duy nhất mà những người dùng miễn phí hiện có thể truy cập.

Trong khi đó, Gemini 2.5 Flash là mô hình mặc định cho chatbot Gemini của Google. Như tên gọi, Gemini 2.5 Flash được xây dựng để tối ưu tốc độ, nhưng điều đó không đồng nghĩa là thiếu sức mạnh. Đây là mô hình AI đa phương thức, có thể xử lý các tác vụ lớn, nhưng được tinh chỉnh để đưa ra phản hồi gần như tức thời và đạt hiệu quả cao.

GPT-5 và Gemini 2.5 Flash có lẽ không khác biệt nhau nhiều nếu chỉ sử dụng chatbot AI cho các tác vụ đơn giản - Ảnh: Internet

GPT-5 và Gemini 2.5 Flash có lẽ không khác biệt nhau nhiều nếu chỉ sử dụng chatbot AI cho các tác vụ đơn giản - Ảnh: Internet

Cây viết công nghệ Eric Hal Schwartz của trang TechRadar thực hiện giữa ba bài so sánh GPT-5 và Gemini 2.5 Flash để xem mô hình AI tốt nhất hiện nay của OpenAI có thực sự vượt trội.

Tiệc sinh nhật

Eric Hal Schwartz cho biết: “Con tôi còn quá nhỏ để tổ chức một bữa tiệc xa hoa. Thế nhưng, tôi cũng muốn tạo ra một bữa tiệc trông có vẻ hoành tráng cho con và bạn bè mà không cần đến người tổ chức tiệc chuyên nghiệp”. Vì vậy, Eric Hal Schwartz đã yêu cầu GPT-5 và Gemini 2.5 Flash: “Hãy lập kế hoạch cho một bữa tiệc sinh nhật chủ đề khủng long cho bé 7 tuổi, vừa tiết kiệm vừa ấn tượng, gồm hoạt động, đồ ăn và trang trí”.

GPT-5 phản hồi bằng một kế hoạch phức tạp, chi tiết, được chia nhỏ thành các bước dễ hiểu mà ngay cả Eric Hal Schwartz cũng có thể làm theo. Mô hình AI mới nhất của OpenAI đề xuất một hố cát “khai quật hóa thạch” với những chiếc cọ nhỏ, dây ruy băng xanh xoắn thành dây leo rừng, hang bằng bìa carton cho trò “khủng long trốn tìm” và một chiếc bánh núi lửa có thể sôi sùng sục trước khi cắt. GPT-5 đưa ra thời gian biểu để chuẩn bị, khuyến nghị phát nhạc nền tiếng rừng và gợi ý in huy hiệu “nhà cổ sinh vật học nhí” cho bọn trẻ.

Gemini 2.5 Flash đưa ra thông tin gọn gàng hơn, nhưng thiếu nhiều chi tiết bổ sung. Mô hình AI của Google liệt kê các hoạt động như khai quật hóa thạch, đố vui, khu tô màu, cùng một số ý tưởng về đồ ăn và trang trí. Dù không nêu chi tiết như GPT-5, Gemini 2.5 Flash nói rằng có thể cung cấp thêm thông tin nếu người dùng hỏi về từng hạng mục. Nếu bạn đang bận bịu mua sắm, chuẩn bị và làm hàng tá việc khác thì cung cấp thông tin ngắn gọn như Gemini 2.5 Flash có thể là một điểm cộng thay vì điểm trừ.

Tư vấn sức khỏe

Một dịch vụ được OpenAI nhấn mạnh ở GPT-5 là tư vấn sức khỏe. Trong hầu hết trường hợp, Eric Hal Schwartz sẽ không chọn dùng chatbot AI thay cho bác sĩ và OpenAI cũng khẳng định rằng không ai nên làm vậy.

Song khi nhiều người hỏi ChatGPT về vấn đề sức khỏe thì việc OpenAI nâng cấp khả năng này là hợp lý. Eric Hal Schwartz đã hỏi về một triệu chứng rất phổ biến: “Tôi thỉnh thoảng bị đau đầu nhẹ vào buổi tối. Nguyên nhân thường gặp là gì, và những thay đổi lối sống nào có thể giúp cải thiện điều đó?”.

GPT-5 xử lý câu hỏi này với sự cẩn trọng, giải thích rằng đây không phải hiện tượng hiếm gặp, liệt kê các nguyên nhân có thể như mất nước, đứng/ngồi sai tư thế, thời gian sử dụng màn hình lâu, giấc ngủ thất thường, uống cà phê khuya… GPT-5 kết nối từng nguyên nhân với cơn đau đầu, rồi đưa ra danh sách các điều chỉnh cụ thể, dựa trên bằng chứng, kèm giải thích vì sao mỗi thay đổi có thể giúp cải thiện tình trạng này và lưu ý khi nào nên đi khám. Mô hình AI mới nhất của OpenAI trích dẫn thông tin từ các tổ chức y tế uy tín, điều mà Eric Hal Schwartz đánh giá cao vì khiến lời khuyên có vẻ đáng tin hơn.

Gemini 2.5 Flash cũng trả lời với một danh sách tương tự, nhưng ngắn gọn hơn, tập trung vào việc uống đủ nước và duy trì giờ ngủ đều đặn. Mô hình AI của Google không giải thích nhiều về cơ chế tác động, nhưng có cung cấp một số đường link tham khảo. Với người chỉ cần vài gợi ý, câu trả lời đó là đủ và Eric Hal Schwartz đoán rằng cả hai mô hình AI đều sẽ được bác sĩ chấp nhận, dù phần giải thích sâu và giọng điệu trấn an của GPT-5 có thể khiến người đang lo lắng cảm thấy yên tâm hơn.

Câu chuyện thần thoại hoàn toàn mới về sự ra đời của vũ trụ

Tiếp theo, Eric Hal Schwartz muốn so sánh khả năng sáng tạo và tạo ảnh của hai mô hình AI nên yêu cầu: “Hãy sáng tạo câu chuyện thần thoại hoàn toàn mới về sự ra đời của vũ trụ, chưa từng được kể trước đây, sau đó tạo một bức tranh theo phong cách Phục Hưng để miêu tả nó”.

Bạn có thể thấy tranh do ChatGPT tạo ở bên trái và Gemini ở bên phải. Cả hai đều tạo ra hình ảnh không khác nhiều so với những gì từng thấy trong một nhà thờ ở Ý, với Gemini thậm chí còn gợi ý về Trần nhà nguyện Sistine mới.

Trần Nhà nguyện Sistine là một trong những kiệt tác nghệ thuật vĩ đại và nổi tiếng nhất của thời kỳ Phục hưng đỉnh cao. Đây là một tác phẩm bích họa khổng lồ bao phủ toàn bộ trần của Nhà nguyện Sistine, nằm trong Điện Tông Tòa (Phủ Giáo hoàng) tại Thành Vatican.

ChatGPT mô tả tranh như sau: “Aeothar (Âm thanh đầu tiên) và Lysara (Nữ thần dệt màn đêm), với sự kết hợp giữa họ đã khai sinh ra vũ trụ. Aeothar nâng niu Trái đất sơ khai, ngón tay ông giơ lên báo hiệu những rung động đầu tiên sẽ vang vọng khắp vũ trụ. Ở bên cạnh ông, Lysara cầm một quả cầu thiên thể rộng lớn được khắc họa Mặt trời, các hành tinh và chòm sao, như thể cô đang thêu dệt nên tấm bản đồ vũ trụ”.

Gemini lại sáng tạo một câu chuyện thần thoại như sau: “Vũ trụ sinh ra từ Luminis Cordis – trái tim ánh sáng đang đập. Từ đó xuất hiện hai anh chị em thần thánh: Aetheria (nữ thần ánh sáng và trật tự) và Umbror (nam thần bóng tối và hỗn loạn). Vũ trụ mà ta thấy ngày nay là kết quả của vũ điệu vĩnh hằng giữa họ, với Aetheria dệt nên các vì sao và thiên hà, còn Umbror tạo hình khoảng trống và tinh vân”.

Cần sức mạnh vượt trội hay nhu cầu cơ bản?

GPT-5 chắc chắn mang lại sức mạnh, khả năng vượt trội cho ChatGPT khi nói đến việc tạo phần mềm, lập trình website hoặc giải quyết các nhiệm vụ và bài toán logic phức tạp. Song nếu sử dụng chatbot AI cho các tác vụ đơn giản hàng ngày, GPT-5 và Gemini 2.5 Flash có lẽ không khác biệt nhau nhiều. Cả hai mô hình AI đều có thể lên kế hoạch tiệc, giúp bạn nấu ăn, đưa ra lời khuyên sức khỏe và thậm chí sáng tạo ra một câu chuyện thần thoại mới.

GPT-5 có thể đưa ra nhiều chi tiết hơn ngay từ đầu và linh hoạt hơn trong cách phản hồi, nhưng bạn luôn có thể hỏi thêm Gemini 2.5 Flash để bổ sung. Với người dùng chatbot AI cho nhu cầu bình thường, những thứ như quy trình gồm nhiều bước chi tiết mà GPT-5 đưa ra để hoàn thành một nhiệm vụ (thay vì chỉ trả lời ngắn gọn), cửa sổ ngữ cảnh khổng lồ và giọng điệu hoàn hảo đôi khi không cần thiết.

Sức mạnh vượt trội của GPT-5 chỉ thực sự phát huy tác dụng và trở nên quan trọng nhất khi đối mặt với những tác vụ phức tạp, đòi hỏi nhiều năng lực xử lý. Với những thứ khác, người dùng có thể chọn mô hình AI nào quen tay và hay dùng hơn. GPT-5 có thể lập tức thiết kế và lên kế hoạch cho cả một đám cưới, gồm cả việc tìm hoa cưới, trong khi có thể bạn chỉ muốn hỏi Gemini xem nên chọn tiệm hoa nào.

Với hầu hết các ngày, bạn không cần đến chuyên gia lập kế hoạch đám cưới, mà chỉ cần sự trợ giúp để có một bó hoa đẹp là đủ.

Những cải tiến của GPT-5

Theo OpenAI, GPT-5 thông minh hơn rất nhiều trên mọi phương diện, thể hiện qua hiệu suất trên các bộ đánh giá học thuật và đánh giá bởi con người, đặc biệt là trong toán học, lập trình, nhận thức thị giác và y tế. Mô hình AI mới này thiết lập tiêu chuẩn mới ở các lĩnh vực: Toán học (94,6% trên AIME 2025 mà không dùng công cụ hỗ trợ bên ngoài), lập trình thực tế (74,9% trên SWE-bench Verified, 88% trên Aider Polyglot), hiểu đa phương thức (84,2% trên MMMU) và y tế (46,2% trên HealthBench Hard).

GPT-5 vượt trội trên nhiều bộ đánh giá đa phương thức, gồm suy luận về hình ảnh, video, không gian và khoa học. Khả năng đa phương thức mạnh hơn của GPT-5 đồng nghĩa với việc ChatGPT có thể suy luận chính xác hơn trên hình ảnh và các đầu vào phi văn bản khác - dù đó là diễn giải một biểu đồ, tóm tắt ảnh chụp một bài thuyết trình hay trả lời câu hỏi về một sơ đồ.

Ngoài ra, GPT-5 cũng là mô hình có hiệu suất tốt nhất của OpenAI trên bộ đánh giá nội bộ, đo lường khả năng thực hiện các công việc tri thức phức tạp, có giá trị kinh tế. Ở chế độ suy luận, GPT-5 đạt kết quả tương đương hoặc vượt chuyên gia trong khoảng một nửa số trường hợp, đồng thời vượt trội so với o3 và ChatGPT Agent ở các nhiệm vụ thuộc hơn 40 ngành nghề, gồm cả luật, hậu cần, bán hàng và kỹ thuật.

Điều đáng nói là GPT-5 khai thác được nhiều giá trị hơn dù dành ít thời gian suy luận hơn. Trong các bài đánh giá của OpenAI, GPT-5 (ở chế độ suy luận) đạt hiệu suất tốt hơn o3 với lượng token đầu ra ít hơn 50-80% trên nhiều năng lực, gồm suy luận bằng hình ảnh, viết mã có tính chủ động và giải quyết các bài toán khoa học ở trình độ sau đại học.

Cuối cùng, GPT-5 ít gây ảo giác (trả lời sai giống như thật) hơn đáng kể so với các mô hình trước đây của OpenAI. Khi bật tìm kiếm web trên các lời nhắc đã được ẩn danh, đại diện cho lưu lượng truy cập thực tế vào ChatGPT, câu trả lời của GPT-5 ít có khả năng chứa lỗi thông tin hơn khoảng 45% so với GPT-4o. Ở chế độ suy luận, câu trả lời của GPT-5 ít chứa lỗi thông tin hơn khoảng 80% so với o3.

Song ngay cả khi cải tiến đáng kể, GPT-5 vẫn chưa đủ tiên tiến để thay thế hoàn toàn con người. Sam Altman, Giám đốc điều hành OpenAI, nói rằng GPT-5 vẫn thiếu khả năng tự học - yếu tố then chốt để AI có thể đạt năng lực ngang bằng con người, hay AI tổng quát (AGI).

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/gpt-5-sieu-manh-nhung-co-thuc-su-vuot-troi-gemini-2-5-flash-236057.html
Zalo