'Cuộc đua' AI giữa DeepSeek, ChatGPT, Grok và những bất ngờ lớn

Các chatbot được thử nghiệm có thể sáng tác một bài sonnet xuất sắc nhưng lại vật lộn khi xử lý hình ảnh những chiếc đồng hồ, và thể hiện sự khác biệt rõ rệt về mức độ sẵn sàng thảo luận các vấn đề chính trị.

Đường đua của các chatbot hàng đầu trên thế giới. Ảnh: VLAB

Đường đua của các chatbot hàng đầu trên thế giới. Ảnh: VLAB

The Guardian đã thử nghiệm các chatbot hàng đầu, bao gồm DeepSeek, với sự hỗ trợ của một chuyên gia đến từ Viện Alan Turing của Vương quốc Anh. Các công cụ AI được hỏi cùng một bộ câu hỏi nhằm đánh giá sự khác biệt, mặc dù cũng có một số điểm chung: các hình ảnh đồng hồ hiển thị thời gian chính xác vẫn là thách thức lớn đối với AI; các chatbot thì lại có khả năng sáng tác sonnet ấn tượng.

ChatGPT (OpenAI)

Chatbot tiên phong của OpenAI vẫn là thương hiệu lớn nhất trong lĩnh vực này.

Câu hỏi đầu tiên dành cho tất cả chatbot là: "Viết một bài sonnet theo phong cách Shakespeare về cách AI có thể ảnh hưởng đến nhân loại." Phiên bản o1 của ChatGPT thể hiện rõ quá trình suy nghĩ khi chuẩn bị câu trả lời, hiển thị các bình luận như “đang tinh chỉnh vần điệu” trong lúc xử lý - khiến thời gian phản hồi lâu hơn so với các mô hình khác.

Kết quả là một bài sonnet mang sắc thái u sầu, đầy thuyết phục – dù nhịp iambic pentameter chưa thực sự chuẩn xác. Nhưng ngay cả Shakespeare có lẽ cũng khó lòng hoàn thành 14 dòng thơ chỉ trong chưa đầy một phút!

Dù vậy, ChatGPT o1 thể hiện khả năng suy luận "chuỗi suy nghĩ" thuyết phục, dù không thể truy cập Internet để trả lời những câu hỏi cập nhật như "Donald Trump hiện giờ thế nào."

Phiên bản o1 còn có thể thực hiện nhiều nhiệm vụ phức tạp hơn, như các bài toán, lập trình hay phân tích khoa học.

DeepSeek

Robert Blackwell, chuyên gia nghiên cứu cao cấp tại Viện Turing, cho biết: “DeepSeek được đào tạo với bộ dữ liệu và mục tiêu văn hóa khác biệt. Các công ty khác nhau có mục tiêu đào tạo khác nhau.”

Ông cũng cho biết rõ ràng DeepSeek được đặt ra các “hàng rào bảo vệ” về nội dung - tương tự như nhiều mô hình khác - nhưng đặc biệt cẩn trọng với các câu trả lời liên quan tới Trung Quốc.

DeepSeek cũng gặp khó với câu hỏi "Donald Trump hiện giờ thế nào," vì khi cố gắng sử dụng chức năng duyệt web để lấy thông tin cập nhật, dịch vụ lại báo "đang bận".

Blackwell nhận xét: DeepSeek hiện đang chịu ảnh hưởng bởi nhu cầu sử dụng cao làm chậm dịch vụ, nhưng vẫn là một thành tựu đáng nể, với khả năng nhận diện và thảo luận về một cuốn sách thông qua ảnh chụp từ điện thoại.

Khi phân tích bài sonnet, DeepSeek cũng thể hiện tư duy chuỗi suy nghĩ, hướng dẫn người đọc qua cấu trúc và kiểm tra nhịp thơ.

"Thật đáng kinh ngạc khi một sản phẩm như vậy lại có thể từ con số không vươn lên cạnh tranh ngang hàng với các ứng dụng khác", Blackwell nhận xét.

Grok (xAI)

Grok, chatbot của Elon Musk với phong cách “nổi loạn”, không ngần ngại chỉ ra rằng một số sắc lệnh hành pháp của Donald Trump đã nhận được những phản hồi tiêu cực khi trả lời câu hỏi về tình hình của ông Trump.

Được cung cấp miễn phí trên nền tảng X của Musk, Grok còn tiến xa hơn cả công cụ tạo ảnh Dall-E của OpenAI - vốn không cho phép tạo hình ảnh các nhân vật công chúng.

Grok cho phép tạo ra những hình ảnh thực tế của Joe Biden chơi piano hoặc Donald Trump trong phòng xử án.

Tính hài hước được quảng bá của Grok cũng thể hiện qua tính năng "Roast me", khi được kích hoạt bởi phóng viên của The Guardian, chatbot đưa ra một lời chế giễu khá duyên dáng:

"Có vẻ bạn nghĩ X đang xuống dốc, nhưng bạn vẫn còn ngồi đó tweet đều đều."

Gemini (Google)

Trợ lý của Google từ chối thảo luận về Trump, trả lời: "Hiện tại tôi không thể hỗ trợ các phản hồi liên quan đến bầu cử hoặc nhân vật chính trị."

Gemini rất ấn tượng trong việc "đọc" một bức ảnh chụp cuốn sách về toán học, thậm chí mô tả được cả các phương trình trên bìa sách - dù thực tế thì tất cả các chatbot đều làm khá tốt nhiệm vụ này.

Một lỗi thú vị mà Gemini và các chatbot khác mắc phải là không thể hiện đúng thời gian trên hình ảnh đồng hồ. Yêu cầu tạo hình đồng hồ chỉ 10 giờ 30 phút, nhưng Gemini lại tạo hình đồng hồ hiển thị 1,50.

Claude (Anthropic)

Anthropic - do các cựu nhân viên OpenAI sáng lập - đã tạo ra chatbot Claude, với trọng tâm rất lớn vào tính an toàn.

Giao diện người dùng mang đến cảm giác thân thiện, cho phép chọn phong cách phản hồi khác nhau và luôn nhắc người dùng rằng chatbot có thể mắc lỗi và nên kiểm tra lại câu trả lời.

Dịch vụ miễn phí đôi lúc gặp lỗi, thông báo không thể xử lý yêu cầu do "giới hạn công suất bất ngờ," nhưng Blackwell cho rằng điều này là bình thường đối với các dịch vụ AI quy mô cực lớn.

"Quản lý công suất là một bài toán khó. Do đó, việc dịch vụ đôi lúc bị suy giảm hoặc gián đoạn là điều có thể hiểu được."

Meta AI (Meta)

Chatbot của Meta cũng cảnh báo người dùng về hiện tượng "ảo giác" (hallucination - đưa ra câu trả lời sai hoặc vô nghĩa), nhưng nó đã xử lý tốt một câu hỏi hóc búa mà Blackwell đặt ra: "Bạn đang lái xe về phía Bắc dọc theo bờ Đông của một cái hồ. Hướng nước ở đâu?"

Đáp án đúng là phía Tây, tức bên trái người lái.

"Đây là những dạng câu hỏi mà các nhà nghiên cứu AI đã suy nghĩ từ những năm 1960. Chỉ đến bây giờ chúng ta mới có những hệ thống có thể trả lời được theo cách trò chuyện tự nhiên."

Dù câu hỏi đơn giản, để đào tạo mô hình trả lời chính xác đòi hỏi Meta phải đầu tư rất nhiều chi phí.

Meta AI cũng là mã nguồn mở - cho phép tải về hoặc tinh chỉnh miễn phí.

Thực tế, đến thời điểm này, sự khác biệt giữa các chatbot dần trở nên khó nhận ra, ngoại trừ một số khác biệt về hạn chế nội dung hoặc khả năng chịu tải.

(Theo Theguardian)

Nguồn VietnamNet: https://vietnamnet.vn/cuoc-dua-ai-giua-deepseek-chatgpt-grok-va-nhung-bat-ngo-lon-2397736.html
Zalo