Kỳ thi cuối cùng của nhân loại và giới hạn thực sự của AI
Khi một bài kiểm tra mới mang tên 'Kỳ thi cuối cùng của nhân loại' (Humanity's Last Exam) xuất hiện, nó không chỉ đặt ra thách thức mới cho AI mà còn mở ra một cuộc tranh luận gay gắt.
Kỳ thi cuối cùng của nhân loại và giới hạn thực sự của AI
Sự tiến bộ của trí tuệ nhân tạo (AI) đang diễn ra với tốc độ đáng kinh ngạc. Những bài kiểm tra từng được coi là "bất khả chiến bại" như ARC-AGI hay FrontierMath đang dần bị chinh phục.
Theo AIM Research, FrontierMath một tiêu chuẩn đánh giá khả năng toán học ở cấp độ nghiên cứu đã đạt độ chính xác 32%, cho thấy AI đang bắt đầu giải quyết các vấn đề phức tạp mà trước đây chỉ con người mới làm được.
Nhưng liệu những thành tựu này có thực sự phản ánh bước tiến vượt bậc của AI, hay chỉ là "ảo ảnh" của sự thông minh?
Khi một bài kiểm tra mới mang tên "Kỳ thi cuối cùng của nhân loại" (Humanity’s Last Exam) xuất hiện, nó không chỉ đặt ra thách thức mới cho AI mà còn mở ra một cuộc tranh luận gay gắt: liệu AI có thực sự thông minh, hay chỉ đơn giản là đang trở nên giỏi hơn trong việc làm bài kiểm tra?
![Kỳ thi cuối cùng của nhân loại và giới hạn thực sự của AI. Ảnh: AIM Research](https://photo-baomoi.bmcdn.me/w500_r1/2025_02_10_114_51439382/48fee60ed2403b1e6251.jpg)
Kỳ thi cuối cùng của nhân loại và giới hạn thực sự của AI. Ảnh: AIM Research
Khi điểm chuẩn AI dần bị chinh phục
Trong suốt nhiều năm, các bài kiểm tra điểm chuẩn là thước đo quan trọng để đánh giá sự phát triển của AI.
ARC-AGI từng là một tiêu chuẩn được xem là "bất khả chiến bại" nay đã bị vượt qua. FrontierMath cũng ghi nhận những bước tiến khi mô hình AI đạt mức chính xác 32%, một con số khiêm tốn nhưng mang ý nghĩa lớn: AI không chỉ tính toán mà còn dần chạm đến khả năng tư duy toán học ở cấp độ chuyên sâu.
Tuy nhiên, bức tranh không chỉ có gam màu sáng. Một bài kiểm tra mới mang tên "Kỳ thi cuối cùng của nhân loại" vừa được công bố, được thiết kế như một thử thách tối thượng về kiến thức học thuật trên nhiều lĩnh vực, từ văn học, lịch sử, khoa học tự nhiên đến sinh thái học. Đáng chú ý, AI đang dần đạt được kết quả bất ngờ trong kỳ thi này, một dấu hiệu đầy hứa hẹn nhưng cũng tiềm ẩn nhiều rủi ro.
Giáo sư Melanie Mitchell, chuyên gia AI tại Viện Santa Fe, nhận định: "Các bài kiểm tra như ARC-AGI và FrontierMath chỉ là những thước đo tạm thời. Việc AI đạt điểm cao không có nghĩa là nó hiểu thực sự vấn đề. Nó có thể chỉ đơn giản là nhận diện được các mẫu trong dữ liệu và tìm ra cách tối ưu hóa câu trả lời."
Liệu AI đang tiến bộ thật sự hay chỉ đơn thuần giỏi làm bài?
Những người ủng hộ AI tin rằng việc chinh phục các tiêu chuẩn kiểm tra là dấu hiệu của trí tuệ nhân tạo đang tiến gần đến cấp độ hiểu biết của con người.
Một số ý kiến lạc quan thậm chí còn cho rằng nếu AI có thể làm chủ "Kỳ thi cuối cùng của nhân loại", đó sẽ là bước tiến quan trọng trên hành trình đạt đến trí tuệ nhân tạo tổng quát (AGI), giai đoạn mà AI có thể suy nghĩ và lý luận như con người.
Tuy nhiên, không ít chuyên gia bày tỏ sự hoài nghi. Patrick Schwab, Giám đốc cấp cao về Trí tuệ nhân tạo và Học máy tại GSK, cảnh báo rằng các bài kiểm tra điểm chuẩn chỉ là những mục tiêu tĩnh: "AI có thể được huấn luyện để tối ưu hóa kết quả trên các bài kiểm tra này, nhưng điều đó không có nghĩa là nó có thể giải quyết các vấn đề trong thế giới thực. Chúng ta có nguy cơ rơi vào cái bẫy nghĩ rằng AI đang thông minh hơn, trong khi thực tế, nó chỉ đơn giản là đang được huấn luyện để giỏi hơn trong một phạm vi bài kiểm tra nhất định."
![AI được tích hợp trên điện thoại thông minh. Ảnh: TIỂU MINH](https://photo-baomoi.bmcdn.me/w500_r1/2025_02_10_114_51439382/d54f7abf4ef1a7affee0.jpg)
AI được tích hợp trên điện thoại thông minh. Ảnh: TIỂU MINH
Tiến sĩ Gary Marcus, nhà khoa học nhận thức và là tác giả của nhiều cuốn sách về AI, cũng bày tỏ quan điểm tương tự: "Có một sự khác biệt rất lớn giữa việc ghi nhớ dữ liệu và khả năng tư duy thực sự. Các hệ thống AI hiện nay chủ yếu dựa vào các mô hình thống kê để dự đoán câu trả lời, chứ không phải là thực sự hiểu ý nghĩa của câu hỏi."
Trí thông minh thực sự không chỉ là điểm số
Việc AI đạt điểm cao trong các bài kiểm tra không có nghĩa là nó hiểu thế giới theo cách con người làm. Các mô hình AI hiện nay vẫn gặp khó khăn trong các tình huống đòi hỏi tư duy linh hoạt, tích hợp thông tin từ nhiều nguồn và đưa ra quyết định mang tính sáng tạo.
Chuyên gia Lee Geyer nhận định rằng tốc độ cải thiện điểm số nhanh chóng có thể là do AI đang được cung cấp thêm dữ liệu từ chính các bài kiểm tra, thay vì phát triển khả năng tư duy thực sự: "Nếu chúng ta muốn AI thực sự có khả năng tư duy như con người, thì việc nó giỏi hơn trong các bài kiểm tra là chưa đủ. Chúng ta cần những phương pháp đánh giá mới, nơi AI phải tự suy luận và ứng dụng kiến thức vào những bối cảnh chưa từng gặp trước đó."
Tương lai AI: Bứt phá hay ảo tưởng?
"Kỳ thi cuối cùng của nhân loại" được xây dựng với sự đóng góp của gần 1.000 chuyên gia từ hơn 500 tổ chức trên toàn cầu, nhằm thiết lập ranh giới cuối cùng của năng lực chuyên gia con người. Nhưng nếu AI tiếp tục chinh phục bài kiểm tra này với tốc độ nhanh chóng, liệu đó có phải là tín hiệu của một bước tiến mang tính cách mạng, hay chỉ là dấu hiệu của một cuộc đua tối ưu hóa dữ liệu?
Giáo sư Stuart Russell, tác giả cuốn Human Compatible, cảnh báo rằng điểm số cao của AI có thể là một ảo giác trí tuệ: "Việc AI giỏi hơn trong các bài kiểm tra không có nghĩa là nó có thể thay thế con người trong những công việc phức tạp đòi hỏi sự sáng tạo và hiểu biết thực sự. Nếu chúng ta không cẩn thận, chúng ta có thể đánh giá quá cao khả năng của AI và đưa ra những quyết định sai lầm."
![](https://photo-baomoi.bmcdn.me/w500_r1/2025_02_10_114_51439382/7eb4d444e00a0954501b.jpg)
Bản chất của trí tuệ nhân tạo vẫn là một chủ đề gây tranh cãi. Một số chuyên gia tin rằng nếu AI đạt được 90% độ chính xác trong bài kiểm tra này, đó sẽ là một dấu hiệu cho thấy trí tuệ siêu việt (ASI) sắp xuất hiện.
Trong khi đó, những người khác cho rằng ngay cả khi AI đạt 50% hay 75%, đó cũng đã là một bước tiến đáng kinh ngạc nhưng không đồng nghĩa với việc nó thực sự hiểu vấn đề như con người.
Không thể phủ nhận rằng AI đang đạt được những thành tựu đáng kinh ngạc. Tuy nhiên, điều quan trọng hơn là phải đánh giá đúng bản chất của những thành tựu này. Liệu AI có đang thực sự tiến bộ, hay chúng ta chỉ đang xây dựng những bài kiểm tra giúp nó trông có vẻ thông minh hơn?
Trong cuộc đua đến trí tuệ nhân tạo tổng quát (AGI), chúng ta không chỉ cần những bài kiểm tra ngày càng khó, mà còn phải tìm cách đánh giá khả năng thực sự của AI trong môi trường mở, nơi mà các thử thách không thể đoán trước và không thể chỉ giải quyết bằng các công thức sẵn có.