Giải 'Nobel' điện toán xướng tên hai chuyên gia tiên phong về trí tuệ nhân tạo
Ngày 5/3, Hiệp hội Điện toán Máy tính thế giới, công bố Giải thưởng Turing trao cho nhà khoa học Andrew Barto và Richard Sutton nhờ công trình nghiên cứu về 'học tăng cường' cho phép AI học hỏi từ 'niềm vui' và 'nỗi đau' dưới dạng kỹ thuật số.
Giải thưởng Turing, được ví như "Nobel của ngành điện toán" kể từ khi ra đời vào năm 1966, đi kèm với phần thưởng trị giá 1 triệu USD mà hai nhà khoa học sẽ chia sẻ.
Hành trình của "học tăng cường" bắt đầu từ năm 1977, khi Andrew Barto, lúc đó là nhà nghiên cứu tại Đại học Massachusetts, Amherst, đề xuất một lý thuyết mới: các nơ-ron trong não bộ con người hoạt động như những "kẻ theo chủ nghĩa khoái lạc", luôn tìm cách tối đa hóa niềm vui và giảm thiểu nỗi đau.
Đến năm 1978, Richard Sutton gia nhập, cùng Andrew Barto phát triển ý tưởng này để giải thích trí thông minh của con người, đồng thời áp dụng nó vào trí tuệ nhân tạo (AI). Kết quả là sự ra đời của "học tăng cường" - phương pháp cho phép các hệ thống AI học hỏi từ "niềm vui" và "nỗi đau" dưới dạng kỹ thuật số.

Nghiên cứu của ông Andrew Barto (trái) và Richard Sutton (phải) tại Đại học Massachusetts đóng vai trò quan trọng trong các hệ thống AI ngày nay. Ảnh: NYT
Công trình của họ đã đặt nền móng cho những bước đột phá lớn trong thập kỷ qua, từ hệ thống AlphaGo của Google đánh bại kỳ thủ hàng đầu thế giới Lee Sedol trong môn cờ vây vào năm 2016, đến chatbot ChatGPT của OpenAI với khả năng đối thoại giống người đến kinh ngạc.
"Họ là những người tiên phong không thể tranh cãi trong lĩnh vực học tăng cường", Oren Etzioni, Giáo sư danh dự tại Đại học Washington kiêm sáng lập Viện Allen về Trí tuệ Nhân tạo, nhận định. Cuốn sách “Giới thiệu về Học tăng cường” do hai ông xuất bản năm 1998 vẫn là tài liệu chuẩn mực về lĩnh vực này.
Các nhà tâm lý học đã nghiên cứu lâu dài về cách con người và động vật học hỏi từ kinh nghiệm của mình. Vào những năm 1940, nhà khoa học máy tính tiên phong người Anh Alan Turing đã đề xuất rằng máy móc có thể học theo cách tương tự.
Nhưng chính Tiến sĩ Barto và Tiến sĩ Sutton đã bắt đầu khám phá toán học về cách điều này có thể hoạt động, xây dựng trên lý thuyết mà A. Harry Klopf, một nhà khoa học máy tính làm việc cho chính phủ, đã đề xuất. Tiến sĩ Barto sau đó xây dựng một phòng thí nghiệm tại UMass Amherst dành riêng cho ý tưởng này, trong khi Tiến sĩ Sutton thành lập một phòng thí nghiệm tương tự tại Đại học Alberta ở Canada.
"Học tăng cường" không chỉ dừng lại ở các trò chơi. Với kỹ thuật "học tăng cường từ phản hồi của con người" (R.L.H.F.), ChatGPT đã được huấn luyện bởi hàng trăm người dùng để cải thiện khả năng trả lời.
Gần đây, các công ty như OpenAI và DeepSeek còn phát triển các hệ thống tự học, cho phép chatbot tự giải quyết vấn đề và mô phỏng cách suy luận của con người, dẫn đến sự xuất hiện của những hệ thống "lý luận" như o1 của OpenAI hay R1 của DeepSeek.
Nhìn về tương lai, cả hai nhà khoa học tin rằng "học tăng cường" sẽ giúp robot học hỏi từ thử nghiệm thực tế, giống như cách con người và động vật làm. "Việc điều khiển một cơ thể thông qua học tăng cường là điều rất tự nhiên", ông Barto khẳng định.
Với những đóng góp mang tính cách mạng, Andrew Barto và Richard Sutton không chỉ xứng đáng với Giải Turing mà còn mở ra cánh cửa cho kỷ nguyên mới của trí tuệ nhân tạo.