AI Gemini được Google DeepMind nâng cấp, biến robot thành 'người trợ lý' thông minh
Google DeepMind vừa công bố bản nâng cấp quan trọng cho dòng mô hình AI Gemini, cho phép robot thực hiện các nhiệm vụ phức tạp hơn, thậm chí truy cập Internet để tìm kiếm thông tin hỗ trợ.
Trong buổi họp báo mới đây, bà Carolina Parada, Giám đốc bộ phận robot của Google DeepMind, cho biết các mô hình AI mới hoạt động song song, giúp robot có thể “suy nghĩ trước nhiều bước” trước khi hành động trong thế giới thực.
Robot không chỉ làm theo lệnh
Hệ thống mới được xây dựng dựa trên Gemini Robotics 1.5 cùng mô hình lý luận hiện thân Gemini Robotics ER 1.5, nâng cấp từ phiên bản giới thiệu hồi tháng 3. Thay vì chỉ thực hiện những lệnh đơn giản như gấp giấy hay mở khóa túi, robot nay có thể phân loại quần áo giặt theo màu sáng và tối, sắp xếp vali theo thời tiết ở London, hoặc giúp người dùng phân loại rác, ủ phân và tái chế dựa trên kết quả tìm kiếm được điều chỉnh theo từng địa phương.

Gemini Robotics hỗ trợ robot tra cứu và hành động theo bối cảnh thực tế (Ảnh: Google).
“Các mô hình trước đây chủ yếu thực hiện tốt từng lệnh riêng lẻ. Với bản cập nhật này, chúng tôi đang chuyển sang khả năng hiểu và giải quyết vấn đề thực sự cho những nhiệm vụ vật lý,” bà Parada nhấn mạnh.
Kết hợp tầm nhìn, ngôn ngữ và Internet
Để làm được điều đó, Gemini Robotics ER 1.5 giúp robot hình thành nhận thức về môi trường xung quanh, đồng thời có thể sử dụng các công cụ số như Google Search để tìm thêm thông tin. Kết quả tìm kiếm sau đó sẽ được chuyển thành hướng dẫn ngôn ngữ tự nhiên cho Gemini Robotics 1.5, cho phép robot kết hợp tầm nhìn máy tính và khả năng hiểu ngôn ngữ để hoàn thành nhiệm vụ từng bước một.
Robot học hỏi lẫn nhau
Một điểm đột phá khác là Gemini Robotics 1.5 có thể giúp robot học hỏi từ robot khác, ngay cả khi chúng có cấu hình khác nhau. Google DeepMind cho biết các kỹ năng của robot ALOHA2 với hai cánh tay cơ khí có thể áp dụng cho robot hai tay Franka cũng như robot hình người Apollo của Apptronik.

Các mô hình AI của Google DeepMind phối hợp để giúp robot lập kế hoạch và thực hiện nhiệm vụ (Ảnh: Google).
Kỹ sư phần mềm Kanishka Rao của Google DeepMind chia sẻ: "Kết quả này mở ra hai khả năng. Thứ nhất là điều khiển những robot rất khác nhau, kể cả robot hình người, bằng một mô hình duy nhất. Thứ hai, kỹ năng học được từ một robot giờ đây có thể chuyển giao sang robot khác".
Theo kế hoạch, Gemini Robotics ER 1.5 sẽ được phát hành cho các nhà phát triển thông qua Gemini API trong Google AI Studio. Trong khi đó, Gemini Robotics 1.5 hiện chỉ dành cho một số đối tác được lựa chọn.