Genie 3 biến ảnh và lời nói thành thế giới ảo sống động

Google DeepMind vừa giới thiệu Genie 3, một mô hình AI đột phá có khả năng tạo ra các thế giới ảo sống động, tương tác chỉ từ một câu lệnh hoặc hình ảnh. Đây là bước tiến lớn, không chỉ giúp phát triển AI mà còn hứa hẹn thay đổi cách chúng ta tương tác với công nghệ.

Dù các công ty công nghệ lớn vẫn đang tìm cách kiếm tiền từ trí tuệ nhân tạo, điều đó không ngăn Google DeepMind đẩy mạnh những giới hạn của công nghệ. Chỉ sau 7 tháng kể từ khi ra mắt Genie 2, Google đã tiếp tục gây ấn tượng với phiên bản Genie 3 đầy mạnh mẽ.

Với Genie 3, bạn chỉ cần một câu lệnh hoặc một bức ảnh để tạo ra một thế giới ảo tương tác. Điều đặc biệt là môi trường này được tạo ra liên tục, cho phép bạn thay đổi mọi thứ ngay lập tức.

Bạn có thể thêm hoặc bớt đồ vật, thay đổi thời tiết, hoặc đưa thêm nhân vật mới vào. Google gọi những thay đổi này là "sự kiện có thể được nhắc lệnh".

Mặc dù nhiều người trong ngành game còn hoài nghi, nhưng công cụ này có thể giúp các nhà phát triển thử nghiệm ý tưởng mới và tạo ra những trải nghiệm game hấp dẫn hơn cho người chơi.

DeepMind không chỉ xem Genie 3 là một công cụ tạo game, mà còn là một công cụ nghiên cứu quan trọng.

Các trò chơi từ lâu đã là môi trường lý tưởng để phát triển AI, vì chúng cung cấp những thử thách tương tác với tiến độ có thể đo lường được.

Các mô hình thế giới như Genie 3 đưa điều này lên một tầm cao mới bằng cách tạo ra một thế giới tương tác từng khung hình. Điều này giúp các nhà nghiên cứu tinh chỉnh cách các mô hình AI hành xử khi đối mặt với các tình huống thực tế.

Một trong những thách thức lớn nhất trên con đường phát triển Trí tuệ Nhân tạo Tổng quát (AGI) là thiếu dữ liệu đào tạo đáng tin cậy. Sau khi đã sử dụng gần như tất cả dữ liệu có sẵn trên Internet, các nhà nghiên cứu đang chuyển sang sử dụng dữ liệu tổng hợp.

DeepMind tin rằng các mô hình thế giới có thể là chìa khóa cho việc này, vì chúng có thể tạo ra số lượng thế giới tương tác gần như không giới hạn để đào tạo AI.

Genie 3 là một bước tiến quan trọng nhờ chất lượng hình ảnh cao hơn hẳn so với phiên bản trước và khả năng hoạt động theo thời gian thực. Bạn có thể di chuyển trong thế giới mô phỏng ở độ phân giải 720p với tốc độ 24 khung hình mỗi giây. Quan trọng hơn cả, Genie 3 có thể "ghi nhớ" thế giới mà nó tạo ra.

Hạn chế lớn nhất của Genie 2 là bộ nhớ ngắn, chỉ khoảng 10 giây. Tương tự như một chatbot quên nội dung sau một thời gian, Genie 2 cũng quên các phần của thế giới khi chúng khuất khỏi tầm nhìn. Genie 3 đã cải thiện đáng kể điều này, có thể duy trì tính nhất quán hình ảnh trong nhiều phút.

Dù có nhiều cải tiến, Genie 3 vẫn chưa hoàn hảo. Mặc dù có thể ghi nhớ nhiều phút, nhóm nghiên cứu thừa nhận rằng để lý tưởng, mô hình cần duy trì tính nhất quán trong hàng giờ.

Mô hình cũng không thể mô phỏng các địa điểm thực tế và đôi khi vẫn mắc phải lỗi "ảo giác" AI. Ví dụ, cử động của con người có thể bị lỗi, khiến nhân vật đi lùi. Chữ viết trong thế giới này cũng thường lộn xộn nếu không có câu lệnh cụ thể.

Cách các tác nhân AI tương tác trong thế giới mô phỏng cũng còn hạn chế. Chúng chỉ có thể di chuyển xung quanh, chứ chưa có khả năng suy luận cấp cao để thay đổi thế giới. DeepMind vẫn đang tìm cách để nhiều tác nhân AI có thể tương tác với nhau.

Việc Genie 3 tạo ra một video rất dài một cách nhanh chóng đòi hỏi một lượng lớn sức mạnh xử lý. Google DeepMind không tiết lộ thông số cụ thể, nhưng việc người dùng phổ thông chưa thể sử dụng nó đã cho thấy chi phí khổng lồ của mô hình này.

Genie 3 vẫn là một công cụ nghiên cứu, nhưng với những khả năng đầy hứa hẹn. Nhóm DeepMind có kế hoạch cấp quyền truy cập cho một nhóm chuyên gia và nhà nghiên cứu để hoàn thiện mô hình, và hy vọng sẽ mở rộng quyền truy cập cho nhiều người hơn trong tương lai.

Việt Vũ

Nguồn Pháp Luật VN: https://baophapluat.vn/genie-3-bien-anh-va-loi-noi-thanh-the-gioi-ao-song-dong.html
Zalo