'Điểm yếu' khiến Việt Nam khó phát triển AI
Việc thiếu bộ dữ liệu tiếng Việt quy mô lớn để đào tạo mô hình trí tuệ nhân tạo (AI) khiến Việt Nam chưa thể phát huy hết tiềm năng phát triển trong lĩnh vực này.

TS Trần Việt Hùng nhấn mạnh dữ liệu tiếng Việt dùng để đào tạo các mô hình AI rất nhỏ. Ảnh: NIC.
Tại sự kiện khởi động chương trình “Thách thức đổi mới sáng tạo Việt Nam 2025”, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã phối hợp cùng Tập đoàn Meta và Tổ chức AI For Vietnam công bố dự án ViGen để xây dựng các bộ dữ liệu tiếng Việt quy mô lớn và chất lượng cao.
Theo đó, ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Sứ mệnh của dự án là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khóa tiềm năng các ứng dụng AI tại Việt nam.
Dự án này cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hóa và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.
Trong dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.
Theo TS Trần Việt Hùng, nhà sáng lập kiêm CEO Tổ chức AI for Vietnam, tiếng Việt được sử dụng bởi hơn 100 triệu người nhưng dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm chưa đến 1%.
“Đó là lý do vì sao đầu ra của các cái mô hình AI hiện nay dù chứa giá trị thông tin nhưng chưa thực sự tự nhiên, cũng chưa truyền tải được các giá trị văn hóa của tiếng Việt. Điều này khiến việc ứng dụng AI chưa hiệu quả”, ông Hùng nhận định.
Phát biểu tại sự kiện, ông Võ Xuân Hoài, Phó giám đốc NIC, đánh giá AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.
Hiện nay, không chỉ doanh nghiệp mà ngay trong các cơ quan Chính phủ cũng đã bắt đầu đào tạo về AI. Vì vậy, ông Hoài cho rằng việc bổ sung dữ liệu tiếng Việt sẽ giúp các cơ quan, doanh nghiệp tận dụng được thế mạnh của AI.
“Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó giám đốc NIC chia sẻ.
Giáo sư Yann LeCun, Phó chủ tịch và Kiến trúc sư trưởng về AI của Tập đoàn Meta, cũng đánh giá dự án ViGen không chỉ nhằm thúc đẩy công nghệ mà còn hướng tới xây dựng một tương lai AI toàn diện, tôn vinh và tích hợp di sản văn hóa và ngôn ngữ độc đáo của Việt Nam.