Giải quyết bài toán dữ liệu chất lượng cao để hoàn thành mục tiêu trong Nghị quyết số 57

Dữ liệu chất lượng cao là bài toán cho việc phát triển trí tuệ nhân tạo tại Việt Nam. Tuy nhiên, chúng ta hoàn toàn có thể giải quyết bài toán này.

Theo Báo cáo Chỉ số sẵn sàng AI của Oxford Insights (2023), Việt Nam xếp hạng 5 trong khu vực ASEAN và 39 toàn cầu về mức độ sẵn sàng trí tuệ nhân tạo (AI).

Trong bối cảnh cuộc chạy đua về công nghệ AI trên toàn cầu và mục tiêu hướng đến Việt Nam thuộc nhóm 3 nước dẫn đầu khu vực Đông Nam Á về nghiên cứu và phát triển trí tuệ nhân tạo như Nghị quyết số 57-NQ/TW ngày 22.12.2024 đã nêu, chúng ta đã và đang cho thấy những bước tiến đáng kể về chính sách, hạ tầng và nguồn nhân lực. Tuy nhiên, một trong những rào cản then chốt đang sự phát triển AI tại Việt Nam chính là việc thiếu dữ liệu chất lượng cao.

Rào cản liên quan bài toán dữ liệu

Hiện nay, dữ liệu sẵn sàng cho AI tại Việt Nam vừa thiếu vừa phân tán. Các tập dữ liệu ngôn ngữ, hình ảnh, video hay dữ liệu chuyên ngành (y tế, giáo dục, giao thông...) phần lớn chưa được chuẩn hóa, thiếu nhãn (labeled data) hoặc không được chia sẻ công khai. Điều này khác với Singapore, nơi dữ liệu đa ngôn ngữ (Anh, Hoa, Malay) được chuẩn hóa và sẵn sàng cho AI.

Hệ quả của việc thiếu dữ liệu chất lượng cao đã làm giảm hiệu quả của các mô hình AI, vốn phụ thuộc vào dữ liệu chất lượng để huấn luyện và dự đoán chính xác. Nói cách khác, dữ liệu tiếng Việt chủ yếu là dữ liệu thô, không được xử lý hoặc gắn nhãn, gây khó khăn cho việc huấn luyện các mô hình AI.

Ngoài ra, dữ liệu phân mảnh cản trở việc triển khai AI trong các lĩnh vực công như giao thông thông minh hoặc y tế, nơi cần dữ liệu thời gian thực và tích hợp. Tình trạng đó khiến một số công ty Việt Nam phải đầu tư lớn vào xử lý dữ liệu, làm tăng chi phí và giảm khả năng cạnh tranh so với Singapore hoặc Malaysia.

Cánh cửa giải quyết đã có sẵn

Để giải quyết bài toán trên, chúng ta cần giải quyết bài toán ‘phần cứng’ là Trung tâm Dữ liệu quốc gia để kết nối dữ liệu từ các cơ quan chính phủ, doanh nghiệp, và viện nghiên cứu.

Trên thực tế, Chính phủ đã ban hành Nghị quyết số 175/NQ-CP ngày 30.10.2023 phê duyệt Đề án Trung tâm dữ liệu quốc gia. Quan điểm là xây dựng Trung tâm dữ liệu quốc gia theo các tiêu chuẩn quốc gia và quốc tế, phù hợp với xu thế và xứng tầm thế giới. Công tác triển khai cần thực hiện nhanh nhằm tạo nền tảng để thay đổi một cách căn bản, toàn diện việc thu thập, lưu trữ, quản lý, cung cấp, tích hợp, chia sẻ thông tin, phân tích dữ liệu của Chính phủ bảo đảm mục tiêu quản lý xã hội, chỉ đạo điều hành, cung cấp dịch vụ công và tiện ích cho người dân và thúc đẩy phát triển kinh tế - xã hội; sản phẩm tạo ra phải là công cụ giải quyết, tháo gỡ các điểm nghẽn, cũng như tạo đột phá trong phát triển cơ sở dữ liệu quốc gia và các hệ thống cơ sở dữ liệu khác hình thành trong tương lai. Trung tâm dữ liệu quốc gia phải trở thành một thành phần hạ tầng số quan trọng phục vụ phát triển kinh tế và quản lý xã hội phù hợp với đặc điểm của Việt Nam…

Bài toán quan trọng khác là ‘phần mềm’. Các chuyên gia nước ngoài cũng khuyến nghị Việt Nam ban hành chính sách dữ liệu mở (open data), cho phép doanh nghiệp và nhà nghiên cứu truy cập dữ liệu công miễn phí, tương tự chương trình Jakarta Smart City của Indonesia.

Trên thực tế, chúng ta cũng đang trên đường giải quyết bài toán này. Ngày 30.11.2024, tại kỳ họp thứ 8 Quốc hội khóa XV đã thông qua Luật Dữ liệu, có hiệu lực thi hành từ ngày 1.7.2025 (Luật số 60/2024/QH15). Theo đó, Luật Dữ liệu quy định về dữ liệu số; xây dựng, phát triển, bảo vệ, quản trị, xử lý, sử dụng dữ liệu số; Trung tâm dữ liệu quốc gia; cơ sở dữ liệu tổng hợp quốc gia; sản phẩm, dịch vụ về dữ liệu số; quản lý nhà nước về dữ liệu số; quyền, nghĩa vụ, trách nhiệm của cơ quan, tổ chức, cá nhân có liên quan đến hoạt động về dữ liệu số. Đây cũng là một bước tiến quan trọng để khai thông cho mạch phát triển ngành AI Việt Nam.

Ngoài ra, Việt Nam cần đầu tư vào các công cụ gắn nhãn dữ liệu (data labeling) và xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt. Các doanh nghiệp như Viettel và VinAI đủ năng lực trong việc xây dựng kho dữ liệu tiếng Việt đa dạng, gồm cả các phương ngữ Bắc, Trung, Nam.

The Jakarta Post dự báo với tốc độ phát triển hiện giờ, Việt Nam ở vị trí thứ 5 trong ASEAN về tiềm năng kinh tế từ AI, với dự báo đóng góp 109 tỉ USD vào nền kinh tế vào năm 2030, sau Indonesia (366 tỉ USD), Thái Lan (117 tỉ USD), Singapore (110 tỉ USD), và Malaysia (115 tỉ USD). Tuy nhiên, khi những bài toán cơ bản nêu trên được giải quyết thì Việt Nam có thể vượt dự báo trên để tiến vào top 3, thậm chí top 2 khu vực.

Anh Tú

Nguồn Một Thế Giới: https://1thegioi.vn/giai-quyet-bai-toan-du-lieu-chat-luong-cao-de-hoan-thanh-muc-tieu-trong-nghi-quyet-so-57-231759.html
Zalo