Công nghệ đang 'cứu' ngôn ngữ?
Trong kỷ nguyên AI, công nghệ đang trở thành 'phao cứu sinh' giúp nhiều tiếng nói cổ xưa và ngôn ngữ của cộng đồng thiểu số hồi sinh, từ Ấn Độ, Trung Quốc cho đến Việt Nam.
Ngôn ngữ không chỉ là công cụ giao tiếp. Nó là ký ức tập thể, là linh hồn văn hóa của mỗi cộng đồng. Theo UNESCO, hơn 8.000 ngôn ngữ tồn tại trên thế giới, nhưng cứ hai tuần lại có một ngôn ngữ (viết hoặc nói) biến mất, mang theo cả một di sản văn hóa và trí tuệ. Hiện chỉ còn khoảng 7.000 ngôn ngữ còn được sử dụng, và chưa tới 100 ngôn ngữ có mặt trong không gian số. Sự mất mát này đồng nghĩa với việc thế giới đánh rơi những mảnh ghép quý giá của tri thức và lịch sử nhân loại.
Trong bối cảnh đó, trí tuệ nhân tạo (AI), xử lý ngôn ngữ tự nhiên (NLP) và công nghệ số hóa dữ liệu đang bước vào cuộc đua khẩn cấp để cứu lấy những ngôn ngữ có nguy cơ biến mất.
Ấn Độ: AI thổi “hơi thở mới” cho tiếng Gondi
Ấn Độ là một trong những quốc gia đa ngôn ngữ nhất thế giới, với hàng trăm ngôn ngữ tribal đang đứng trước nguy cơ mai một. Viện Công nghệ Thông tin Quốc tế Hyderabad (IIITH) đã triển khai dự án Adi Vaani - ứng dụng AI trên Google Play hỗ trợ chuyển văn bản thành giọng nói (TTS) cho các ngôn ngữ như Santali, Mundari, Bhili và Gondi.

Adi Vaani - ứng dụng AI có mặt trên Google Play
Theo Times of India, dự án này không chỉ ghi âm giọng của người bản địa để huấn luyện AI, mà còn tích hợp dịch giữa tiếng Gondi, Hindi và tiếng Anh. Với công cụ OCR và nhận dạng giọng nói, người dân tribal giờ đây có thể tiếp cận dịch vụ công và tài liệu giáo dục bằng chính tiếng mẹ đẻ. Đó là bước tiến để một ngôn ngữ thiểu số hòa nhập vào đời sống số, thay vì chỉ tồn tại trong ký ức.
Trung Quốc: Nüshu - ngôn ngữ ‘bí mật’ hồi sinh nhờ AI
Ở Trung Quốc, ngôn ngữ Nüshu từng được phụ nữ dân tộc Yao sử dụng như một hệ thống chữ viết riêng. Sau nhiều thế kỷ, Nüshu gần như biến mất. Nhưng một nhóm nghiên cứu quốc tế đã khởi động dự án NushuRescue, sử dụng AI và học máy để xây dựng mô hình dịch Nüshu sang tiếng Trung.

Ngôn ngữ cổ Nüshu thể hiện trên chiếc quạt: mỗi ký hiệu đại diện cho 1 âm tiết và được viết bằng que sắc nhọn - Ảnh: Internet
Theo công bố trên arXiv, dù nguồn dữ liệu cực kỳ hạn chế, thuật toán học máy vẫn “học” được cấu trúc đặc thù của ngôn ngữ này. Nüshu không chỉ là di sản ngôn ngữ học, mà còn là một kho báu văn hóa về giới và cộng đồng - giờ đây đang có cơ hội hồi sinh nhờ công nghệ.
Việt Nam: Số hóa di sản Hán - Nôm và phương ngữ
Tại Việt Nam, công nghệ cũng đang mở ra cánh cửa mới để bảo tồn ngôn ngữ. Gần đây, dự án Digitizing Vietnam do Trung tâm nghiên cứu Việt Nam của Đại học Fulbright triển khai đã ra mắt Tongues Lost & Found - nền tảng số hóa văn bản, ghi âm và tư liệu về các phương ngữ ít người biết đến, như Annamese Middle Chinese, nhằm phục hồi và lan tỏa giá trị lịch sử ngôn ngữ.

Cựu sinh viên Lê Hoàng Phúc chuyên ngành khoa học máy tính là người góp mặt trong dự án bảo tồn ngôn ngữ Digitizing Vietnam - Ảnh: ĐH Fulright
Thư viện số này không chỉ lưu giữ các tác phẩm văn học dân gian như Truyện Kiều, thơ Hồ Xuân Hương mà còn cung cấp các từ điển, công cụ giúp tra cứu, phân tích, trích xuất và diễn giải tư liệu, gồm công cụ giải mã ký tự Hán - Việt, nền tảng OCR giúp nhận diện ký tự Hán - Nôm (thời kỳ cận đại), và công cụ gắn nhãn tư liệu tiền hiện đại.
Vào đầu năm 2025, Digitizing Việt Nam đã đóng góp 4,7 TB dữ liệu Hán Nôm từ thư viện trường Đại học Columbia để hoàn thiện chức năng nhận diện, dịch thuật của Kim Hán Nôm.
PGS-TS Đinh Điền đã chỉ ra vai trò của AI giúp nhận dạng, phiên âm, dịch nghĩa và giải mã một cách nhanh chóng và chính xác. Trí tuệ nhân tạo sẽ là cầu nối quan trọng để các nhà nghiên cứu có thể tiếp cận và ứng dụng kho tàng tư liệu lịch sử, y học cổ truyền, văn học dân gian Hán - Nôm của Việt Nam.
Bộ Văn hóa, Thể thao và Du lịch cũng đã phê duyệt đề án bảo tồn văn học dân gian các dân tộc thiểu số đến năm 2030, trong đó nhấn mạnh vai trò của công nghệ số trong thu thập và lưu trữ di sản phi vật thể, tránh nguy cơ mai một khi nghệ nhân lớn tuổi qua đời.
Không chỉ ngôn ngữ, di sản văn hóa gắn liền với ngôn ngữ cũng đang được bảo tồn bằng công nghệ. Việc tích hợp NFC và blockchain cho phép xác minh tính xác thực của bản sao số, tạo “hồ sơ số” vĩnh viễn cho di sản. Đây là cách bảo tồn toàn diện, gắn kết ngôn từ, ký ức và không gian sống.

Cổ vật hoàng gia được nhận dạng số để trưng bày tại phòng trưng bày ảo - Ảnh: VietnamPlus
Tại Huế, Trung tâm Bảo tồn di tích Cố đô Huế đã thử nghiệm sử dụng chip NFC và công nghệ blockchain để xác thực bản quyền số hóa của các cổ vật triều Nguyễn, tạo bản “bản sao số” có tính xác thực, giúp chống làm giả. Hay dự án triển lãm ảo Metaverse tại Huế cũng sử dụng công nghệ Near-Field Communication (NFC) và Nomion để khách tham quan dùng điện thoại của mình mở nội dung số liên quan cổ vật, lịch sử, xuất xứ.
Lợi ích và thách thức
Rõ ràng, công nghệ đang trở thành “người kể chuyện mới” cho các nền văn hóa cổ. Việc ứng dụng AI và số hóa mang lại nhiều lợi ích như giữ gìn bản sắc văn hóa cho thế hệ trẻ; mở rộng giáo dục và dịch vụ công bằng ngôn ngữ mẹ đẻ; thúc đẩy du lịch và sáng tạo văn hóa thông qua ứng dụng học ngôn ngữ, trải nghiệm VR.
Tuy nhiên, không ít thách thức tồn tại. Dữ liệu ngôn ngữ cổ thường rời rạc, khan hiếm. AI có thể dịch sai hoặc làm mất sắc thái văn hóa nếu thiếu sự tham gia của người bản địa. Ngoài ra, câu hỏi về quyền sở hữu trí tuệ và quyền sử dụng dữ liệu ngôn ngữ cũng chưa có lời giải rõ ràng.
Trong cuộc đua với thời gian, AI và số hóa đang trở thành chìa khóa để ngôn ngữ không chỉ nằm trong bảo tàng, mà còn hiện diện sống động trong đời sống hiện đại. Từ những ngôi làng tribal Ấn Độ, ký tự bí ẩn Nüshu ở Trung Quốc, cho đến phương ngữ ít người biết ở Việt Nam, công nghệ đang viết lại một chương mới cho di sản nhân loại - nơi mỗi tiếng nói, dù nhỏ bé, vẫn có thể vang lên và được lắng nghe.