Dự án dịch ngôn ngữ ký hiệu của những sinh viên trường ĐH Sư phạm Kỹ thuật TP. HCM
Với mong muốn ứng dụng công nghệ để tạo ra giá trị xã hội thực tiễn, đặc biệt là hướng đến hỗ trợ cộng đồng người khiếm thính ở Việt Nam, nhóm sinh viên trường ĐH Sư phạm Kỹ thuật TP. HCM đã cùng nhau khởi xướng dự án 'Thiết kế và xây dựng ứng dụng dịch thuật ký hiệu Việt Nam'. Dự án đã mang về Huy chương Đồng tại Giải thưởng 'Thiết kế, Chế tạo và Ứng dụng 2025'.
Từ phòng nghiên cứu... đến mục tiêu vì cộng đồng
Dự án được ấp ủ và triển khai trong một phòng lab chuyên nghiên cứu về trí tuệ nhân tạo (AI) của trường. Nhóm sinh viên gồm các thành viên: Lê Quốc Đạt, Nguyễn Châu Tấn Cường, Đặng Huy Hoàng, cùng sự hỗ trợ chuyên môn từ anh Huỳnh Đình Hiệp – cựu thành viên của phòng nghiên cứu, người đóng vai trò cố vấn chuyên môn, góp phần quan trọng vào định hướng và hoàn thiện dự án.
Dù xuất thân từ khoa Điện – Điện tử, nhưng nhóm không ngại bước sang lĩnh vực mới để tạo ra sản phẩm có ý nghĩa xã hội. Vì các bạn nhận thấy những kiến thức về hệ thống nhúng, xử lý tín hiệu và trí tuệ nhân tạo có thể đóng vai trò quan trọng trong việc giải quyết rào cản giao tiếp của người khiếm thính, một trong những nhóm yếu thế chưa được hỗ trợ đầy đủ tại Việt Nam.

Các thành viên của nhóm nghiên cứu.
Lê Quốc Đạt (trưởng nhóm) chia sẻ: “Cảm hứng cho dự án đến từ anh Huỳnh Đình Hiệp, người từng đề xuất nghiên cứu về hệ thống nhận diện ngôn ngữ ký hiệu nhưng chưa thể triển khai trọn vẹn. Nhóm quyết định tiếp tục ý tưởng này, kết hợp công nghệ mới như xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và mô hình học sâu để xây dựng hệ thống có thể chuyển đổi tiếng Việt sang ngôn ngữ ký hiệu một cách mượt mà và chân thực”.
Điểm nổi bật của phần mềm là khả năng mô phỏng cả cử chỉ tay lẫn biểu cảm khuôn mặt, điều cần thiết trong ngôn ngữ ký hiệu. Các công nghệ được ứng dụng như AlphaPose để trích xuất khung xương, PhoWhisper để chuyển đổi giọng nói sang văn bản, ViT5 để tái cấu trúc câu theo ngữ pháp ngôn ngữ ký hiệu và SMPL-X để mô phỏng chuyển động cơ thể. Video kết quả được dựng bằng Blender API, tạo ra hình ảnh sinh động và trực quan cho người dùng.
Nguyễn Châu Tấn Cường (thành viên nhóm) cho biết thêm: “Hệ thống được chia thành nhiều khối chức năng từ nhận diện âm thanh, trích xuất hình ảnh, xử lý ngữ pháp cho tới dựng video đầu ra. Đặc biệt, phần mềm không chỉ dừng lại ở mức mô phỏng chuyển động tay, mà còn tái hiện biểu cảm khuôn mặt, yếu tố quan trọng giúp thông điệp trở nên đầy đủ và chính xác hơn”.

Giao diện của dự án.
Vượt qua khó khăn bằng niềm đam mê lớn
Mục tiêu lớn nhất nhóm hướng đến là phát triển một giải pháp công nghệ thân thiện, chính xác và dễ tiếp cận, giúp xóa bỏ rào cản giao tiếp giữa cộng đồng người yếu thế, đặc biệt là người khiếm thính, với xã hội rộng lớn hơn. Dự án góp phần nâng cao chất lượng cuộc sống và thúc đẩy sự hòa nhập bền vững cho những nhóm người còn gặp nhiều khó khăn trong giao tiếp.
Dù có nền tảng kỹ thuật vững vàng, nhóm cũng không tránh khỏi những khó khăn trong quá trình thực hiện dự án. Một trong những thử thách lớn nhất là việc chuyển đổi tiếng Việt thông thường, vốn mang cấu trúc phức tạp và đa nghĩa sang ngôn ngữ ký hiệu, là một ngôn ngữ hình thể rất khác biệt. Bên cạnh đó, việc xây dựng bộ dữ liệu đặc thù, phù hợp với văn hóa và cách diễn đạt của người Việt cũng là một trở ngại lớn.
Hiện tại, dự án đang ở giai đoạn phát triển bản demo, các chức năng chính đã cơ bản hoàn thiện, dù chưa đạt tốc độ xử lý thời gian thực. Nhóm vẫn đang tích cực tinh chỉnh mô hình, cải thiện giao diện và lên kế hoạch triển khai. Dự kiến, bản thử nghiệm đầu tiên sẽ hoàn thành trong vòng vài tháng tới, khi hệ thống đủ ổn định để đưa vào thử nghiệm thực tế.

Nhóm mong muốn sẽ ngày càng hoàn thiện dự án trong thời gian tới.
Nói về dự định trong tương lai, nhóm sẽ hướng đến xây dựng một hệ thống dịch hai chiều giữa tiếng Việt và ngôn ngữ ký hiệu, mở rộng khả năng giao tiếp song phương giữa hai phía. Cả nhóm kỳ vọng phần mềm sẽ phục vụ từ vài nghìn đến vài chục nghìn người dùng trong 1 - 2 năm tới. Cả nhóm cũng có kế hoạch phổ biến phần mềm thông qua nền tảng web và hợp tác với các tổ chức xã hội, nhằm lan tỏa ý nghĩa của dự án đến nhiều người hơn.