Tạo lập ngân hàng dữ liệu - 'mỏ vàng' để khai thác và nghiên cứu AI
Trí tuệ nhân tạo (AI) với những ứng dụng mang tính 'cách mạng' đã lan tỏa mọi ngóc ngách trong cuộc sống, góp phần không nhỏ trong nghiên cứu y sinh học và hỗ trợ công việc cải thiện sức khỏe con người.
Đây cũng là chủ đề TS. Võ Sỹ Nam - Giám đốc Khoa học & Công nghệ kiêm đồng sáng lập CTCP GeneStory mang đến Diễn đàn Trí tuệ nhân tạo Việt Nam 2024.
Nhắc lại về giải Nobel Hóa học năm 2024 được trao cho 2 nhà khoa học Demis Hassabis và John Jumper sử dụng AI để dự đoán cấu trúc 3 chiều của protein, TS. Nam một lần nữa khẳng định ứng dụng AI với hệ thống AlphaFold cực kỳ quan trọng. Theo chuyên gia, hiện nay thế giới đang bước sang kỉ nguyên của y học chính xác, y học cá thể hóa so với y học truyền thống. Y học cá thể hóa là một cách để “may đo”, giải bài toán về học máy, phân loại các bệnh nhân làm sao cho phù hợp với phác đồ điều trị. Đó chính là ứng dụng rất điển hình của AI trong y học hiện nay.
TS. Nam cho biết cùng với sự tiến bộ của thế giới, ứng dụng AI trong y sinh học tại Việt Nam cũng đã đạt được một số thành tựu nhất định có thể kể đến như: Quản lý bệnh án điện tử, tối ưu hóa quy trình chăm sóc bệnh nhân; phân tích hình ảnh y khoa, hỗ trợ chẩn đoán bệnh; phân tích dữ liệu dịch tễ học, dự đoán sự lây lan của dịch bệnh; phát triển vắc xin và liệu pháp miễn dịch; phân tích dữ liệu sinh học phức tạp; tối ưu hóa các quy trình sinh học trong nông nghiệp.
Bên cạnh đó việc ứng dụng vẫn còn tồn tại một số thách thức. Thứ nhất, thiếu khung pháp lý cụ thể về AI trong y sinh học. Thứ hai, an toàn bảo mật dữ liệu và riêng tư cá nhân chưa thật sự được chú ý. Thứ ba, vấn đề đạo đức trong y khoa, kĩ năng lâm sàng của bác sĩ đặt ra câu hỏi nếu AI đưa ra quyết định vậy ai sẽ là người chịu trách nhiệm cho quyết định đó? Thứ tư, thách thức đến từ việc AI hoạt động như một hộp đen, những gì xảy ra trong đó rất khó để diễn giải. Thứ năm, thiếu nguồn nhân lực chất lượng cao. Đào tạo nhân lực là điều quan trọng nhất bởi đây là yếu tố quyết định đến tương lai của việc nghiên cứu AI trong tương lai.
Một trong những vấn đề được quan tâm nhất khi nghiên cứu và sáng tạo các mô hình trí tuệ nhân tạo là thu thập dữ liệu và gắn nhãn. Gặp gỡ chuyên gia tại diễn đàn, các học sinh đã đặt ra câu hỏi: “Dữ liệu AI đóng vai trò vô cùng quan trọng và có thể ảnh hưởng đến 80% hiệu quả của công nghệ. Vậy thách thức nào sẽ đặt ra trong việc thu thập dữ liệu, làm sao hạn chế được thách thức đó, chuyên gia có lời khuyên gì về vấn đề thu thập dữ liệu AI?”
TS. Võ Sỹ Nam chia sẻ có 2 vấn đề cần làm rõ. Thứ nhất, dữ liệu cho AI hơi khác so với dữ liệu thông thường. Dữ liệu AI là dữ liệu phải được gắn nhãn, phải được làm sạch, phải làm sao để phù hợp với việc đào tạo các mô hình AI.
“Nếu thu thập dữ liệu tràn lan thì phần lớn là rác, chúng ta không dùng được. Chẳng hạn, kinh nghiệm thực tế tôi làm việc với khá nhiều bệnh viện, rất nhiều dữ liệu bị thiếu, bị sai lệch, không được gắn nhãn. Bản thân dữ liệu phải được thu thập cho phù hợp”, TS. Nam cho biết.
Thứ hai, việc làm sạch, xử lý dữ liệu cũng phải phù hợp. Theo đó, có một số mô hình AI có thể có đến hàng trăm nhà nghiên cứu và mất rất nhiều thời gian mới cải thiện được vài phần trăm độ chính xác. Nhưng đôi khi, chỉ cần một bộ dữ liệu tốt đã tăng được vài chục phần trăm.
Vậy làm sao để cải thiện, hạn chế thách thức trong thu thập dữ liệu? Theo chuyên gia, dữ liệu ở đâu cũng thiếu nhưng có nhiều thứ ở Việt Nam lại dễ thu thập hơn ở nước ngoài ví dụ như dữ liệu y tế. Việc tạo ra các ngân hàng sinh học, dữ liệu về y sinh học nói chung khi tạo lập được nguồn dữ liệu lớn, đó có thể là “mỏ vàng” để khai thác về sau; từ đó tạo sự phát triển tốt về mặt kinh tế, xã hội.
Sự phát triển của AI tạo điều kiện thuận lợi để nhân loại khám phá những bí mật của cơ thể người và cũng đặt ra nhiều thách thức đòi hỏi mỗi người phải chủ động thích nghi, học hỏi, góp phần vào sự tiến bộ chung trong thế giới ngày càng biến đổi không ngừng.