Công bố mô hình AI dự đoán thông tin di truyền siêu mạnh

Google DeepMind vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng dự đoán thông tin di truyền. Mô hình này có những tính năng vượt trội như khả năng phân tích cùng lúc 1 triệu ký tự DNA.

AI sẽ mở hết các vùng tối trong chuỗi DNA

AI sẽ mở hết các vùng tối trong chuỗi DNA

Trong bài đăng chính thức trên blog, DeepMind cho biết họ đã phát hành mô hình phân tích trình tự DNA dựa trên AI mang tên AlphaGenome dưới dạng API phục vụ nghiên cứu. Bất kỳ ai cũng có thể sử dụng mô hình này cho mục đích phi thương mại.

Phân tích cả các vùng không mã hóa

AlphaGenome có thể đọc 1 triệu ký tự DNA và dự đoán chính xác từng ký tự ở cấp độ từng base (nucleotide). Nhờ khả năng phân tích các trình tự dài với độ phân giải cao, mô hình này có thể giải mã cả những vùng điều khiển gien ở vị trí xa. Chức năng này có được là nhờ cấu trúc kết hợp giữa mạng tích chập (convolution) và transformer.

Ngoài ra, AlphaGenome còn có khả năng dự đoán các thông tin điều hòa khác nhau, đó là những yếu tố quyết định khi nào, ở đâu và với cường độ bao nhiêu một gien được kích hoạt. Mô hình còn có thể so sánh nhanh chóng sự khác biệt giữa trình tự đột biến và trình tự gốc, đồng thời đánh giá tác động của các đột biến di truyền chỉ trong vòng 1 giây. Nó cũng có thể dự đoán vị trí cắt RNA, nhờ đó hỗ trợ phân tích các bệnh hiếm do lỗi ghép nối (splicing).

DeepMind tuyên bố mô hình này vượt trội hơn mô hình tốt nhất trước đó trong 22/24 nhiệm vụ dự đoán. Trong các bài kiểm tra dự đoán hiệu ứng điều hòa, AlphaGenome còn đạt hiệu suất tốt nhất trong 24/26 bài kiểm tra.

Mô hình này hoạt động dựa trên nền tảng Enformer hiện có. Người dùng cũng có thể kết hợp sử dụng với AlphaMissense, một mô hình chuyên phân tích các vùng mã hóa protein. Nhờ đó, có thể phân tích cả các vùng không mã hóa, vốn chiếm tới 98% bộ gien người, mở ra khả năng ứng dụng trong nghiên cứu các bệnh hiếm.

AlphaGenome được huấn luyện trên các bộ dữ liệu hệ gien quy mô lớn như ENCODE, GTEx và FANTOM5, đồng thời tích hợp dữ liệu từ nhiều mô hình tế bào và mô liên quan đến người và chuột. DeepMind cho biết: “AlphaGenome được huấn luyện để hiểu toàn bộ quá trình điều hòa gien. Các nhà nghiên cứu có thể điều chỉnh mô hình này để phù hợp với dữ liệu của riêng họ”.

Tiến sĩ Caleb Larlow thuộc Trung tâm Ung thư Memorial Sloan Kettering (Mỹ) nhận định: “Đây là mô hình đầu tiên có thể xử lý cùng lúc các phân tích toàn bộ hệ gien với độ chính xác cấp base, thời gian dài và đa dạng. Nó sẽ mở rộng đáng kể tiềm năng khai thác thông tin di truyền phức tạp”.

Ý nghĩa của mô hình mới

AlphaGenome của Google DeepMind mang lại những ý nghĩa sâu sắc và tiềm năng cách mạng cho lĩnh vực y sinh, đặc biệt là trong việc hiểu biết về bộ gien người và ứng dụng vào y học.

Trước hết là giúp chúng ta hiểu biết sâu sắc hơn về bộ gien và điều hòa gien.

Giải mã 98% "vùng tối" của bộ gien: Phần lớn bộ gien người (khoảng 98%) là các vùng không mã hóa protein, nhưng lại đóng vai trò quan trọng trong việc điều hòa hoạt động của gien. AlphaGenome được thiết kế để phân tích các vùng này, giúp chúng ta hiểu cách các gien được bật/tắt, biểu hiện mạnh hay yếu, và tương tác với nhau như thế nào. Điều này lấp đầy khoảng trống kiến thức lớn mà các mô hình trước đây chưa thể giải quyết triệt để.

Phân tích ngữ cảnh trình tự dài với độ phân giải cao: Khả năng phân tích trình tự DNA lên tới 1 triệu cặp bazơ với độ phân giải từng cặp bazơ giúp AlphaGenome nắm bắt các tương tác điều hòa gien phức tạp, kể cả những tương tác từ xa, mà các mô hình cũ thường phải đánh đổi giữa chiều dài và độ phân giải.

Thứ hai, phát hiện và hiểu tác động của biến thể di truyền:

Dự đoán tác động của đột biến: AlphaGenome có thể dự đoán hàng nghìn thuộc tính phân tử đặc trưng cho hoạt động điều hòa của DNA. Điều này cực kỳ quan trọng để đánh giá tác động của các biến thể di truyền (đột biến) trong cả vùng mã hóa và không mã hóa.

Xác định các biến thể gây bệnh: Nhiều bệnh lý (đặc biệt là các bệnh phức tạp như ung thư, bệnh tim mạch, tiểu đường) có liên quan đến các biến thể trong vùng không mã hóa. AlphaGenome giúp xác định và hiểu rõ hơn vai trò của những biến thể này trong cơ chế bệnh sinh. Ví dụ, nó đã được chứng minh có thể điều tra các đột biến liên quan đến bệnh bạch cầu lymphoblastic cấp tính tế bào T.

Hỗ trợ chẩn đoán và sàng lọc bệnh: Với khả năng dự đoán chính xác tác động của biến thể, AlphaGenome có thể hỗ trợ chẩn đoán sớm các bệnh di truyền, đánh giá nguy cơ mắc bệnh và sàng lọc các cá thể có nguy cơ cao.

Thứ ba, đẩy nhanh nghiên cứu và phát triển thuốc:

Mục tiêu thuốc mới: Bằng cách hiểu rõ hơn về các con đường điều hòa gien và cách các biến thể ảnh hưởng đến chúng, AlphaGenome có thể giúp xác định các mục tiêu thuốc mới tiềm năng cho các bệnh mà hiện tại chưa có phương pháp điều trị hiệu quả.

Thiết kế liệu pháp gien: Với kiến thức sâu sắc về cách các trình tự DNA điều hòa gien, AlphaGenome có thể hỗ trợ thiết kế các liệu pháp gien chính xác hơn, nhắm mục tiêu vào các vùng cụ thể để sửa chữa hoặc điều chỉnh hoạt động của gien.

Y học cá nhân hóa (Precision Medicine): Khả năng dự đoán phản ứng của từng cá thể với thuốc dựa trên bộ gien của họ sẽ được cải thiện đáng kể, dẫn đến các phác đồ điều trị cá nhân hóa hiệu quả hơn và ít tác dụng phụ hơn.

Thứ tư, thúc đẩy sinh học tổng hợp và kỹ thuật di truyền:

Thiết kế trình tự DNA chức năng: AlphaGenome có thể được sử dụng để thiết kế các trình tự DNA tổng hợp với các chức năng điều hòa cụ thể, mở ra cánh cửa cho các ứng dụng trong sinh học tổng hợp, ví dụ như tạo ra vi sinh vật sản xuất hóa chất, nhiên liệu sinh học hoặc dược phẩm.

Tối ưu hóa công cụ chỉnh sửa gien: Hiểu biết sâu sắc về cách các trình tự DNA hoạt động có thể giúp tối ưu hóa các công cụ chỉnh sửa gien như CRISPR, giảm thiểu các lỗi ngoài mục tiêu và tăng hiệu quả chỉnh sửa.

Cuộc đua AI trong công nghệ DNA

Trước khi AlphaGenome của Google DeepMind ra đời, đã có một số mô hình AI được phát triển nhằm phân tích trình tự DNA và dự đoán thông tin di truyền, nhưng chưa mô hình nào kết hợp được đồng thời ba yếu tố mà AlphaGenome hiện đang làm được bao gồm: Xử lý các trình tự DNA rất dài (1 triệu base cùng lúc); Độ chính xác ở cấp độ từng base (nucleotide-level precision) và Khả năng dự đoán đa dạng các yếu tố điều hòa gien trên toàn bộ hệ gien (genome-wide regulatory effects).

Chẳng hạn Enformer (DeepMind, 2021) là tiền thân trực tiếp của AlphaGenome. Dùng mô hình transformer để dự đoán biểu hiện gien và các tín hiệu điều hòa dựa trên trình tự DNA, Enformer có khả năng xử lý các đoạn DNA dài hơn nhiều so với các mô hình trước đó (khoảng 200.000 base). Enformer được huấn luyện để dự đoán biểu hiện gien trong các mô mô học cụ thể.

Dù tiên tiến, Enformer vẫn chưa đạt độ chính xác cao ở cấp độ từng base như AlphaGenome và cũng không thể xử lý các đoạn DNA dài tới 1 triệu ký tự.

Hay Basenji2 (Kelley et al., 2020) là mô hình học sâu (deep learning) chuyên dự đoán các tín hiệu epigenetic như mức methyl hóa DNA hoặc biểu hiện gien.

Dựa trên mạng convolutional neural networks (CNN), Basenji2 có khả năng dự đoán biểu hiện gien trên nhiều mô người. Tuy nhiên, Basenji2 không sử dụng kiến trúc transformer và không đạt đến phạm vi phân tích toàn hệ gien như AlphaGenome.

DeepMind năm 2023 phát triển AlphaMissense là mô hình AI chuyên dự đoán mức độ nguy hiểm của các biến thể missense (đột biến làm thay đổi 1 axit amin trong protein).

Dựa trên dữ liệu cấu trúc và chức năng protein, AlphaMissense cực kỳ hiệu quả với vùng mã hóa protein (coding regions). Tuy nhiên, AlphaMissense không áp dụng cho vùng không mã hóa, vốn chiếm 98% hệ gien.

Còn SpliceAI của Google Brain phát triển 2019 là mô hình học sâu chuyên dự đoán các lỗi splicing (nối mRNA sai) từ DNA. SpliceAI được thiết kế để tìm các điểm nối RNA bất thường gây bệnh. Thế nhưng, SpliceAI tập trung chủ yếu vào chức năng splicing, không có năng lực phân tích đa chiều hoặc quy mô lớn như AlphaGenome.

Anh Tú

Nguồn Một Thế Giới: https://1thegioi.vn/cong-bo-mo-hinh-ai-du-doan-thong-tin-di-truyen-sieu-manh-234182.html
Zalo