Google DeepMind đã sử dụng trí tuệ nhân tạo dự đoán cấu trúc protein đột phá của mình trong việc tìm kiếm các đột biến gen gây bệnh.
Công cụ mới dựa trên mạng AlphaFold có thể dự đoán chính xác những đột biến trong protein có khả năng gây ra các tình trạng sức khỏe — đây là một thách thức giới hạn việc sử dụng di truyền học trong lĩnh vực chăm sóc sức khỏe.
Mạng trí tuệ nhân tạo — có tên là AlphaMissense — được các nhà nghiên cứu phát triển các công cụ tương tự nhận định là một bước tiến, nhưng không nhất thiết là một sự thay đổi toàn diện. Đây chỉ là một trong nhiều kỹ thuật đang được phát triển nhằm giúp các nhà nghiên cứu, cuối cùng là các bác sĩ, "giải mã" gen của mọi người để tìm ra nguyên nhân gây bệnh. Tuy nhiên, các công cụ như AlphaMissense — được mô tả trong một bài báo vào ngày 19 tháng 9 trên tạp chí Science — sẽ cần trải qua kiểm tra cẩn thận trước khi được sử dụng trong phòng khám.
Nhiều đột biến gen gây trực tiếp bệnh, chẳng hạn như những đột biến gây bệnh đa xoang và bệnh giảm sốc thiểu cầu, thường làm thay đổi trình tự amino acid của protein mà chúng mã hóa. Nhưng các nhà nghiên cứu chỉ quan sát thấy một vài triệu đột biến 'thay thế chữ cái' như vậy. Trong hơn 70 triệu đột biến có thể xảy ra trong gen di truyền của con người, chỉ có một số ít đã được liên kết chắc chắn với bệnh tật và hầu hết có vẻ không ảnh hưởng tiêu cực đến sức khỏe.
Vì vậy, khi các nhà nghiên cứu và bác sĩ phát hiện ra một đột biến 'thay thế chữ cái' mà họ chưa từng thấy trước đây, việc hiểu rõ về nó có thể rất khó khăn. Để giúp giải mã các biến thể 'vị trí chưa rõ', các nhà nghiên cứu đã phát triển hàng chục công cụ tính toán khác nhau có thể dự đoán liệu một biến thể có khả năng gây bệnh hay không. AlphaMissense tích hợp các phương pháp hiện có để giải quyết vấn đề này, mà ngày càng được giải quyết bằng học máy.
Định vị đột biến
Mạng này dựa trên AlphaFold, dự đoán cấu trúc protein từ trình tự amino acid. Nhưng thay vì xác định tác động cấu trúc của một đột biến — một thách thức mở trong sinh học — AlphaMissense sử dụng 'trực giác' của AlphaFold về cấu trúc để xác định nơi xuất hiện tỉ lệ đột biến gây bệnh trong một protein. Pushmeet Kohli, Phó chủ tịch Nghiên cứu tại DeepMind và tác giả nghiên cứu nói như vậy trong buổi họp báo.AlphaMissense cũng tích hợp một loại mạng thần kinh được lấy cảm hứng từ các mô hình ngôn ngữ lớn như ChatGPT, đã được đào tạo trên hàng triệu trình tự protein thay vì từ ngữ, gọi là mô hình ngôn ngữ protein. Chúng đã chứng tỏ khả năng dự đoán cấu trúc protein và thiết kế protein mới. Chúng rất hữu ích cho dự đoán biến thể vì chúng đã học được những trình tự nào là hợp lý và trình tự nào không, Žiga Avsec, nhà nghiên cứu khoa học DeepMind và cộng tác viên chủ lực của nghiên cứu, cho biết với các nhà báo.
Mạng của DeepMind có vẻ là vượt trội so với các công cụ tính toán khác trong việc phân biệt biến thể đã được biết đến gây bệnh và những biến thể không gây bệnh. Đồng thời, nó cũng hoạt động tốt trong việc nhận diện các biến thể bị lỗi được xác định trong các thí nghiệm phòng thí nghiệm đo lường tác động của hàng nghìn đột biến cùng lúc. Các nhà nghiên cứu cũng sử dụng AlphaMissense để tạo ra một bộ sưu tập của tất cả các đột biến 'thay thế chữ cái' có thể có trong gen di truyền của con người, xác định rằng 57% có thể là không có hại và 32% có thể gây bệnh.
Hỗ trợ lâm sàng
AlphaMissense đã tiến bộ hơn so với các công cụ hiện có để dự đoán tác động của đột biến, "nhưng không phải là một bước đột phá to lớn," Arne Elofsson, một nhà sinh học tính toán tại Đại học Stockholm, cho biết.Ảnh hưởng của nó sẽ không lớn như AlphaFold, đã mở ra một kỷ nguyên mới trong sinh học tính toán, Joseph Marsh, một nhà sinh học tính toán tại MRC Human Genetics Unit ở Edinburgh, Vương quốc Anh, đã đồng ý. "Điều này thật hứng thú. Điều này có lẽ là bộ dự đoán tốt nhất chúng ta có hiện nay. Nhưng liệu nó có phải là bộ dự đoán tốt nhất trong hai hoặc ba năm tới? Có khả năng cao là không phải."
Theo Marsh, dự đoán tính toán hiện chỉ có vai trò tối thiểu trong việc chẩn đoán các bệnh di truyền, và các khuyến nghị từ các nhóm bác sĩ cho biết các công cụ này chỉ nên cung cấp bằng chứng hỗ trợ để liên kết một đột biến với một bệnh.
AlphaMissense tự tin phân loại một tỉ lệ đáng kể cao hơn các đột biến missense mà các phương pháp trước đây chưa làm được, theo Avsec. "Khi những mô hình này ngày càng tốt hơn, tôi tin rằng mọi người sẽ có xu hướng tin tưởng vào chúng hơn", Avsec nói.
Yana Bromberg, một nhà sinh tin học thực nghiệm tại Đại học Emory ở Atlanta, Georgia, nhấn mạnh rằng các công cụ như AlphaMissense phải được đánh giá nghiêm ngặt - sử dụng các chỉ số hiệu suất tốt - trước khi áp dụng chúng vào thế giới thực.
Ví dụ, một bài tập gọi là Đánh giá Quan trọng về Giải thích Genôm (CAGI) đã đánh giá hiệu suất của các phương pháp dự đoán như vậy trong nhiều năm qua dựa trên dữ liệu thực nghiệm chưa được công bố. "Đó là cơn ác mộng tồi tệ nhất của tôi khi nghĩ rằng một bác sĩ lấy dự đoán đó và chạy theo nó như là một thực thể thực sự, mà không qua đánh giá từ các cơ quan như CAGI", Bromberg nói thêm.
Bài viết này được sao chép với sự cho phép và đã được xuất bản lần đầu vào ngày 19 tháng 9 năm 2023.