Mạng nơ-ron nhân tạo, các mô hình học máy phổ biến có thể được huấn luyện để hoàn thành nhiều nhiệm vụ, được gọi là như vậy vì kiến trúc của chúng lấy cảm hứng từ cách các nơ-ron sinh học xử lý thông tin trong não người.
Khoảng sáu năm trước, các nhà khoa học đã phát hiện ra một loại mô hình mạng nơ-ron mới mạnh mẽ hơn được gọi là transformer. Những mô hình này có thể đạt được hiệu suất chưa từng thấy, chẳng hạn như sinh văn bản từ các lời nhắc với độ chính xác gần tương tự con người. Biến áp là cơ sở của các hệ thống AI như ChatGPT và Bard, ví dụ. Mặc dù hiệu quả tuyệt vời, nhưng transformers cũng rất bí ẩn: Khác với các mô hình mạng nơ-ron lấy cảm hứng từ não khác, chưa rõ làm cách nào để xây dựng chúng bằng các thành phần sinh học.
Bây giờ, các nhà nghiên cứu từ MIT, MIT-IBM Watson AI Lab và Harvard Medical School đã đưa ra một giả thuyết có thể giải thích cách xây dựng một transformer bằng cách sử dụng các yếu tố sinh học trong não. Họ cho rằng một mạng lưới sinh học gồm các nơ-ron và các tế bào não khác được gọi là astrocytes có thể thực hiện cùng một phép tính cốt lõi như một transformer.
Nghiên cứu gần đây đã chỉ ra rằng astrocytes, các tế bào không phải là nơ-ron phổ biến trong não, giao tiếp với nơ-ron và đóng vai trò trong một số quá trình sinh lý, chẳng hạn như điều chỉnh lưu lượng máu. Nhưng các nhà khoa học vẫn chưa hiểu rõ vai trò tính toán của những tế bào này.
Với nghiên cứu mới này, được công bố tuần này theo định dạng truy cập mở trong Proceedings of the National Academy of Sciences, các nhà nghiên cứu đã xem xét vai trò của astrocytes trong não từ góc độ tính toán và đã xây dựng một mô hình toán học cho thấy cách chúng có thể được sử dụng, cùng với nơ-ron, để xây dựng một transformer đáng tin cậy sinh học.
Giả thuyết của họ mang lại những thông tin quan trọng có thể khơi dậy nghiên cứu sinh học não tương lai về cách làm việc của não người. Đồng thời, nó có thể giúp các nhà nghiên cứu học máy giải thích tại sao transformers thành công như vậy trong nhiều nhiệm vụ phức tạp và đa dạng.
“Não là vượt trội hơn rất nhiều so với cả những mạng nơ-ron nhân tạo tốt nhất mà chúng ta đã phát triển, nhưng chúng ta thực sự không biết rõ cách não hoạt động. Có giá trị khoa học trong việc nghĩ về mối liên hệ giữa phần cứng sinh học và các mạng trí tuệ nhân tạo quy mô lớn. Đây là sinh học não cho trí tuệ nhân tạo và trí tuệ nhân tạo cho sinh học não,” Dmitry Krotov, một nhân viên nghiên cứu tại MIT-IBM Watson AI Lab và là tác giả chính của bài báo nghiên cứu, cho biết.
Krotov cùng với Leo Kozachkov, một cộng tác viên nghiên cứu tại Khoa Học Hệ Sống Não và Giảng viên Ksenia V. Kastanenka, một giáo sư trợ lý về neurobiology tại Harvard Medical School và một nhà nghiên cứu trợ lý tại Viện Nghiên cứu Massachusetts General, là các tác giả của bài báo.
Một điều không thể sinh học trở nên khả thi
Transformers hoạt động khác với các mô hình mạng nơ-ron khác. Ví dụ, mạng nơ-ron tuần hoàn được huấn luyện cho xử lý ngôn ngữ tự nhiên sẽ so sánh mỗi từ trong một câu với trạng thái nội tại được xác định bởi các từ trước đó. Một transformer, ngược lại, so sánh tất cả các từ trong câu cùng một lúc để tạo ra một dự đoán, quá trình gọi là tự-chú ý.
Để tự-chú ý hoạt động, transformer phải giữ toàn bộ các từ sẵn sàng trong một hình thức bộ nhớ nào đó, Krotov giải thích, nhưng điều này không dường như khả thi sinh học do cách các nơ-ron giao tiếp.
Tuy nhiên, vài năm trước các nhà khoa học nghiên cứu một mô hình học máy hơi khác (được gọi là bộ nhớ liên kết Dense) nhận ra rằng cơ chế tự-chú ý này có thể xảy ra trong não, nhưng chỉ khi có sự giao tiếp giữa ít nhất ba nơ-ron.
“Con số ba thực sự thu hút tôi vì trong ngành sinh học, có một điều được biết là các tế bào gọi là astrocytes, không phải là nơ-ron, hình thành kết nối ba chiều với các nơ-ron, được gọi là synapse tam bộ phận,” Kozachkov cho biết.
Khi hai nơ-ron giao tiếp, nơ-ron tiền synapse gửi các chất truyền thần kinh qua synapse kết nối nó với nơ-ron sau synapse. Đôi khi, một astrocyte cũng được kết nối – nó bao quanh một chiếc que dài, mỏng xung quanh synapse, tạo thành một synapse tam bộ phận (ba phần). Một astrocyte có thể tạo ra hàng triệu synapse tam bộ phận.
Astrocyte thu thập một số chất truyền thần kinh chảy qua khe giao tiếp synaptic. Đến một thời điểm nào đó, astrocyte có thể gửi tín hiệu trở lại cho nơ-ron. Vì astrocyte hoạt động theo khoảng thời gian dài hơn rất nhiều so với nơ-ron – chúng tạo ra tín hiệu bằng cách tăng lượng thụ tác canxi chậm rồi giảm nó – những tế bào này có thể giữ và tích hợp thông tin mà được truyền từ nơ-ron. Như vậy, astrocytes có thể hình thành một loại bộ đệm trí nhớ, Krotov nói thêm.
"Nếu bạn suy nghĩ về điều đó, thì astrocytes rất tự nhiên cho phép thực hiện hoạt động chú ý bên trong transformers," ông nói.
Xây dựng mạng tế bào thần kinh - tế bào dẫn truyền
Nhờ nhận thức này, các nhà nghiên cứu đã hình thành giả thuyết rằng tế bào dẫn truyền có thể đóng vai trò trong cách biến đổi tính toán của transformer. Sau đó, họ đã bắt tay vào xây dựng một mô hình toán học về một mạng tế bào thần kinh - tế bào dẫn truyền mà sẽ hoạt động giống như một transformer.
Họ đã sử dụng những toán học cốt lõi của một transformer và phát triển những mô hình sinh học đơn giản cho việc tương tác giữa tế bào dẫn truyền và tế bào thần kinh trong não, dựa trên những nghiên cứu sâu về từ liệu và sự hướng dẫn từ các cộng tác viên là những chuyên gia thần kinh học.
Sau đó, họ kết hợp các mô hình theo một số cách cụ thể cho đến khi tìm ra một phương trình của mạng tế bào thần kinh - tế bào dẫn truyền mô tả sự chú ý tự động của một transformer.
"Đôi khi, chúng tôi nhận thấy rằng những điều cụ thể chúng tôi muốn đúng không thể được thực hiện một cách hợp lí. Vì vậy, chúng tôi phải nghĩ đến những giải pháp thay thế. Có một số điều trong bài báo là sự xấp xỉ rất cẩn thận của kiến trúc transformer để có thể phù hợp với nó một cách có tính sinh học," Kozachkov chia sẻ.
Thông qua phân tích của họ, các nhà nghiên cứu đã chứng minh rằng mạng tế bào thần kinh - tế bào dẫn truyền sinh lý của họ lý thuyết khớp với một transformer. Ngoài ra, họ đã tiến hành mô phỏng số học bằng cách đưa hình ảnh và đoạn văn văn bản vào các mô hình transformer và so sánh phản ứng với mô phỏng của mạng tế bào thần kinh - tế bào dẫn truyền. Cả hai đều đưa ra những phản hồi tương tự cho các yêu cầu, xác nhận mô hình lý thuyết của họ.
"Với việc không thể ghi lại điện trong hơn một thế kỷ ghi âm não, tế bào dẫn truyền là một trong những tế bào phổ biến nhưng ít được khám phá nhất trong não. Tiềm năng để khai phá sức mạnh tính toán từ nửa còn lại của não chúng ta là rất lớn," Konstantinos Michmizos, giảng viên khoa học máy tính tại Đại học Rutgers, người không liên quan đến công việc này nói. "Nghiên cứu này mở ra một vòng lặp hấp dẫn, từ việc hiểu làm thế nào hành vi thông minh thực sự có thể phát sinh trong não, đến việc chuyển nhượng giả thuyết đột phá thành công cụ mới mang tính thông minh giống con người."
Bước tiếp theo của các nhà nghiên cứu là thực hiện sự chuyển từ lý thuyết sang thực nghiệm. Họ hy vọng so sánh những dự đoán của mô hình với những gì đã được quan sát trong các thí nghiệm sinh học và sử dụng kiến thức này để chỉnh sửa, hoặc có thể bác bỏ, giả thuyết của họ.
Ngoài ra, một hàm ý khác của nghiên cứu của họ là tế bào dẫn truyền có thể liên quan đến bộ nhớ dài hạn, vì mạng tế bào thần kinh cần lưu trữ thông tin để có thể đưa ra hành động trong tương lai. Nghiên cứu bổ sung có thể điều tra ý tưởng này sâu hơn, theo Krotov.
"Vì rất nhiều lý do, tế bào dẫn truyền cực kỳ quan trọng đối với tri giác và hành vi, và chúng hoạt động theo cách cơ bản khác biệt so với tế bào thần kinh. Hi vọng lớn nhất của tôi cho bài báo này là nó thúc đẩy một loạt nghiên cứu về thần kinh tính toán đối với tế bào glia, và đặc biệt là tế bào dẫn truyền," Kozachkov nói thêm.
Nghiên cứu này được hỗ trợ, một phần, bởi Tổ Chức BrightFocus và Viện Quốc gia Sức khỏe.