Nhà khoa học sử dụng trí tuệ nhân tạo để giải mã từ và câu từ các quét não

Một kỹ thuật dựa trên trí tuệ nhân tạo (AI) có thể dịch các quét não sang từ và câu, theo một nhóm khoa học đại số tính toán. Mặc dù ở giai đoạn sớm và còn nhiều hạn chế, công nghệ mới này có thể sẽ giúp những người bị chấn thương não hoặc bị liệt phục hồi khả năng giao tiếp, các nhà nghiên cứu cho biết.

Nghiên cứu "chứng tỏ rằng, sử dụng các phương pháp đúng và các mô hình tốt hơn, chúng ta thực sự có thể giải mã những gì người tham gia đã nghĩ", Martin Schrimpf, một nhà đại số tính toán tại Viện Công nghệ Massachusetts cho biết.

Các nhóm nghiên cứu khác đã tạo ra các giao diện máy tính - não (BCI) để dịch hoạt động não của bệnh nhân tê liệt thành từ. Tuy nhiên, hầu hết các phương pháp này phụ thuộc vào các điện cực được cấy ghép vào não của bệnh nhân. Các phương pháp phi xâm nhập dựa trên các phương pháp như điện não đồ (EEG), đo hoạt động não thông qua các điện cực được gắn vào da đầu, đã hoạt động ít tốt. BCI dựa trên EEG cho đến nay chỉ có thể giải mã các câu từ đơn và không thể tái tạo ngôn ngữ mạch lạc, Schrimpf cho biết. Các BCI trước đây cũng thường tập trung vào các cá nhân cố gắng nói hoặc suy nghĩ về nói, vì vậy chúng phụ thuộc vào các khu vực của não liên quan đến các chuyển động liên quan đến nói chuyện và chỉ hoạt động khi người đó đang di chuyển hoặc cố gắng di chuyển.

Bây giờ, Alexander Huth, một nhà đại số tính toán tại Đại học Texas ở Austin và đồng nghiên cứu của ông đã phát triển một BCI dựa trên hình ảnh từng đo, sử dụng nhiều hơn vào các khu vực sản sinh ngôn ngữ của não để tìm hiểu về nói tưởng tượng. Phương pháp phi xâm nhập này, thường được sử dụng trong nghiên cứu sinh học thần kinh, theo dõi các thay đổi trong lưu lượng máu trong não để đo lường hoạt động thần kinh.

Như với tất cả các BCI, mục tiêu là liên kết mỗi từ, cụm từ hoặc câu với mẫu hoạt động não cụ thể mà nó gợi ra. Để thu thập dữ liệu cần thiết, các nhà nghiên cứu đã quét các não của ba người tham gia trong khi mỗi người nghe khoảng 16 giờ các chương trình podcast chuyện kể như The Moth Radio Hour và Modern Love của The New York Times. Với những dữ liệu đó, các nhà nghiên cứu đã tạo ra một bộ bản đồ cho mỗi người để chỉ định cách mà não của người đó phản ứng khi nghe một từ, cụm từ hoặc ý nghĩa nhất định. Vì fMRI mất một vài giây để ghi lại hoạt động não, nó không ghi lại từng từ cụ thể, mà chính xác là ý tưởng chung với từng cụm từ và câu, Huth cho biết. Đội của ông đã sử dụng dữ liệu fMRI để đào tạo AI dự đoán cách não của một cá nhân cụ thể sẽ phản ứng với ngôn ngữ.

Ban đầu, hệ thống gặp khó khăn trong việc chuyển đổi các quét não sang ngôn ngữ. Nhưng sau đó, các nhà nghiên cứu cũng tích hợp mô hình ngôn ngữ tự nhiên GPT để dự đoán từ nào sẽ xuất hiện sau từ khác. Sử dụng các bản đồ được tạo ra từ các quét và mô hình ngôn ngữ, họ đã đi qua các cụm từ và câu khác nhau để xem liệu hoạt động não được dự đoán có khớp với hoạt động não thực tế hay không. Nếu có, họ giữ cụm từ đó và tiếp tục sang cụm từ tiếp theo.

Sau đó, các thí nghiệm khác được thực hiện, với các tham gia nghe những podcast không được sử dụng trong quá trình đào tạo. Và từ từ, hệ thống đã cho ra một số từ, cụm từ và câu có ý tưởng khớp với ý nghĩ của người đó. Công nghệ này đặc biệt tốt trong việc có được sự khái quát của câu chuyện, ngay cả khi không nhận được mọi từ đúng.

Nó cũng hoạt động khi một người kể một câu chuyện hoặc xem một video. Trong một thí nghiệm, các thí nghiệm xem một bộ phim không có âm thanh trong khi hệ thống cố gắng giải mã những gì họ đang nghĩ. Khi cá nhân xem một bộ phim hoạt hình nơi một con rồng đá một ai đó xuống đất, hệ thống cho biết: "Anh ta đánh tôi xuống đất." Tất cả điều này đã diễn ra mà không cần người tham gia phải nói. "Điều đó thực sự chứng tỏ rằng những gì chúng tôi đang cố gắng ở đây là điều sâu sắc hơn chỉ là ngôn ngữ," Huth nói. "[Hệ thống] hoạt động ở cấp độ ý tưởng."

Hệ thống này có thể giúp đỡ các cá nhân đã mất khả năng giao tiếp do chấn thương não, đột quỵ hoặc hội chứng khóa than cũng như các phiên bản liên quan khác của bệnh liệt. Tuy nhiên, điều đó sẽ đòi hỏi không chỉ nâng cao công nghệ bằng cách sử dụng nhiều dữ liệu đào tạo hơn, mà còn làm cho nó dễ tiếp cận hơn. Dựa trên fMRI làm cho hệ thống trở nên đắt tiền và cồng kềnh để sử dụng, nhưng Huth nói rằng mục tiêu của nhóm là có thể làm điều này với các kỹ thuật hình ảnh di động và dễ sử dụng hơn như EEG.

Mặc dù không đến nơi có thể giải mã suy nghĩ tự phát trong thế giới thực, sự tiến bộ này đề xuất các lo ngại, với sự cải tiến, công nghệ có thể tương tự như một loại đọc suy nghĩ. "Ý nghĩ của chúng tôi khi chúng tôi thực sự đã làm việc này là 'Oh trời ơi, điều này hơi đáng sợ'", Huth nhớ lại. Để bắt đầu giải quyết các vấn đề này, các tác giả đã thử nghiệm xem liệu một bộ giải mã được đào tạo trên một cá nhân có thể hoạt động trên người khác không ̣- nó không hoạt động. Sự đồng ý và hợp tác cũng có vẻ rất quan trọng vì nếu các cá nhân chống lại, bằng cách thực hiện một nhiệm vụ như đếm thay vì tập trung vào podcast, hệ thống sẽ không giải mã được bất kỳ ý nghĩa nào từ hoạt động não của họ.

Tuy nhiên, quyền riêng tư vẫn là một vấn đề đạo đức lớn đối với loại công nghệ thần kinh này, Nita Farahany, một chuyên gia đạo đức sinh học tại Đại học Duke. Các nhà nghiên cứu nên xem xét hậu quả của công việc của họ và phát triển các biện pháp bảo vệ chống lại việc sử dụng sai mục đích ngay từ đầu. "Chúng ta cần tất cả mọi người tham gia để đảm bảo rằng điều này xảy ra đạo đức", cô nói. "[Công nghệ] có thể thực sự đổi mới cho những người cần có khả năng giao tiếp lại, nhưng hệ quả đối với chúng ta là sâu xa."

Nhà khoa học sử dụng trí tuệ nhân tạo để giải mã từ và câu từ các quét não

Tin AI