Con người có khả năng học một khái niệm mới và ngay lập tức sử dụng nó để hiểu các ứng dụng liên quan của khái niệm đó - sau khi trẻ em biết cách "nhảy lò cò", họ hiểu ý nghĩa của "nhảy lò cò hai lần xung quanh phòng" hoặc "nhảy lò cò với tay giơ lên".
Nhưng liệu máy móc có khả năng suy nghĩ theo cách này không? Vào cuối những năm 1980, Jerry Fodor và Zenon Pylyshyn, các nhà triết học và nhà khoa học nhận thức, đã cho rằng mạng lưới thần kinh nhân tạo - động cơ thúc đẩy trí tuệ nhân tạo và học máy - không thể thiết lập những kết nối này, được biết đến là "tổng quát hóa hợp thành". Tuy nhiên, trong những thập kỷ qua, các nhà khoa học đã phát triển các cách để cung cấp khả năng này cho các mạng lưới thần kinh và các công nghệ liên quan, nhưng vẫn còn những thành công kết hợp, do đó sự tranh luận này còn được duy trì trong nhiều thập kỷ.
Các nhà nghiên cứu tại Đại học New York và Đại học Pompeu Fabra của Tây Ban Nha đã phát triển một phương pháp - được đăng trên tạp chí Nature - cải tiến khả năng của các công cụ như ChatGPT để tổng quát hóa hợp thành. Phương pháp này, Học meta cho Tổng quát hóa hợp thành (MLC), vượt trội hơn các phương pháp hiện có và ngang bằng, và trong một số trường hợp còn tốt hơn cả hiệu suất của con người. MLC tập trung vào việc huấn luyện mạng lưới thần kinh - động cơ thúc đẩy ChatGPT và các công nghệ liên quan để nhận diện giọng nói và xử lý ngôn ngữ tự nhiên - trở nên tốt hơn trong việc tổng quát hóa hợp thành thông qua việc luyện tập.
Các nhà phát triển của các hệ thống hiện có, bao gồm các mô hình ngôn ngữ lớn, hy vọng rằng tổng quát hóa hợp thành sẽ phát triển từ các phương pháp đào tạo tiêu chuẩn, hoặc đã phát triển kiến trúc đặc biệt để đạt được khả năng này. MLC, ngược lại, cho thấy cách thực hành một cách rõ ràng các kỹ năng này cho phép các hệ thống này khám phá ra sức mạnh mới, các tác giả lưu ý.
"Trong 35 năm qua, các nhà nghiên cứu trong lĩnh vực khoa học nhận thức, trí tuệ nhân tạo, ngôn ngữ học và triết học đã tranh luận về việc mạng lưới thần kinh có thể đạt được khả năng tổng quát hóa có hệ thống giống con người", Brenden Lake, giảng viên trợ giúp tại Trung tâm Khoa học Dữ liệu và Bộ môn Tâm lý học của Đại học New York và một trong các tác giả của bài báo, nói. "Lần đầu tiên, chúng tôi đã chỉ ra rằng một mạng lưới thần kinh chung có thể bắt chước hoặc vượt trội hơn tổng quát hóa có hệ thống của con người trong một cuộc so sánh trực tiếp".
Trong quá trình khám phá khả năng củng cố việc học hợp thành trong mạng lưới thần kinh, các nhà nghiên cứu tạo ra MLC, một quy trình học mới mẻ trong đó mạng lưới thần kinh được cập nhật liên tục để cải thiện kỹ năng qua một loạt các tập. Trong mỗi tập, MLC nhận được một từ mới và được yêu cầu sử dụng nó hợp thành - ví dụ, lấy từ "nhảy" và tạo ra các kết hợp từ mới, chẳng hạn như "nhảy hai lần" hoặc "nhảy xung quanh hai lần". MLC sau đó nhận một tập mới mà có từ khác, và như vậy, mỗi lần cải thiện kỹ năng tổng hợp của mạng lưới.
Để kiểm tra hiệu quả của MLC, Lake, cộng tác viên chủ sở hữu của Sáng kiến Tâm trí, Não bộ và Máy móc của Đại học New York, và Marco Baroni, một nhà nghiên cứu tại Viện Nghiên cứu và Nghiên cứu Nâng cao Catalonia và giảng viên tại Bộ môn Dịch thuật và Khoa học Ngôn ngữ của Đại học Pompeu Fabra, đã tiến hành một loạt thử nghiệm với các người tham gia là con người thực hiện các nhiệm vụ giống như công việc MLC.
Ngoài ra, thay vì học ý nghĩa của các từ thực tế - các thuật ngữ mà con người đã biết từ trước - họ cũng phải học ý nghĩa của những thuật ngữ vô nghĩa (ví dụ, "zup" và "dax") được định nghĩa bởi các nhà nghiên cứu và biết cách áp dụng chúng theo các cách khác nhau. MLC hoạt động cũng tốt như người tham gia con người - và trong một số trường hợp, còn tốt hơn cả con người. MLC và con người cũng vượt trội hơn ChatGPT và GPT-4, mặc dù dù mô hình có khả năng tổng quát rõ rệt, nhưng gặp khó khăn trong nhiệm vụ học này.
"Các mô hình ngôn ngữ lớn như ChatGPT vẫn gặp khó khăn trong việc tổng quát hóa hợp thành, mặc dù trong những năm gần đây chúng đã cải thiện hơn", Baroni nhận xét, một thành viên của nhóm nghiên cứu Ngôn ngữ và Lý thuyết Ngôn ngữ Tính toán của Đại học Pompeu Fabra.
Nhưng chúng tôi cho rằng MLC có thể cải thiện thêm kỹ năng tổ hợp của các mô hình ngôn ngữ lớn.