Nora Kassner cho rằng máy tính của cô không thông minh như mọi người nghĩ. Vào tháng 10 năm 2018, Google phát hành một thuật toán mô hình ngôn ngữ được gọi là BERT, được nghiên cứu bởi Kassner trong cùng ngành, và cô nhanh chóng tải lên máy tính xách tay của mình. Đó là mô hình ngôn ngữ đầu tiên của Google được tự học từ lượng dữ liệu trực tuyến khổng lồ. Giống như các đồng nghiệp của mình, Kassner đã ấn tượng về khả năng của BERT để hoàn thành câu và trả lời các câu hỏi đơn giản của người dùng. Trông có vẻ như mô hình ngôn ngữ lớn (LLM) có thể đọc văn bản giống như con người (hoặc tốt hơn).
Nhưng Kassner, khi đó là một sinh viên nghiên cứu tại Đại học Ludwigs Maximilian của Munich, vẫn cảm thấy hoài nghi. Cô cho rằng LLMs nên hiểu ý nghĩa của câu trả lời của mình - và những gì chúng không có nghĩa là gì. “Một mô hình nên tự động biết rằng câu mẫu phủ định - ‘một con chim không thể bay’ - là sai,” cô nói. Nhưng khi cô và người hướng dẫn của mình, Hinrich Schütze, đã thử BERT và hai LLM khác vào năm 2019, họ phát hiện rằng các mô hình đã hoạt động như thể từ như "không" là không tồn tại.
Kể từ đó, LLMs đã tăng vọt về kích thước và khả năng. "Thuật toán vẫn tương tự như trước đây. Nhưng quy mô và hiệu suất thực sự đáng kinh ngạc”, nói Ding Zhao, người dẫn dắt Safe Artificial Intelligence Lab tại Đại học Carnegie Mellon.
Nhưng trong khi chatbot đã cải thiện khả năng giống như con người của họ, họ vẫn gặp khó khăn với từ phủ định. Họ biết ý nghĩa nếu một con chim không thể bay, nhưng họ gặp khó khăn khi đối mặt với các logic phức tạp hơn liên quan đến các từ như "không", điều mà là đơn giản đối với con người.
"Mô hình ngôn ngữ lớn hoạt động tốt hơn bất kỳ hệ thống nào chúng ta từng có," nói Pascale Fung, một nhà nghiên cứu AI tại Đại học Khoa học và Công nghệ Hồng Kông. “Tại sao họ gặp khó khăn với điều gì đó trông đơn giản trong khi chúng đang thể hiện sức mạnh đáng kinh ngạc trong những điều mà chúng tôi không mong đợi?” Các nghiên cứu gần đây đã bắt đầu giải thích các khó khăn và những gì các nhà lập trình có thể làm để vượt qua chúng. Nhưng các nhà nghiên cứu vẫn không hiểu liệu máy tính có thực sự biết từ "không" hay không.
Kết nối
Rất khó để khuyến khích một máy tính đọc và viết giống như con người. Các máy tính xuất sắc trong việc lưu trữ nhiều dữ liệu và tính toán phức tạp, vì vậy các nhà phát triển xây dựng LLMs như một mạng thần kinh: các mô hình thống kê đánh giá cách mà các đối tượng (từ trong trường hợp này) liên quan đến nhau. Mỗi mối quan hệ ngôn ngữ mang một số lượng nhất định, và trọng số này - được điều chỉnh tinh chỉnh trong quá trình đào tạo - mã hóa sức mạnh của mối quan hệ. Ví dụ, “chuột” liên quan nhiều hơn đến “gặm nhấm” hơn “pizza”, ngay cả khi vài con chuột đã được biết đến thích miếng bánh ngon.
Chính như cách bàn phím điện thoại thông minh của bạn học được rằng bạn theo sau "tốt" với "buổi sáng", LLMs luôn dự đoán từ tiếp theo trong một khối văn bản tuần tự. Càng lớn dữ liệu được sử dụng để đào tạo, các dự đoán càng tốt, và khi lượng dữ liệu được sử dụng để đào tạo mô hình tăng lên đáng kể, các hành vi phát sinh đã nổi lên. Chatbot đã học cách viết phong cách, cú pháp và phong cách của riêng chúng. "Vấn đề ban đầu là chúng hoàn toàn không thể phát hiện ngôn ngữ cảm xúc. Và giờ đây chúng có thể”, nói Kathleen Carley, một nhà khoa học máy tính tại Đại học Carnegie Mellon. Carley sử dụng LLMs cho "phân tích cảm xúc", một phương pháp để trích xuất ngôn ngữ cảm xúc từ các bộ dữ liệu lớn - một phương pháp được sử dụng để khai thác mạng xã hội để thu thập ý kiến. Vì vậy, các mô hình mới nên trả lời đúng đắn hơn. “Nhưng chúng tôi không áp dụng lý luận”, Carley nói. “Chúng tôi chỉ áp dụng một loại thay đổi toán học. Và như dự đoán, các chuyên gia đang tìm thấy khoảng trống mà các mô hình này khác nhau so với cách con người đọc".
Không phủ định
Khác với con người, LLM xử lí ngôn ngữ bằng cách biến nó thành toán học. Điều này giúp chúng vượt trội trong việc tạo văn bản bằng cách dự đoán các kết hợp văn bản khả dĩ, nhưng nó cũng có một chi phí.
“Vấn đề là nhiệm vụ dự đoán không tương đương với nhiệm vụ hiểu,” nói Allyson Ettinger, một nhà ngôn ngữ học tính toán tại Đại học Chicago. Giống như Kassner, Ettinger kiểm tra xem các mô hình ngôn ngữ hoạt động như thế nào trên các nhiệm vụ dường như dễ dàng đối với con người. Ví dụ, vào năm 2019, Ettinger đã kiểm tra BERT với các chẩn đoán được rút ra từ những thí nghiệm được thiết kế để kiểm tra khả năng ngôn ngữ của con người. Khả năng của mô hình không được nhất quán. Ví dụ:
Anh ta nắm bắt và ghi điểm một lần nữa. Không có gì anh ta tận hưởng hơn một trận đấu tuyệt vời của _____. (BERT đúng dự đoán là "bóng đá.")
Tuyết đã chất đống trên đường lái xe cao đến nỗi họ không thể đưa xe ra khỏi đó. Khi Albert thức dậy, cha anh ta trao cho anh ta một _____. (BERT đã sai khi ựa đoán "ghi chú," "thư," "súng.")
Khi đi đến phủ định, BERT luôn gặp khó khăn.
Một con sẻ không phải là một ____. (BERT dự đoán là "sẻ," và "chim.")
Một bên, đó là một sai lầm hợp lý. “Trong rất nhiều ngữ cảnh, 'sẻ' và 'chim' sẽ dự đoán cho nhau vì chúng có thể xuất hiện cùng nhau rất thường xuyên,” Ettinger nói. Tuy nhiên, bất kỳ con người nào cũng có thể thấy đó là sai.
Đến năm 2023, ChatGPT của OpenAI và bot Bard của Google đã được cải thiện đủ để dự đoán rằng cha của Albert đã trao cho anh ta một cái xẻng thay vì một khẩu súng. Lần này, điều này có thể đã là kết quả của việc tăng cường và cải thiện dữ liệu, cho phép các dự đoán toán học tốt hơn.
Nhưng khái niệm về phủ định vẫn làm cho chatbots bị mắc. Hãy xem xét lời nhắc nhở, "Những loài động vật nào không có chân và đẻ trứng, nhưng lại có cánh?" Bard đã trả lời, “Không có loài động vật nào.” ChatGPT đã trả lời đúng với chim dơi, nhưng cũng bao gồm sóc bay và các loài lemur bay, không có cánh. Nói chung, "những lỗi phủ định" thường không nhất quán khi các mô hình ngày càng lớn hơn, Ettinger nói. “Kiến thức thế giới chung không giúp gì được.”
Từ Vô Hình
Câu hỏi rõ ràng trở nên là: Tại sao những cụm từ “không” hoặc “không phải” không đơn giản làm cho máy bỏ qua các dự đoán tốt nhất từ “là” và “có”?
Lỗi này không phải là tai nạn. Những từ phủ định như "không," "không bao giờ" và “không có” được biết đến như các từ dừng, chúng có tính chất chức năng hơn là miêu tả. So sánh chúng với các từ như "chim" và "chuột lang" có nghĩa đơn giản rõ ràng. Từ dừng, trái ngược với đó, không thêm nội dung vào bản thân chúng. Một số ví dụ khác bao gồm "một," "các" và "với."
"Một số mô hình lọc từ dừng để tăng cường hiệu quả," nói Izunna Okpala, một ứng viên tiến sĩ tại Đại học Cincinnati làm việc về phân tích cảm nhận. Loại bỏ mỗi "một" và những thứ tương tự làm cho việc phân tích nội dung mô tả của một đoạn văn trở nên dễ dàng hơn. Bạn sẽ không mất đi ý nghĩa bằng cách bỏ đi mỗi "các." Nhưng quá trình này cũng loại bỏ các từ phủ định, nghĩa là hầu hết các LLM đều bỏ qua chúng.
Vậy tại sao LLM không thể học được nghĩa của từ dừng? Cuối cùng, vì "ý nghĩa" là một thứ vuông góc với cách các mô hình này hoạt động. Phủ định quan trọng đối với chúng tôi bởi vì chúng tôi được trang bị để nắm bắt được những từ đó làm gì. Nhưng các mô hình học "ý nghĩa" từ trọng số toán học: "Hoa hồng" xuất hiện thường xuyên với "hoa," "đỏ" với "mùi." Và không thể học được ý nghĩa của "không" theo cách này.
Kassner nói rằng dữ liệu đào tạo cũng chịu trách nhiệm về vấn đề này và có nhiều dữ liệu đào tạo hơn không hẳn sẽ giải quyết được vấn đề. Các mô hình chủ yếu được đào tạo trên các câu xác nhận vì đó là cách mà con người giao tiếp hiệu quả nhất. “Nếu tôi nói tôi sinh ra vào một ngày nhất định, điều đó tự động loại trừ tất cả các ngày khác,” Kassner nói. “Tôi sẽ không nói 'Tôi không sinh ra vào ngày đó.'”
Sự khan hiếm của những câu phủ định làm giảm hiệu quả đào tạo của mô hình. "Việc tạo ra những câu phủ định đúng về mặt sự thật khó hơn cho các mô hình vì chúng chưa được thấy nhiều," Kassner nói.
Giải mã Sự Phủ Định
Nếu việc tăng cường dữ liệu đào tạo không phải là giải pháp, thì điều gì có thể hoạt động? Các mẹo giúp trong việc phân tích được xuất hiện từ một bài viết được đăng trên arxiv.org vào tháng ba, trong đó Myeongjun Jang và Thomas Lukasiewicz, các nhà khoa học máy tính tại Đại học Oxford (Lukasiewicz cũng là giảng viên tại Đại học công nghệ Vienna), đã thử nghiệm các kỹ năng phủ định của ChatGPT. Họ tìm thấy ChatGPT tốt hơn một chút về phủ định so với các LLM trước đó, mặc dù cách LLM học vẫn không đổi. "Đó là một kết quả khá bất ngờ," Jang nói. Anh ta tin rằng vũ khí bí mật là các phản hồi từ con người.
Thuật toán ChatGPT đã được điều chỉnh với việc học "vòng lặp con người", trong đó những người có kiến thức thực hiện xác nhận và đề xuất cải tiến. Vì vậy khi người dùng phát hiện ra ChatGPT gặp khó khăn trong việc phủ định đơn giản, họ báo cáo tình trạng đó, cho phép thuật toán sau đó dần dần làm được đúng.
John Schulman, một nhà phát triển của ChatGPT, đã mô tả trong một bài giảng gần đây cách con người đóng vai trò quan trọng vào một cải tiến khác: khi ChatGPT không hiểu một yêu cầu, chẳng hạn như yêu cầu liên quan đến phủ định, nó có thể trả lời "Tôi không biết". "Có thể tránh khỏi việc trả lời là rất quan trọng," Kassner nói. Đôi khi "Tôi không biết" chính là câu trả lời.
Tuy nhiên, cách tiếp cận này vẫn còn thiếu sót. Khi Kassner yêu cầu ChatGPT với câu "Alice không được sinh ra ở Đức. Liệu Alice có được sinh ra ở Hamburg không?", bot vẫn trả lời rằng nó không biết. Cô cũng nhận thấy thuật toán gặp khó khăn với những phủ định kép như "Alice không biết rằng cô ấy không biết tác giả của Mona Lisa."
"Điều đó không phải là một vấn đề được giải quyết tự nhiên bởi cách học trong các mô hình ngôn ngữ," Lukasiewicz nói. "Vì vậy, điều quan trọng là tìm kiếm cách giải quyết nó."
Một lựa chọn khác là thêm một lớp xử lý ngôn ngữ thêm vào phủ định. Okpala đã phát triển một thuật toán như vậy cho phân tích tình cảm. Bài báo của nhóm ông đã đăng trên arxiv.org vào tháng hai, mô tả việc áp dụng một thư viện được gọi là WordHoard để bắt và chụp các từ phủ định như "không" và các từ trái nghĩa nói chung. Đây là một thuật toán đơn giản mà các nhà nghiên cứu có thể cắm vào các công cụ và các mô hình ngôn ngữ của chính họ. "Nó chứng tỏ có độ chính xác cao hơn so với việc chỉ thực hiện phân tích tình cảm một mình," Okpala nói. Khi ông kết hợp các mã của mình và WordHoard với ba bộ phân tích tình cảm phổ biến, tất cả đều cải thiện độ chính xác trong việc trích xuất ý kiến - bộ phân tích tốt nhất tăng 35%.
Một lựa chọn khác là sửa đổi dữ liệu đào tạo. Khi làm việc với BERT, Kassner sử dụng các văn bản có số lượng câu khẳng định và câu phủ định bằng nhau. Phương pháp này giúp tăng hiệu suất trong các trường hợp đơn giản khi các từ trái nghĩa ("tệ") có thể thay thế cho các từ phủ định ("không tốt"). Tuy nhiên, đây không phải là một sửa đổi hoàn hảo, vì "không tốt" không luôn nghĩa là "tệ." Phạm vi của "những gì không" quá lớn đối với các máy để lọc qua. "Nó không thể giải thích được," Fung nói. "Bạn không phải là tôi. Bạn không phải là giày. Bạn không phải là vô số thứ."
Cuối cùng, vì LLM đã gây ngạc nhiên với khả năng của chúng trước đó, có thể các mô hình lớn hơn với nhiều lần đào tạo sẽ học được cách xử lý phủ định một cách độc lập. Jang và Lukasiewicz hy vọng rằng dữ liệu đa dạng hơn, không chỉ là các từ, sẽ giúp ích. "Ngôn ngữ không chỉ được mô tả bởi văn bản," Lukasiewicz nói. "Ngôn ngữ mô tả bất cứ thứ gì. Tầm nhìn, âm thanh." GPT-4 mới nhất của OpenAI tích hợp văn bản, âm thanh và hình ảnh, khiến nó trở thành LLM "đa phương tiện" lớn nhất đến nay.
Tương lai không rõ ràng
Tuy nhiên, mặc dù các kỹ thuật này, cùng với việc xử lý và xử lý dữ liệu lớn hơn, có thể dẫn đến chatbot có thể thống trị phủ định, hầu hết các nhà nghiên cứu vẫn còn hoài nghi. "Chúng ta không thể đảm bảo điều đó sẽ xảy ra," Ettinger nói. Cô ấy nghi ngờ rằng điều đó sẽ yêu cầu một thay đổi cơ bản, di chuyển các mô hình ngôn ngữ khỏi mục tiêu hiện tại của chúng, là dự đoán từ.
Đúng như vậy, khi trẻ em học ngôn ngữ, họ không cố gắng dự đoán từ, họ chỉ ánh xạ từ với khái niệm. Họ đang "đưa ra những phán quyết như 'điều này đúng' hoặc 'điều này không đúng' về thế giới," Ettinger nói.
Nếu một LLM có thể phân biệt đúng và sai như vậy, nó sẽ mở ra nhiều cơ hội. "Vấn đề phủ định có thể biến mất khi các mô hình LLM có sự tương đồng về hình thức với con người," Okpala nói.
Tất nhiên, điều này có thể chỉ là chuyển đổi một vấn đề sang một vấn đề khác. "Chúng ta cần các lý thuyết tốt hơn về cách con người nhận ra ý nghĩa và cách mọi người diễn giải văn bản," Carley nói. "Có rất ít tiền được đầu tư để hiểu cách con người suy nghĩ hơn là làm cho các thuật toán tốt hơn."
Và phân tích cách LLM thất bại đang trở nên khó khăn hơn. Các mô hình tiên tiến không còn như minh bạch như trước đây nữa, vì vậy các nhà nghiên cứu đánh giá chúng dựa trên đầu vào và đầu ra, chứ không phải dựa trên những gì xảy ra ở giữa. "Đó chỉ là thay thế," Fung nói. "Đó không phải là một bằng chứng lý thuyết." Vì vậy, những tiến bộ mà chúng ta đã thấy ngay cả khi chúng ta không hiểu rõ.
Và Kassner nghi ngờ rằng tốc độ cải thiện sẽ chậm lại trong tương lai. "Tôi chưa bao giờ tưởng tượng ra những tiến bộ và lợi ích mà chúng ta đã thấy trong một thời gian ngắn như vậy," cô ấy nói. "Tôi luôn rất hoài nghi liệu chỉ có việc mở rộng các mô hình và đưa thêm nhiều dữ liệu vào đó là đủ. Và tôi vẫn sẽ nói rằng không đủ."