- ChatGPT có phải là một giải pháp hội thoại đa bên tốt không?(arXiv)
Tác giả: Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling
Tóm tắt: Mô hình ngôn ngữ lớn (LLMs) đã trở thành những công cụ ảnh hưởng trong lĩnh vực xử lý ngôn ngữ tự nhiên; tuy nhiên, khả năng của chúng để xử lý cuộc trò chuyện nhiều bên (MPCs) - một tình huống đặc trưng bởi sự hiện diện của nhiều người tham gia trao đổi thông tin phức tạp - vẫn chưa được khám phá. Trong bài báo này, chúng tôi đi sâu vào khả năng của các mô hình LLM có tính sinh tạo như ChatGPT và GPT-4 trong bối cảnh của MPCs. Một phân tích thực nghiệm được tiến hành để đánh giá khả năng học không cần dữ liệu mẫu của ChatGPT và GPT-4 thông qua việc đưa chúng vào đánh giá trên ba tập dữ liệu MPC bao gồm năm nhiệm vụ đại diện. Các kết quả cho thấy hiệu suất của ChatGPT trong một số nhiệm vụ MPC đã được đánh giá còn để mong đợi, trong khi kết quả của GPT-4 tiên đoán một tương lai hứa hẹn. Ngoài ra, chúng tôi cố gắng nâng cao hiệu suất thông qua việc kết hợp cấu trúc MPC, bao gồm cả kiến trúc người nói và người nghe. Nghiên cứu này cung cấp một đánh giá toàn diện và phân tích về việc áp dụng mô hình LLM có tính sinh tạo cho MPCs, đưa ánh sáng vào sự hình thành và tạo ra các nguyên tắc hiệu quả và mạnh mẽ hơn cho các tác tử MPC. Đồng thời, công việc này nhấn mạnh những thách thức tiềm ẩn trong việc sử dụng LLMs cho MPCs, chẳng hạn như giải mã luồng thông tin đồ họa và tạo ra các phản hồi có phong cách nhất quán.
2. Bạn Có Thể Theo Dõi Tôi Không? Kiểm Tra Hiểu Biết Tình Huống trong ChatGPT (arXiv)
Tác giả: Chenghao Yang, Allyson Ettinger
Tóm tắt: Hiểu ý nghĩa của các câu và cập nhật trạng thái thông tin một cách thích hợp theo thời gian - những gì chúng tôi gọi là "hiểu biết tình huống" (SU) - là một khả năng quan trọng đối với các tác tử trí tuệ nhân tạo giống con người. SU là cần thiết đặc biệt trong các mô hình trò chuyện, như ChatGPT, để cho phép cuộc trò chuyện một cách nhất quán, hợp lý và hiệu quả giữa con người và trí tuệ nhân tạo. Công trình trước đã xác định một số hạn chế của SU trong các mô hình ngôn ngữ lớn không phải là chatbot (LLMs), nhưng mức độ và nguyên nhân của những hạn chế này chưa được hiểu rõ, và khả năng của các mô hình dựa trên trò chuyện hiện tại trong lĩnh vực này chưa được khám phá. Trong công việc này, chúng tôi giải quyết những câu hỏi này, đề xuất một môi trường tổng hợp mới cho kiểm tra SU cho phép chúng tôi thực hiện kiểm tra kiểm soát và có hệ thống về SU trong các mô hình dựa trên trò chuyện, thông qua việc đánh giá khả năng của các mô hình trong việc theo dõi và phân loại các trạng thái môi trường. Môi trường của chúng tôi cũng cho phép phân tích cận thận về động lực hiệu suất của mô hình, để hiểu rõ hơn các nguyên nhân gây ra các mẫu hiệu suất. Chúng tôi áp dụng bài kiểm tra của chúng tôi vào ChatGPT, chatbot tiên tiến nhất, và phát hiện rằng mặc dù nhiệm vụ đơn giản đến cơ bản, hiệu suất của mô hình thể hiện sự không thể giữ các trạng thái môi trường chính xác qua thời gian. Phân tích tiếp theo của chúng tôi cho thấy sự suy giảm hiệu suất chủ yếu do ChatGPT không có bộ nhớ trong bối cảnh không bền (mặc dù có thể truy cập vào lịch sử trò chuyện đầy đủ) và nó dễ bị ảo tưởng với các cập nhật - bao gồm cả cập nhật tạo ra độ chính xác nhân tạo. Kết luận của chúng tôi cho thấy tổng thể rằng ChatGPT hiện không được trang bị để theo dõi ổn định các trạng thái tình huống, và sự tin tưởng vào hiệu suất trò chuyện ấn tượng của ChatGPT đi kèm với các rủi ro. Chúng tôi công bố mã nguồn để tái hiện môi trường kiểm tra của chúng tôi, cũng như tất cả các yêu cầu và phản hồi API từ ChatGPT, tại địa chỉ: https://github.com/yangalan123/SituationalTesting.