(Hình ảnh được cấp phép: Shutterstock)

Vectara đã công bố một bảng xếp hạng ảo giác trí tuệ nhân tạo đánh giá các chatbot trí tuệ nhân tạo hàng đầu theo khả năng của chúng trong việc không 'ảo giác'. Rõ ràng, nó được thiết kế để nhấn mạnh mức độ mà các mô hình ngôn ngữ lớn công cộng (LLM) khác nhau 'ảo giác', nhưng điều này có nghĩa là gì, tại sao nó quan trọng, và việc đánh giá này được tiến hành như thế nào?

AI Hallucinations leaderboard

Một trong những đặc điểm của các chatbot trí tuệ nhân tạo mà chúng tôi đã nhận thức được là chúng có xu hướng 'ảo giác' - tức là tạo ra các sự thật để điền vào các khoảng trống. Một ví dụ công khai nổi tiếng về điều này là khi công ty luật Levidow, Levidow & Oberman gặp rắc rối sau khi "gửi những quyết định tư pháp không tồn tại với trích dẫn và trích dẫn giả tạo được tạo bởi công cụ trí tuệ nhân tạo ChatGPT." Lưu ý rằng các quyết định pháp lý giả tưởng như Martinez v. Delta Air Lines có một số đặc điểm tương tự với các quyết định tư pháp thực tế, nhưng xem xét kỹ càng hơn đã cho thấy một phần "vô nghĩa".

Nếu bạn nghĩ về việc sử dụng tiềm năng của LLM trong các lĩnh vực như y tế, công nghiệp, quốc phòng, và như vậy, rõ ràng là rất cần thiết để loại bỏ đặc trưng ảo giác của trí tuệ nhân tạo trong quá trình phát triển liên tục. Để quan sát một ví dụ thực tế về trí tuệ nhân tạo ảo giác trong điều kiện tham chiếu kiểm soát, Vectara quyết định thực hiện một số thử nghiệm với mười một LLM công cộng:

(Hình ảnh được cấp phép: Vectara / GitHub)
  • Cung cấp cho LLMs một ngăn xếp hơn 800 tài liệu tham khảo ngắn.
  • Yêu cầu LLMs cung cấp tóm tắt dựa trên sự thật về các tài liệu, theo hướng dẫn chuẩn.
  • Cung cấp các câu trả lời cho một mô hình phát hiện sự đưa vào dữ liệu mà không có trong nguồn gốc.
Vectara AI Hallucination Leaderboard

Câu hỏi được sử dụng trong thử nghiệm như sau: Bạn là một chat bot trả lời câu hỏi bằng dữ liệu. Bạn phải tuân thủ những câu trả lời chỉ được cung cấp bởi văn bản trong đoạn văn đã cung cấp. Bạn được yêu cầu trả lời câu hỏi 'Cung cấp bản tóm tắt ngắn gọn về đoạn văn sau, trình bày những thông tin cốt lõi được mô tả.' ' Bảng xếp hạng sẽ được cập nhật định kỳ, để theo kịp sự hoàn thiện của các LLM hiện có và sự ra đời của các phiên bản mới và cải tiến. Hiện tại, dữ liệu ban đầu từ Mô hình Đánh giá Ảo giác của Vectara cho thấy các LLM đứng ở vị trí như thế nào.

GPT-4 làm tốt nhất với tỷ lệ ảo giác thấp nhất và độ chính xác cao nhất - chúng ta phải tự hỏi liệu nó có thể đã giúp Levidow, Levidow & Oberman tránh rắc rối không

Ở phía đầu bàn, hai LLMs của Google đã không đạt kết quả tốt. Tỷ lệ gây ảo giác của Google Palm-Chat là hơn 27%, cho thấy các tóm tắt sự thật về tài liệu tham khảo của nó chỉ có thể được đánh giá là không đáng tin cậy. Bằng cách sử dụng các đo lường từ Vectara, các phản hồi của Palm-Chat dường như đầy rác rưởi điên cuồng.

Trong phần Câu hỏi thường gặp trên trang GitHub của mình, Vectara giải thích rằng họ đã chọn sử dụng mô hình để đánh giá các LLM tương ứng do những yếu tố như quy mô của các bài kiểm tra và tính nhất quán của đánh giá. Họ cũng khẳng định rằng "xây dựng một mô hình để phát hiện ảo giác dễ hơn rất nhiều so với xây dựng một mô hình không có ảo giác." Bảng như hiện tại đã gây ra một số cuộc thảo luận sôi nổi trên các phương tiện truyền thông xã hội. Nó cũng có thể phát triển thành một tài liệu tham khảo hay một tiêu chuẩn để những người muốn sử dụng LLM cho các nhiệm vụ nghiêm túc - không sáng tạo - có thể xem xét một cách kỹ lưỡng.

Trong lúc chờ đợi, chúng tôi mong chờ xem liệu Grok mới được công bố của Elon Musk sẽ được đánh giá thông qua tiêu chuẩn đo đạc của Mô hình Đánh giá Ảo giác AI này hay không. Chatbot đã được ra mắt dưới dạng phiên bản beta 10 ngày trước với một lý do rõ ràng cho sự không chính xác và các lỗi liên quan, người tạo ra Grok mô tả nó như là một sự hài hước và châm biếm. Có lẽ điều đó thật phù hợp nếu Grok muốn có một công việc tạo ra các bài viết trên mạng xã hội.

Tham gia cùng các chuyên gia đọc báo Tom's Hardware để có thông tin bên trong về tin tức công nghệ PC dành cho đối tượng yêu công nghệ - và đã tồn tại suốt 25 năm qua. Chúng tôi sẽ gửi tin tức nóng hổi và những bài đánh giá chi tiết về CPU, GPU, trí tuệ nhân tạo, phần cứng sáng tạo và nhiều hơn nữa trực tiếp vào hộp thư đến của bạn.