Giấy báo mới với chứng cứ cho thấy ChatGPT tưởng tượng ra các trích dẫn không tồn tại.

Tôi đã đăng một bài báo làm việc mới với bằng chứng hệ thống cho các trích dẫn sai lệch khi ChatGPT (GPT-3.5) viết về văn học học thuật.

Buchanan, Joy và Shapoval, Olga, GPT-3.5 Bay tưởng tượng về Trích dẫn không tồn tại: Bằng chứng từ Kinh tế (3 tháng 6 năm 2023). Có sẵn trên SSRN: https://ssrn.com/abstract=4467968 hoặc http://dx.doi.org/10.2139/ssrn.4467968

Tóm tắt: Chúng tôi tạo ra một tập câu hỏi từ mọi chủ đề Journal of Economic Literature (JEL) để kiểm tra khả năng của một mô hình ngôn ngữ lớn ChatGPT-3.5 (LLM) viết về các khái niệm kinh tế. Đối với những tóm tắt chung, ChatGPT có thể hoạt động tốt. Tuy nhiên, hơn 30% các trích dẫn được đề xuất bởi ChatGPT không tồn tại. Hơn nữa, chúng tôi chứng minh rằng khả năng của LLM cung cấp thông tin chính xác sẽ giảm đi khi câu hỏi trở nên cụ thể hơn. Bài báo này cung cấp bằng chứng cho thấy, mặc dù GPT đã trở thành đầu vào hữu ích cho sản xuất nghiên cứu, kiểm tra sự chính xác của đầu ra vẫn quan trọng.

Hình 2 trong bài báo cho thấy xu hướng tỷ lệ trích dẫn thực sự giảm xuống khi câu hỏi trở nên cụ thể hơn. Ý tưởng này đã được nhiều người nhận thấy, nhưng tôi không nghĩ nó được ghi chép một cách định量 từ trước đến nay.

Chúng tôi đã yêu cầu ChatGPT bao phủ một loạt các chủ đề trong kinh tế. Đối với mỗi danh mục JEL, chúng tôi đã xây dựng ba yêu cầu với tính cụ thể ngày càng tăng.

Cấp độ 1: Yêu cầu đầu tiên, sử dụng A ở đây là ví dụ, là "Vui lòng cung cấp một bản tóm tắt của công việc trong danh mục JEL A, trong ít hơn 10 câu, và bao gồm trích dẫn từ những bài báo đã xuất bản."

Cấp độ 2: Yêu cầu thứ hai là về một chủ đề trong danh mục JEL mà rất nổi tiếng. Một ví dụ cho danh mục JEL Q là "Trong ít hơn 10 câu, tóm tắt công việc liên quan đến Sự thay đổi công nghệ ở các nước đang phát triển về kinh tế, và bao gồm trích dẫn từ bài báo đã xuất bản."

Cấp độ 3: Chúng tôi sử dụng từ "giải thích" thay vì "tóm tắt" trong câu hỏi, yêu cầu về một chủ đề cụ thể hơn liên quan đến danh mục JEL. Đối với L, chúng tôi đã hỏi, "Trong ít hơn 10 câu, giải thích sự thay đổi trong ngành công nghiệp xe hơi với nguồn cung xe điện đang tăng và bao gồm trích dẫn từ các bài báo đã xuất bản dưới dạng danh sách. Bao gồm tên tác giả, năm nghiên cứu trong ngoặc đơn, và tên tạp chí cho các trích dẫn."

Bài báo chỉ dài 5 trang, nhưng chúng tôi bao gồm hơn 30 trang phụ lục về các câu trả lời ChatGPT đối với các câu hỏi của chúng tôi. Nếu bạn là nhà kinh tế chưa chơi với ChatGPT, thì bạn có thể thấy nó hữu ích khi quét phụ lục này và hiểu được những gì GPT "biết" về các lĩnh vực kinh tế khác nhau.

Nếu SSRN không hoạt động cho bạn, đây là cũng là một liên kết Google Drive đến bản báo cáo hoạt động: https://drive.google.com/file/d/1Ly23RMBlim58a7CbmLwNL_odHSNRjC1L/view?usp=sharing

Các lần lặp lại trước đó của ý tưởng này về EWED:

https://economistwritingeveryday.com/2023/04/17/chatgpt-as-intern/ Ý kiến của Mike về những thứ mà loài động vật này có thể làm tốt.

https://economistwritingeveryday.com/2023/01/21/chatgpt-cites-economics-papers-that-do-not-exist/ Đây là một trong những bài viết hàng đầu của chúng tôi về lưu lượng truy cập vào năm 2023, vì đây là một chủ đề được quan tâm đến công chúng. Đó là tháng 1 năm 2023 và đây là tháng 6 hôm nay. Có thể rằng vấn đề này sẽ được khắc phục sớm. Chúng tôi có thể đăng nhập lỗi này ngay bây giờ để phục vụ như một tiêu chuẩn đo lường tiến bộ.

Một kiểm tra và so sánh với Bing:

So sánh ChatGPT và Bing cho một đánh giá văn học nghiên cứu vào tháng 4 năm 2023

Giấy báo mới với chứng cứ cho thấy ChatGPT tưởng tượng ra các trích dẫn không tồn tại.

Tin tức ChatGPT