weapon

ChatGPT, chatbot tốt của OpenAI, sản xuất các câu trả lời sai đến hơn một nửa số lần khi được hỏi về các câu hỏi lập trình phần mềm, theo một nghiên cứu từ Đại học Purdue. Dù vậy, bot đã đủ thuyết phục để đánh lừa 1/3 số thính giả.

Đội ngũ Purdue đã phân tích các câu trả lời của ChatGPT đối với 517 câu hỏi trên Stack Overflow để đánh giá tính đúng đắn, nhất quán, toàn diện và súc tích của các câu trả lời của ChatGPT. Các học giả Mỹ cũng tiến hành phân tích ngôn ngữ và cảm xúc trong các câu trả lời, và chất vấn một tá tình nguyện viên về các kết quả do mô hình tạo ra.

"Phân tích của chúng tôi cho thấy 52% câu trả lời của ChatGPT sai và 77% dài dòng," kết luận trong bài báo của đội ngũ. "Tuy nhiên, vẫn có 39,34% thính giả thích các câu trả lời của ChatGPT do tính toàn diện và phong cách ngôn ngữ rõ ràng." Trong danh sách các câu trả lời của ChatGPT được thích, 77% sai.

OpenAI trên trang web ChatGPT thừa nhận phần mềm của họ "có thể cung cấp thông tin không chính xác về người, địa điểm hoặc sự thật." Chúng tôi đã hỏi phòng thí nghiệm nếu họ có bất kỳ ý kiến ​​nào về nghiên cứu của Purdue.

Chỉ khi lỗi trong câu trả lời ChatGPT rõ ràng, người dùng mới có thể xác định lỗi.

Phiên bản trước của bài báo được đặt tên là "Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions." Nó được viết bởi các nhà nghiên cứu Samia Kabir, David Udo-Imeh, Bonan Kou và giáo sư trợ giảng Tianyi Zhang.

"Trong quá trình nghiên cứu của chúng tôi, chúng tôi đã quan sát thấy rằng chỉ khi lỗi trong câu trả lời ChatGPT rõ ràng, người dùng mới có thể xác định lỗi," bài báo của họ nêu. "Tuy nhiên, khi lỗi không thể xác minh được ngay hoặc yêu cầu IDE bên ngoài hoặc tài liệu tham khảo, người dùng thường không nhận ra sự không chính xác hoặc đán đoán sai mức độ lỗi trong câu trả lời."

Dù có lỗi rõ ràng, bài báo nêu rõ rằng, hai trong số 12 người tham gia vẫn đánh dấu câu trả lời đó là ưa thích. Bài báo cho rằng điều này đến từ phong cách lịch sự và có thẩm quyền của ChatGPT.

"Từ cuộc phỏng vấn có cấu trúc, nhìn thấy rằng ngôn ngữ lịch sự, câu trả lời rõ ràng và theo sách giáo trình, sự toàn diện và sự liên kết trong câu trả lời khiến các câu trả lời hoàn toàn sai trở nên có vẻ đúng," bài báo giải thích.

"Những trường hợp mà người tham gia thích câu trả lời sai và dài dòng của ChatGPT hơn câu trả lời của Stack Overflow đều có nhiều lý do, như báo cáo của những người tham gia," Samia Kabir, một sinh viên tiến sĩ tại Purdue và một trong những tác giả của bài báo, chia sẻ với The Register.

"Một trong những lý do chính là câu trả lời của ChatGPT rất chi tiết. Trong nhiều trường hợp, người tham gia không quan tâm đến độ dài nếu họ nhận được thông tin hữu ích từ những câu trả lời dài và chi tiết. Ngoài ra, tâm trạng tích cực và lịch sự của câu trả lời cũng là hai lý do khác.

Các nhà tham gia đã bỏ qua sự không chính xác khi họ thấy câu trả lời của ChatGPT mang tính chiêm nghiệm. Cách mà ChatGPT tự tin truyền đạt thông tin chiêm nghiệm (ngay cả khi thông tin đó không chính xác) tạo niềm tin của người dùng, gây sự ưa thích câu trả lời không chính xác."

Kabir nói rằng nghiên cứu người dùng được thiết kế để bổ sung cho việc phân tích ngôn ngữ chi tiết và quy mô lớn của các câu trả lời ChatGPT.

"Tuy nhiên, luôn có lợi khi có một quy mô mẫu lớn hơn," cô nói. "Chúng tôi cũng chào đón các nhà nghiên cứu khác tái tạo nghiên cứu của chúng tôi - tập dữ liệu của chúng tôi đã được công khai để khuyến khích nghiên cứu trong tương lai."

Các tác giả quan sát rằng các câu trả lời ChatGPT chứa nhiều "đặc điểm triển vọng" hơn - ngôn ngữ gợi ý thành tựu hoặc thành công - nhưng không miêu tả rủi ro như các bài đăng trên Stack Overflow thường xuyên.

"Trong nhiều trường hợp, chúng tôi quan sát được ChatGPT chèn từ và cụm từ như 'tất nhiên tôi có thể giúp bạn', 'điều này chắc chắn sẽ sửa được', v.v.," tài liệu nêu.

Trong số những phát hiện khác, các tác giả phát hiện rằng ChatGPT khá khả năng mắc lỗi về khái niệm hơn là lỗi về sự thật. "Nhiều câu trả lời không chính xác do ChatGPT không thể hiểu được ngữ cốt dưới nền tảng của câu hỏi được đặt," bài báo phát hiện.

Phân tích ngôn ngữ của các câu trả lời của ChatGPT và các câu trả lời trên Stack Overflow của các tác giả cho thấy các phản hồi của bot có "tính chính thức hơn, thể hiện suy nghĩ phân tích hơn, thể hiện nhiều nỗ lực hơn để đạt được mục tiêu và ít biểu hiện cảm xúc tiêu cực hơn." Và phân tích cảm xúc của họ kết luận rằng các câu trả lời của ChatGPT thể hiện "ý kiến tích cực hơn" so với các câu trả lời trên Stack Overflow.

Kabir nói: "Dựa trên những phát hiện và quan sát từ nghiên cứu này, chúng tôi đề nghị rằng Stack Overflow có thể muốn tích hợp các phương pháp hiệu quả để phát hiện tính độc hại và cảm xúc tiêu cực trong các bình luận và câu trả lời để cải thiện cảm xúc và độ lịch sự.

"Chúng tôi cũng nghĩ rằng Stack Overflow có thể muốn nâng cao tính khả dụng của các câu trả lời để giúp tìm kiếm câu trả lời hữu ích. Ngoài ra, Stack Overflow có thể muốn cung cấp hướng dẫn cụ thể hơn để giúp người trả lời xây dựng câu trả lời của họ, ví dụ: theo cách từng bước, chi tiết."

Có một số tin tức tích cực cho Stack Overflow, mà vào năm 2018 đã bị chỉ trích vì là nguồn cung cấp các đoạn mã không chính xác trong khoảng 15 phần trăm trong tổng số 1,3 triệu ứng dụng Android. Trong nghiên cứu, 60 phần trăm người tham gia khảo sát cho rằng các câu trả lời (giả định là do con người viết) có độ chính xác, gọn gàng và hữu ích hơn.

Tuy nhiên, việc sử dụng Stack Overflow dường như đã giảm, tuy số liệu này bị tranh cãi. Có vẻ như lưu lượng truy cập giảm 6 phần trăm mỗi tháng từ tháng 1 năm 2022 và giảm 13,9 phần trăm vào tháng 3, theo một báo cáo vào tháng 4 từ SimilarWeb gợi ý rằng việc sử dụng ChatGPT có thể góp phần vào sự suy giảm này.

Các thành viên cộng đồng từ Stack Exchange, mạng lưới các trang web hỏi đáp bao gồm Stack Overflow, có vẻ đã đi đến một kết luận tương tự, dựa trên sự giảm hoạt động đặt câu hỏi mới, đăng câu trả lời mới trên trang web và đăng ký người dùng mới.

Stack Overflow, mới được chuyển nhượng sở hữu từ năm 2021, đã phản đối nhận định của SimilarWeb trong một email gửi đến The Register.

Người phát ngôn cho biết công ty vào tháng 5 năm 2022 đã đổi nhãn của cookie phân tích số liệu từ "Strictly Necessary" thành "Performance", và từ tháng 9 năm 2022 đã chuyển sang phiên bản 4 của Google Analytics, cả hai đều ảnh hưởng đến báo cáo và so sánh lưu lượng truy cập theo thời gian.

Những trò AI chatbot thân thiện sẽ thiết kế vũ khí sinh học cho tội phạm 'trong vòng vài năm nữa'

TÌM HIỂU THÊM

"Mặc dù chúng tôi đã thấy một sự giảm nhỏ về lưu lượng truy cập, nhưng không có nghĩa là đồ thị đang hiển thị," người phát ngôn của công ty cho biết. "Trong năm nay, chung quy lại, chúng tôi đang thấy trung bình lưu lượng truy cập ít hơn khoảng ~5% so với năm 2022.

"Tuy nhiên, lưu lượng truy cập của Stack Overflow, cùng với lưu lượng truy cập của nhiều trang web khác, đã bị ảnh hưởng bởi sự tăng của hứng thú với ChatGPT trong những tháng gần đây. Vào tháng Tư năm nay, chúng tôi đã thấy một sự giảm lưu lượng truy cập trên trung bình (~14%), có thể kết nối với việc các nhà phát triển thử nghiệm GPT-4 sau khi nó được ra mắt vào tháng Ba. Lưu lượng truy cập của chúng tôi cũng thay đổi dựa trên các thuật toán tìm kiếm, có ảnh hưởng lớn đến cách nội dung của chúng tôi được khám phá."

Khi được hỏi về các phát hiện của nghiên cứu, người phát ngôn của Stack Overflow cho biết không ai trong công ty có thời gian để khám phá báo cáo.

"Chúng tôi biết không thiếu cách mà các nhà phát triển có thể tận dụng trí tuệ nhân tạo, tuy nhiên từ các phát hiện của chúng tôi, có một rào cản chính trong việc áp dụng - sự tin tưởng vào độ chính xác của nội dung do trí tuệ nhân tạo tạo ra," người đại diện cho biết.

"Khảo sát hàng năm về nhà phát triển của Stack Overflow gồm 90,000 người lập trình gần đây phát hiện rằng 77% nhà phát triển tin tưởng công cụ AI, nhưng chỉ có 42% tin tưởng độ chính xác của những công cụ đó. OverflowAI được phát triển với cộng đồng và tập trung vào độ chính xác của dữ liệu và nội dung được tạo ra bởi trí tuệ nhân tạo.

"Với OverflowAI, chúng tôi cung cấp khả năng kiểm tra, xác nhận, đưa ra nguồn gốc và xác minh độ chính xác và đáng tin cậy trên cộng đồng Stack Overflow và hơn 58 triệu câu hỏi và trả lời của nó." ®

Nhận ngay các công nghệ của chúng tôi.