Sau khi vượt qua chương trình MBA Wharton, kỳ thi kiểm tra luật sư, 13 trong số 15 khóa học nâng cao (AP) và kỳ thi GRE phần từ vựng, ChatGPT cuối cùng đã gặp thất bại trong một lớp học kế toán. Chatbot AI không chỉ đạt kết quả kém, với điểm số là 47,4%, mà còn bị đánh bại một cách hoàn toàn, thậm chí không đạt được cả điểm D.
Kết quả này được công bố trong một nghiên cứu gần đây của Đại học Brigham Young, với sự tham gia của 327 tác giả đồng tác giả từ 186 cơ sở giáo dục của 14 quốc gia, đóng góp hơn 25.181 câu hỏi kiểm tra kế toán phòng học. Họ cũng tuyển sinh viên đại học BYU để cung cấp thêm 2.268 câu hỏi từ sách bài kiểm tra cho ChatGPT. Các câu hỏi liên quan đến hệ thống thông tin kế toán (AIS), kiểm toán, kế toán tài chính, kế toán quản trị và thuế, và đa dạng về độ khó và loại (đúng/sai, nhiều lựa chọn, trả lời ngắn gọn, vv)
Những học sinh thực địa, mặc dù không đạt được điểm số cao nhưng cũng đạt được kết quả tốt hơn, trung bình là 76,7%. ChatGPT vượt qua học sinh ở 11,3% câu hỏi, chủ yếu là về AIS và kiểm toán, nhưng đạt kết quả tồi tệ hơn học sinh ở các lĩnh vực thuế, tài chính và quản trị. Điều này có thể là do ChatGPT được thiết kế cho ngôn ngữ chứ không phải là toán học. Chẳng hạn, trong quá trình kiểm tra, ChatGPT không luôn nhận ra mình đang thực hiện các phép toán toán học và mắc phải các lỗi ngớ ngẩn, chẳng hạn như cộng hai số trong một bài toán trừ hoặc chia nhầm số.
Những quan sát khác bao gồm:
ChatGPT thường cung cấp các giải thích cho các câu trả lời của mình, ngay cả khi chúng không chính xác. Những lần khác, mô tả của ChatGPT là chính xác, nhưng sau đó lại chọn sai câu trả lời đa lựa chọn.
ChatGPT đôi khi bị lừa bởi những sự thật giả tạo. Ví dụ, khi đưa ra một tài liệu tham khảo, nó tạo ra một tài liệu tham khảo có vẻ thật nhưng hoàn toàn bịa đặt. Công việc và đôi khi các tác giả thậm chí còn không tồn tại.
Phản ứng của ChatGPT đối với các câu hỏi giống nhau đôi khi khác nhau khi câu hỏi được nhập vào nhiều lần và các phản ứng của nó không luôn tiến triển từ sai đến đúng. Phản ứng của bot với các câu hỏi phụ thuộc vào việc giải thích ảnh, chẳng hạn như sơ đồ quy trình kinh doanh (BPD) hoặc dữ liệu được bảng hóa ở định dạng hình ảnh, bị lệch hướng. ChatGPT đôi khi nhận ra rằng nó thiếu hình ảnh và từ chối trả lời, đôi khi nhận ra hình ảnh bị thiếu nhưng vẫn trả lời (có khi đúng, có khi không), và đôi khi không nhận ra hình ảnh bị thiếu và vẫn trả lời (có khi đúng, có khi không).
ChatGPT có thể tạo ra mã và tìm lỗi trong mã đã viết trước đó. Ví dụ, cho một lược đồ cơ sở dữ liệu hoặc tệp phẳng, ChatGPT có thể viết SQL đúng và chuẩn hóa dữ liệu.
ChatGPT gặp khó khăn trong việc xử lý các câu hỏi dài văn bản với nhiều phần, ngay cả khi cho phép sai lầm "carry over".
Trong ngữ cảnh của một nghiên cứu trường hợp, ChatGPT có thể cung cấp câu trả lời cho các câu hỏi dựa trên việc đánh giá các hành động chiến lược trước đây của công ty. Tuy nhiên, khi cần sử dụng dữ liệu, ChatGPT không thể trả lời các câu hỏi ngoại trừ cung cấp công thức tính toán.
ChatGPT còn càng tồi tệ hơn khi có yêu cầu học sinh áp dụng kiến thức. Điều này cho thấy ChatGPT là một công cụ thông dụng chứ không phải là công cụ đặc thù cho kế toán. Đây không phải là điều không có gì ngạc nhiên, vì vậy, học sinh có khả năng đáp ứng tốt hơn với các câu hỏi đặc thù hơn về kế toán nơi công nghệ chưa được đào tạo để trả lời các câu hỏi kế toán đặc thù.
"Khi công nghệ này vừa được ra mắt, mọi người lo lắng rằng học sinh sẽ sử dụng nó để gian lận", tác giả nghiên cứu chính David Wood, giáo sư kế toán của trường Đại học Brigham Young nói. "Nhưng cơ hội gian lận luôn tồn tại. Vì vậy, chúng tôi đang cố gắng tập trung vào những gì chúng tôi có thể làm với công nghệ này bây giờ mà trước đây chúng tôi không thể để cải thiện quá trình giảng dạy cho giáo sư và quá trình học tập cho học sinh. Việc kiểm tra nó đã mở ra mắt."
Nếu ChatGPT không thể vượt qua một lớp học kế toán, ta có thể an tâm rằng nó không thể vượt qua kỳ thi CPA (chứng chỉ kế toán viên) nữa. Tạp chí Accounting Today hiện đang khám phá điều này và sẽ phát hành kết quả riêng của mình trong thời gian sớm.