Theo một nghiên cứu được tiến hành bởi các nhà nghiên cứu tại Đại học Purdue, mô hình ngôn ngữ ChatGPT của OpenAI đã được xác định trả lời sai các câu hỏi về kỹ thuật phần mềm trong khoảng 52% trường hợp. Mặc dù được ưa chuộng, nhưng vẫn thiếu sự điều tra kỹ lưỡng về độ chính xác và khả năng sử dụng của các câu trả lời ChatGPT trong ngữ cảnh của các yêu cầu về kỹ thuật phần mềm. Để khắc phục điều này, các nhà nghiên cứu đã phân tích 517 câu hỏi từ Stack Overflow đã được ChatGPT trả lời.
Phân tích đã cho thấy 52% câu trả lời của ChatGPT không chính xác, trong khi 77% trả lời là quá dài dòng. Một điều thú vị là 54% sai sót được gán cho việc ChatGPT không hiểu được các khái niệm trong các câu hỏi. Ngay cả khi nó hiểu câu hỏi, thường thì nó cũng không thể thể hiện được hiểu biết về cách giải quyết các vấn đề được trình bày, dẫn đến một số lượng lớn sai lầm về khái niệm.
Hơn nữa, các nhà nghiên cứu cũng lưu ý rằng ChatGPT có hạn chế về khả năng lập luận. Trong nhiều trường hợp, ChatGPT cung cấp các giải pháp, mã code hoặc công thức mà không cân nhắc đầy đủ về các kết quả có thể có. Trong khi việc điều chỉnh yêu cầu khảo sát và sửa dùng con người có thể giúp ChatGPT hiểu vấn đề một phần, nhưng chúng không đủ để đưa lập luận vào mô hình ngôn ngữ.
Nghiên cứu cũng chỉ ra các vấn đề chất lượng khác với ChatGPT, như sự dài dòng và sự không nhất quán trong phản hồi. Phân tích thủ công đã cho thấy có một số lượng đáng kể các lỗi về khái niệm và logic trong các câu trả lời của ChatGPT. Phân tích ngôn ngữ cho thấy các câu trả lời của ChatGPT thường là trang trọng và hiếm khi diễn tả tình cảm tiêu cực.
Mặc dù có sự không chính xác và các vấn đề chất lượng, người dùng vẫn ưa thích các câu trả lời của ChatGPT khoảng 39,34% thời gian do phong cách ngôn ngữ toàn diện và rõ ràng của nó. Tuy nhiên, các nhà nghiên cứu nhấn mạnh sự quan trọng của việc sửa lỗi một cách kỹ lưỡng trong ChatGPT, cũng như cần phải giáo dục người dùng về các rủi ro tiềm năng liên quan đến các câu trả lời có vẻ chính xác.
Tổng thể, nghiên cứu của chúng tôi làm sáng tỏ các hạn chế và khả năng cải thiện khi sử dụng ChatGPT cho các yêu cầu về kỹ thuật phần mềm.