Gần đây, các nhà nghiên cứu đến từ Đại học Stanford và Đại học California đã tiến hành kiểm tra trên GPT-3.5 và GPT-4, hai mô hình ngôn ngữ lớn do OpenAI phát triển. Những kết quả nghiên cứu cho thấy hiệu suất và hành vi của các mô hình này có thể thay đổi đáng kể theo thời gian.
Trong trường hợp của GPT-4, độ chính xác trong việc xác định các số nguyên tố đã giảm từ 97,6% phiên bản tháng Ba xuống còn 2,4% ở phiên bản tháng Sáu. Ngoài ra, có nhiều lỗi định dạng hơn trong việc tạo mã trong tháng Sáu so với tháng Ba.
Phản ứng từ các chuyên gia trí tuệ nhân tạo đã rất đa dạng. Một số người, như chuyên gia trí tuệ nhân tạo Gary Marcus, tin rằng sự không ổn định này có thể gây hại đến tương lai của các mô hình ngôn ngữ lớn. Trong khi đó, những người khác, như Jim Fan từ Nvidia, cho rằng việc OpenAI cố gắng làm cho GPT-4 an toàn hơn có thể đã dẫn đến sự suy giảm kỹ năng nhận thức. Tuy nhiên, giáo sư Arvind Narayanan thuộc Đại học Princeton và một sinh viên tiến sĩ của cùng một trường đại học cho rằng sự thay đổi trong hành vi không nhất thiết có nghĩa là khả năng đã giảm đi.
OpenAI đã đáp lại những chỉ trích bằng việc thừa nhận quan ngại của người dùng. Peter Welinder, Phó Chủ tịch OpenAI, đã tuyên bố rằng GPT-4 đang liên tục được cải tiến với mỗi phiên bản mới và rằng các vấn đề chỉ trở nên rõ ràng hơn khi mô hình được sử dụng một cách rộng rãi hơn. Logan Kilpatrick, trưởng nhóm quan hệ với nhà phát triển tại OpenAI, cũng đã xác nhận rằng họ đang tích cực điều tra các báo cáo đã nhận được.
Những hệ quả đối với người dùng và doanh nghiệp là đáng kể. Trong khi ChatGPT có tiềm năng tự động hóa một số nhiệm vụ nguồn nhân lực, việc tích hợp các API của OpenAI vào quy trình làm việc hiện có đòi hỏi sự giám sát liên tục, đào tạo lại và điều chỉnh tinh chỉnh để đảm bảo kết quả chính xác và cập nhật. Sự biến đổi trong hành vi của mô hình trí tuệ nhân tạo đặt ra một thách thức bổ sung trong việc này.
Một điều thú vị là việc công bố bài báo nghiên cứu trùng với việc Meta tung ra Llama 2, một mô hình ngôn ngữ mã nguồn mở thay thế cho các mô hình ngôn ngữ độc quyền như ChatGPT Plus. Hơn nữa, Databricks Inc., do Matei Zaharia, một trong số các tác giả của bài báo, lãnh đạo, đã công bố mô hình ngôn ngữ của riêng họ mang tên Dolly 2.0. BLOOM của Hugging Face, mô hình ngôn ngữ đa ngôn ngữ lớn khoa học mở và truy cập mở cũng cung cấp một nền tảng mở cho các nhà nghiên cứu sử dụng. Điều này cho thấy sự quan tâm ngày càng tăng đối với các giải pháp mã nguồn mở và cung cấp các sự lựa chọn thay thế cho các mô hình độc quyền đắt đỏ được cung cấp bởi các công ty như OpenAI và Google.