Có một cảm giác ngày càng khẳng định rằng mô hình trí tuệ nhân tạo đằng sau ChatGPT ngày càng trở nên đần độn.
Hiện đã có một số bằng chứng cứng để cho thấy đồ vật quý giá của OpenAI có thể thực sự mất đi một phần sự hào quang của nó.
Một bài báo mới được công bố vào ngày thứ Ba từ các nhà nghiên cứu của Đại học Stanford và Đại học UC Berkeley, khám phá cách thức hành vi của ChatGPT đã thay đổi theo thời gian đã phát hiện ra rằng hiệu suất của GPT-3.5 và mô hình AI GPT-4 tiềm ẩn bên dưới chatbot thay đổi rất nhiều.
Không chỉ hiệu suất thay đổi, mà mô hình "đa phương thức" tiên tiến hơn của GPT-4, có thể hiểu được cả hình ảnh và văn bản, dường như đã làm tệ hơn rất nhiều theo thời gian trong các nhiệm vụ được kiểm tra.
Các nhiệm vụ này đã đa dạng đủ để đảm bảo mô hình thực sự được đánh giá công bằng về khả năng: bài toán toán học, trả lời câu hỏi nhạy cảm, tạo mã và lập luận hình ảnh đều là phần của quá trình đánh giá.
Tuy nhiên, ngay cả với nhiều nhiệm vụ để thể hiện khả năng, GPT-4 cũng trở nên khá thất vọng.
Hình ảnh này tìm thấy 97,6% độ chính xác trong việc xác định số nguyên tố vào tháng 3, so với con số chóng mặt là 2,4% vào tháng 6. Nó đã "làm nhiều lỗi định dạng trong việc tạo mã" trong tháng trước hơn là trong đầu năm nay, và nó chung quy "ít sẵn lòng trả lời các câu hỏi nhạy cảm."
Không ai có thể giải thích rõ lý do GPT-4 đang thay đổi.
"Bài báo không đề cập đến lý do tại sao khả năng giảm sút đang xảy ra. Chúng ta còn không biết liệu OpenAI có biết rằng việc này đang xảy ra hay không," Ethan Mollick, một giáo sư về sáng tạo tại Wharton đã tweet trả lời bài báo này.
Nếu OpenAI chưa nhận ra điều này, thì rõ ràng nhiều người trong cộng đồng trí tuệ nhân tạo có biết. Peter Yang, người dẫn đầu sản phẩm của Roblox, đã lưu ý vào tháng 5 rằng các câu trả lời của GPT-4 được tạo ra nhanh hơn so với trước đây "nhưng chất lượng dường như tồi hơn."
"Có thể OpenAI đang cố tiết kiệm chi phí," anh ấy đã tweet.
Diễn đàn phát triển của OpenAI, trong khi đó, đang tổ chức một cuộc tranh luận liên quan đến mức độ chất lượng của các câu trả lời.
Với việc mô hình trí tuệ nhân tạo là nền tảng của phiên bản ChatGPT tiên tiến hơn, phiên bản mà các khách hàng trả tiền có quyền truy cập, điều này là một vấn đề đáng lo ngại đối với OpenAI. Mô hình ngôn ngữ lớn nhất và tiên tiến nhất của họ nên cung cấp một lợi thế trong một cuộc cạnh tranh gay gắt ngày càng gia tăng với các đối thủ của họ.
Như đồng nghiệp của tôi, Alistair Barr, nhấn mạnh sớm hơn trong tháng này, nhiều người trong cộng đồng trí tuệ nhân tạo đang cho rằng chất lượng giảm sút của GPT-4 là kết quả của "thiết kế hoàn toàn mới" của mô hình.
Tuy nhiên, OpenAI đã phản đối ý kiến này, và Peter Welinder, Phó Chủ tịch phụ trách Sản phẩm tại OpenAI, đã tweet vào tuần trước: "Không, chúng tôi không làm GPT-4 ngu hơn. Ngược lại: chúng tôi làm cho mỗi phiên bản mới thông minh hơn phiên bản trước đó."
Anh ta có thể muốn xem lại quan điểm đó sau khi nhìn thấy nghiên cứu này.
Matei Zaharia, Giám đốc công nghệ tại Databricks và giảng viên đại học chuyên ngành Khoa học máy tính tại UC Berkeley, cũng là một trong số các tác giả chung của bài báo nghiên cứu, đã tweet rằng "trông có vẻ rất khó khăn để quản lý chất lượng" của các câu trả lời từ các mô hình trí tuệ nhân tạo.
—Matei Zaharia (@matei_zaharia) 19 tháng 7 năm 2023 "Tôi nghĩ vấn đề khó khăn là các nhà phát triển mô hình có thể phát hiện những thay đổi như vậy hoặc ngăn chặn mất một số khả năng khi điều chỉnh cho các khả năng mới," anh ấy đã tweet.
Một số người như Giáo sư Khoa học máy tính tại Princeton, Arvind Narayanan, đã chỉ ra những lưu ý quan trọng trong việc bảo vệ GPT-4.
Trong một chuỗi tweet trên Twitter, anh ấy lưu ý rằng sự suy giảm được báo cáo trong bài báo có thể "khá đặc biệt" đối với các nhiệm vụ mà GPT-4 được giao hoặc các phương pháp đánh giá đã sử dụng. Với bài kiểm tra tạo mã, anh ấy lưu ý rằng GPT-4 thêm "văn bản không phải mã vào đầu ra," nhưng tác giả không đánh giá tính chính xác của mã."
Tuy vậy, khó có thể bỏ qua những câu hỏi về chất lượng xung quanh GPT-4 khi cả một cộng đồng người tận tụy với trí tuệ nhân tạo đang đặt ra. OpenAI nên chắc chắn rằng họ có câu trả lời.