Các Mô hình Ngôn ngữ Lớn (LLMs) đang trở nên phổ biến với mỗi bản cập nhật và phát hành mới. Các LLMs như BERT, GPT và PaLM đã thể hiện khả năng đáng kinh ngạc trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên và Hiểu Ngôn ngữ Tự nhiên. Chatbot nổi tiếng được phát triển bởi OpenAI có tên là ChatGPT dựa trên kiến trúc biến đổi của GPT 3.5 và GPT 4, và đang được sử dụng bởi hơn một triệu người dùng. Với tính chất giống con người, nó đã thu hút sự chú ý của mọi người, từ các nhà nghiên cứu và nhà phát triển đến sinh viên. Nó tạo ra nội dung độc đáo một cách hiệu quả, trả lời các câu hỏi giống như một con người, tóm tắt đoạn văn dài, hoàn chỉnh các mẫu code, dịch ngôn ngữ, và nhiều hơn nữa.
ChatGPT đã chứng minh khả năng cung cấp thông tin về nhiều chủ đề đến người dùng một cách xuất sắc, làm cho nó trở thành một phương án tiềm năng thay thế cho việc tìm kiếm thông thường trên web và yêu cầu sự trợ giúp từ người dùng khác trực tuyến. Nhưng cũng có một giới hạn là việc sử dụng riêng tư với các mô hình ngôn ngữ khổng lồ có thể làm giảm đáng kể lượng dữ liệu được tạo ra bởi con người và các nguồn tri thức có sẵn. Sự giảm này trong dữ liệu mở có thể làm khó khăn trong việc đảm bảo dữ liệu đào tạo cho các mô hình tương lai khi có ít thông tin tự do sẵn có.
Để nghiên cứu sâu hơn về vấn đề này, một nhóm nghiên cứu đã xem xét hoạt động trên Stack Overflow để xác định cách việc ra mắt ChatGPT ảnh hưởng đến việc tạo ra dữ liệu mở. Stack Overflow, một trang web nổi tiếng về câu hỏi và trả lời cho những lập trình viên máy tính, đã được sử dụng vì nó mang lại một nghiên cứu điển hình về hành vi và đóng góp của người dùng khi có nhiều mô hình ngôn ngữ có mặt. Nhóm đã nghiên cứu sâu vào việc xem xét cách như LLMs như ChatGPT ngày càng trở nên phổ biến, chúng dẫn đến sự giảm đáng kể trong nội dung trên các trang web như Stack Overflow.
Sau quá trình đánh giá, nhóm đã đưa ra một số kết luận đáng chú ý. Stack Overflow đã chứng kiến một sự suy giảm lớn về hoạt động so với các trang web cạnh tranh ở Trung Quốc và Nga, nơi truy cập ChatGPT bị hạn chế, cũng như so với các diễn đàn tương tự về toán học, nơi ChatGPT không hiệu quả do thiếu dữ liệu đào tạo hữu ích. Nhóm dự đoán rằng có một sự giảm 16% trong số lượng bài đăng hàng tuần trên Stack Overflow sau khi OpenAI ra mắt ChatGPT. Ngoài ra, được thấy rằng tác động của ChatGPT làm giảm hoạt động trên Stack Overflow đã tăng theo thời gian, gợi ý rằng khi người dùng quen thuộc với các tính năng của mô hình, họ bắt đầu dựa vào nó ngày càng nhiều để tìm thông tin, từ đó làm giới hạn đóng góp vào trang web.
Nhóm đã rút ra ba kết quả chính như sau.
- Sự suy giảm hoạt động đăng bài: Sau khi ChatGPT được ra mắt, Stack Overflow chứng kiến một sự suy giảm về số lượng bài viết, tức là số lượng câu hỏi và câu trả lời. Phương pháp khác biệt trong khác biệt được sử dụng để tính toán sự giảm hoạt động và so sánh với bốn nền tảng Q&A khác. Hoạt động đăng bài trên Stack Overflow ban đầu giảm khoảng 16% trong vòng sáu tháng sau khi ChatGPT ra mắt trước khi tăng lên khoảng 25%.
- Không có thay đổi trong số phiếu bình chọn bài viết - Số lượng phiếu bình chọn, bao gồm cả phiếu thuận và nghịch, mà các bài viết trên Stack Overflow nhận được từ khi ChatGPT ra mắt không thay đổi đáng kể, mặc dù hoạt động đăng bài đã giảm, điều này cho thấy ChatGPT không chỉ thay thế các bài đăng chất lượng thấp mà còn là các bài viết chất lượng cao.
- Tác động đối với các ngôn ngữ lập trình đa dạng: ChatGPT có tác động đa dạng đến các ngôn ngữ lập trình khác nhau được thảo luận trên Stack Overflow. So với trung bình toàn cầu của trang web, hoạt động đăng bài giảm đáng kể hơn đối với một số ngôn ngữ, chẳng hạn như Python và JavaScript. Sự giảm tương đối về hoạt động đăng bài cũng bị ảnh hưởng bởi sự phổ biến của các ngôn ngữ lập trình trên GitHub.
Các tác giả đã kết luận bằng cách giải thích cách việc sử dụng rộng rãi các LLMs và việc chuyển từ các trang web như Stack Overflow có thể giới hạn lượng dữ liệu mở mà người dùng và các mô hình tương lai có thể học từ, mặc dù có thể đem lại lợi ích về hiệu suất trong việc giải quyết một số vấn đề lập trình. Điều này có tác động đến tính khả dụng và chia sẻ kiến thức trên internet cũng như khả năng tồn tại lâu dài của hệ sinh thái trí tuệ nhân tạo.
Hãy xem Bài báo và Bài đăng trên Reddit. Đừng quên tham gia SubReddit về trí tuệ nhân tạo với gần 26 ngàn thành viên, Kênh Discord, và Bản tin qua Email, nơi chúng tôi chia sẻ tin tức nghiên cứu AI mới nhất, các dự án AI thú vị và nhiều hơn nữa. Nếu bạn có bất kỳ câu hỏi nào liên quan đến bài viết trên hoặc nếu chúng tôi đã bỏ sót điều gì, đừng ngần ngại gửi email cho chúng tôi theo địa chỉ [email protected].