Các nhà nghiên cứu tại trường Đại học California, Berkeley cho biết ChatGPT đã ghi nhớ một số lượng lớn tác phẩm được bảo hộ bản quyền và việc bao gồm dữ liệu như vậy có thể đưa ra các đánh giá chính xác chứa đựng những yếu tố thiên vị. Kent Chang, Mackenzie Cramer, Sandeep Son và David Bamman của Berkeley đã công bố kết quả nghiên cứu của mình vào ngày 28 tháng 4 trên máy chủ tiền in arXiv với tiêu đề "Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4."

chatgpt

Trong khi việc tiết lộ này ngay lập tức đặt câu hỏi về tính đúng đắn và bảo vệ bản quyền, những quan tâm chính của các nhà nghiên cứu là về sự minh bạch và khả năng ảnh hưởng thiên vị không nhìn thấy khi những người phụ thuộc vào OpenAI vẫn không biết được những nguồn dữ liệu nào đã được bao gồm và loại trừ khỏi đầu vào.

"Các mô hình OpenAI đã ghi nhớ được một bộ sưu tập rộng lớn các tài liệu bị bảo vệ bản quyền, và mức độ ghi nhớ liên quan đến tần suất xuất hiện của những đoạn văn trong những cuốn sách đó trên mạng", các nhà nghiên cứu nói.

"Khả năng của các mô hình này để ghi nhớ một tập hợp các cuốn sách chưa được biết đến làm phức tạp việc đánh giá tính hợp lệ của đoạn văn hóa phân tích bằng cách làm ô nhiễm dữ liệu kiểm tra", họ cảnh báo.

Ví dụ, các nhà nghiên cứu lưu ý rằng tiểu thuyết khoa học viễn tưởng và phép thuật chiếm ưu thế trong danh sách những cuốn sách được ghi nhớ, tạo ra sự thiên vị về tính chất các câu trả lời mà ChatGPT có thể cung cấp.

"Tính chính xác của những mô hình như vậy phụ thuộc mạnh vào tần suất mà mô hình đã xem thông tin trong dữ liệu huấn luyện, đặt câu hỏi đến khả năng tổng quát hóa của chúng," họ nói. Những mô hình như vậy "đặt ra một thách thức" trong việc xác thực các kết quả vì ít khi có chi tiết nào về dữ liệu được sử dụng để huấn luyện các mô hình được biết đến với công chúng.

"Việc biết các cuốn sách mà một mô hình đã được huấn luyện trên rất quan trọng để đánh giá các nguồn gốc thiên vị như vậy," họ nói.

"Tên của các tác phẩm được phát hiện trong nghiên cứu của Berkeley bao gồm "Harry Potter," "1984," "Chúa tể của những chiếc nhẫn," "Đấu Trường Sinh Tử," "Hướng Dẫn Du Hành," "Fahrenheit 451," "Trò Chơi Vương Quyền" và "Dune."

Trong khi ChatGPT được cho là rất thông minh về các tác phẩm trong phạm vi miễn phí, các tác phẩm ít được biết đến, chẳng hạn như Global Anglophone Literature - các đoạn đọc nhằm mục đích vượt qua các quốc gia có tiếng Anh chính như châu Phi, châu Á và châu Phi, đã được để qua lỡ. Các tác phẩm từ Black Book Interactive Project và các giải thưởng của Black Caucus Library Association cũng bị bỏ qua.

"Chúng ta nên suy nghĩ về những trải nghiệm kể chuyện của ai được mã hóa trong những mô hình này và làm thế nào sự ảnh hưởng đó ảnh hưởng đến những hành vi khác", Bamman, một trong những nhà nghiên cứu của Berkeley, nói trong một tweet gần đây. Ông thêm, "các văn bản phổ biến có lẽ không phải là chỉ số tốt của hiệu suất của mô hình [do] sự thiên vị về khoa học viễn tưởng/phép thuật."

Các nhà nghiên cứu nói rằng kết quả nghiên cứu của họ củng cố việc sử dụng các mô hình mở tiết lộ dữ liệu huấn luyện.

Trong khi đó, những thách thức pháp lý chính có thể xảy ra trong tương lai gần. Giới hạn nào của "sử dụng hợp lý" khi sao chép văn bản? Ai sở hữu bản quyền trên văn bản được tạo ra hoàn toàn hoặc một phần bởi ChatGPT? Ai sẽ thắng trong trường hợp bảo vệ bản quyền được tìm kiếm cho nhiều đầu ra tương tự hoặc giống nhau bởi nhiều bên?

Và có lẽ là một câu hỏi thú vị hơn nữa: Ngôn ngữ máy có thể được bảo hộ bản quyền không?

Một số người có thể nhớ rằng có vụ kiện ảnh "selfie của con Vượn" nổi tiếng trong đó một con khỉ selfie chụp hình của nó với thiết bị để lại bởi một nhiếp ảnh gia chuyên nghiệp. Nhiếp ảnh gia kiện tờ báo sử dụng những bức ảnh thú vị, nhưng họ cho rằng vì nhiếp ảnh gia không chụp ảnh nên ông ta không thể yêu cầu bảo vệ bản quyền. PETA khẳng định rằng con khỉ nên giữ bản quyền.

Nhiều năm cuộc tranh chấp pháp lý đã dẫn đến một phán quyết năm 2018 khẳng định rằng những con người không có quyền tự xác định tác phẩm của mình.

Liệu điều đó có kéo dài đến với văn học ChatGPT?

Thông tin thêm: Kent K. Chang et al, Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4, arXiv (2023). DOI: 10.48550/arxiv.2305.00118

Thông tin tạp chí: arXiv © 2023 Science X Network