Các nhà khoa học tại Đại học California, Berkeley đã nghiên cứu sâu vào OpenAI's ChatGPT và GPT-4 large language model cốt lõi của nó và phát hiện ra rằng chúng được đào tạo từ văn bản của những cuốn sách được bảo vệ bản quyền. Các nhà khoa học Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman miêu tả công việc của họ trong một bài báo có tên "Speak, Memory: An Archaeology of the Books Known to ChatGPT/GPT-4" trên trang Arxiv. Họ cho biết: "Chúng tôi phát hiện ra rằng các mô hình OpenAI đã thuộc lòng một bộ sưu tập lớn của các tài liệu được bảo vệ bản quyền và mức độ thuộc lòng phụ thuộc vào tần suất xuất hiện của các đoạn trong những cuốn sách đó trên web." Các mô hình này được tìm thấy đã thuộc lòng các tựa đề như cuốn sách Harry Potter cho trẻ em, Nineteen Eighty-Four của Orwell, bộ ba The Lord of the Rings, sách Hunger Games, Hitchhiker's Guide to the Galaxy, Fahrenheit 451, A Game of Thrones và Dune, và nhiều cuốn khác.

\

Nhóm này cũng cho rằng khoa học viễn tưởng và truyện tranh đang chiếm ưu thế trên danh sách này do sự phổ biến của những tựa đề này trên web. Một hậu quả khác của sự quen thuộc của mô hình với khoa học viễn tưởng và truyện tranh là ChatGPT hiển thị ít hơn về kiến thức của các tác phẩm thuộc các thể loại khác. Như báo cáo của họ quan sát, nó biết "ít về các tác phẩm của Global Anglophone texts, các tác phẩm trong Dự án Tương tác Sách Đen và các giải thưởng của Hiệp hội Thư viện Mỹ Dân tộc Da đen." Các nhà nghiên cứu không khẳng định rằng ChatGPT hoặc các mô hình mà nó được xây dựng chứa toàn bộ văn bản của các cuốn sách được trích dẫn. Thay vào đó, họ tiến hành một cuộc kiểm tra được gọi là "tên cloze" nhằm dự đoán một tên duy nhất trong một đoạn văn bản có từ 40-60 ký tự (một ký tự tương đương với khoảng bốn ký tự văn bản) mà không có thực thể còn lại trong đoạn văn bản đó. Ý tưởng là việc vượt qua bài kiểm tra này cho thấy mô hình đã thuộc lòng văn bản liên quan. Các nhà khoa học Berkeley tập trung ít hơn vào các hệ quả về bản quyền của việc nhớ văn bản và hơn nữa vào tính khả thi của việc phân tích văn bản."