Các trò chuyện tự động bằng trí tuệ nhân tạo đã trở nên rất phổ biến trong 4 tháng qua, gây ấn tượng mạnh đối với công chúng bằng các khả năng đáng kinh ngạc của chúng, từ việc viết bài luận khó đến những cuộc trò chuyện khá sáng suốt. Tuy nhiên, trò chuyện tự động không thể suy nghĩ như con người vì chúng không thực sự hiểu những gì mình nói. Chúng chỉ có thể bắt chước được tiếng nói của con người do trí tuệ nhân tạo điều khiển chúng, với một lượng lớn văn bản được thu thập từ Internet. Văn bản này là nguồn thông tin chính của trí tuệ nhân tạo về thế giới đang được xây dựng, và nó ảnh hưởng đến cách chúng phản hồi với người dùng. Các công ty công nghệ ngày càng kín đáo về những gì mà họ cung cấp cho trí tuệ nhân tạo. Do đó, báo The Washington Post đã tiến hành phân tích một số bộ dữ liệu này để tiết lộ đầy đủ các loại trang web độc quyền, cá nhân và thường xuyên gây phản cảm được sử dụng để huấn luyện các trí tuệ nhân tạo. Báo đã phân loại các trang web bằng dữ liệu từ SimilarWeb, một công ty phân tích web. Khoảng một phần ba các trang web không thể phân loại được, chủ yếu là do chúng không xuất hiện trên internet nữa. Dữ liệu còn lại dựa trên số lượng "tokens" xuất hiện từ mỗi trang web trong bộ dữ liệu. Datasets này chứa nhiều trang web từ các ngành công nghiệp như báo chí, giải trí, phát triển phần mềm, y tế và tạo nội dung, giải thích vì sao những lĩnh vực này có thể bị đe dọa bởi đợt sóng nhân tạo mới. Các trang web dẫn đầu bao gồm các trang chứa thông tin cấp phép, báo chí trực tuyến miễn phí và thư viện kỹ thuật số, cũng như các thị trường có tiếng về sách điện tử lậu và gian lận được nêu tên bởi Chính phủ Hoa Kỳ. Tuy nhiên, đây cũng là những trang web có thể gây lo ngại về quyền riêng tư và chứa nhiều thông tin sai lệch.