Các trò chuyện tự động (chatbots) được trang bị trí tuệ nhân tạo (AI) như ChatGPT, Bing và Google Bard đang ngày càng tiến xa trong việc chuẩn bị cho thế hệ tiếp theo của các công cụ phần mềm trò chuyện, hứa hẹn làm mọi việc, từ chiếm ưu thế trong tìm kiếm web, đến sản xuất một nguồn tài liệu văn học sáng tạo không giới hạn và ghi nhớ tất cả kiến thức của thế giới, qua đó giảm bớt sự đau đầu khi phải nhớ hoặc ghi nhớ tất cả những điều họ cần cho mục đích chuyên môn của mình. ChatGPT, Google Bard và một số chatbot khác đã có mô hình ngôn ngữ lớn hoặc LLM.
Nhiều hệ thống trí tuệ nhân tạo được thiết kế để nhận diện giọng nói của con người hoặc tạo ra hình ảnh động vật - LLMs được hỗ trợ bởi lượng dữ liệu lớn. Các công ty đứng sau những chatbot này đã khá thận trọng khi tiết lộ chính xác từ đâu dữ liệu đó đến.
Theo một nghiên cứu của Đại học Cornell giới thiệu LaMDA (Mô hình Ngôn ngữ cho Các Ứng dụng Trò chuyện), mà Google Bard được xây dựng trên đó, thì Wikipedia được đề cập nhiều lần - ví dụ như "diễn đàn công cộng" và "tài liệu mã từ các trang web liên quan đến lập trình như các trang Q&A, hướng dẫn vv".
Trong khi đó Reddit muốn bắt đầu tính tiền cho việc truy cập vào 18 năm cuộc trò chuyện văn bản của mình và StackOverflow cũng thông báo kế hoạch bắt đầu tính tiền. Ngụ ý ở đây là LLMs đã sử dụng rộng rãi cả hai trang web này làm nguồn tài nguyên miễn phí, hoàn toàn trên sự giúp đỡ của những người đã xây dựng và sử dụng những tài nguyên đó. Rõ ràng là nhiều thứ được công khai trên web đã được khai thác và phân tích bởi LLMs.
Tất cả các dữ liệu văn bản này, dù ở đâu, đều được xử lý thông qua một mạng thần kinh, một loại động cơ AI phổ biến được tạo thành từ nhiều nút và lớp. Các mạng này liên tục điều chỉnh cách họ hiểu và hiểu được dữ liệu dựa trên nhiều yếu tố, bao gồm kết quả từ các bài thử nghiệm trước đó. Hầu hết các LLMs sử dụng kiến trúc mạng thần kinh cụ thể được gọi là transformer, vốn có những mẹo đặc biệt phù hợp với việc xử lý ngôn ngữ (GPT sau Chat là viết tắt của Generative Pretrained Transformer).
Cụ thể, một transformer có thể đọc và phân tích một lượng lớn văn bản, tìm ra các mẫu trong cách các từ và cụm từ liên quan đến nhau, sau đó đưa ra dự đoán về từ tiếp theo có thể xuất hiện. Bạn có thể đã nghe nói về LLMs được so sánh với các động cơ autocorrect có hiệu suất cao, và thực sự đó không quá xa vời: ChatGPT và Bard thực sự không "biết" gì cả, nhưng chúng rất giỏi trong việc tìm ra từ nào sẽ theo sau từ khác, điều này có vẻ giống như suy nghĩ và sáng tạo thực sự khi đạt đến một giai đoạn đủ tiên tiến.
Một trong những đổi mới chính của những transformer này là cơ chế tự chú ý. Khó để giải thích trong một đoạn văn ngắn, nhưng theo bản chất, nó có nghĩa là các từ trong một câu không được xem xét đơn lẻ mà còn liên quan đến nhau theo nhiều cách tinh vi khác nhau. Nó cho phép có một mức độ hiểu biết sâu hơn hẳn so với những gì có thể được thực hiện.
Có một ít sự ngẫu nhiên và biến đổi được tích hợp vào mã code, đó là lý do tại sao bạn sẽ không nhận được cùng một phản hồi từ một chatbot transformer mỗi lần. Ý tưởng autocorrect này cũng giải thích cách lỗi có thể xảy ra. Về mặt cơ bản, ChatGPT và Google Bard không biết cái gì là chính xác và cái gì không. Họ đang tìm kiếm phản hồi có vẻ hợp lý và tự nhiên, và phù hợp với dữ liệu mà họ đã được huấn luyện trước đó.
Vì vậy, ví dụ, một bot có thể không luôn chọn từ có khả năng cao nhất sẽ xuất hiện tiếp theo, mà có thể là từ vào vị trí thứ hai hoặc thứ ba. Nhưng nếu đẩy điều này quá xa, câu sẽ không còn có nghĩa nữa, điều này giải thích vì sao LLMs đang ở trong một trạng thái liên tục của phân tích và tự sửa lỗi. Một phần của phản hồi tất nhiên là do đầu vào, đó là lý do tại sao bạn có thể yêu cầu các chatbot này đơn giản hóa phản hồi của họ hoặc làm cho chúng phức tạp hơn.