Những mô hình nền tảng (foundation models) đã thay đổi hoàn toàn trí tuệ nhân tạo trong thế giới kỹ thuật số đã không còn là điều bí mật nữa. Các mô hình ngôn ngữ lớn (LLMs) như ChatGPT, LLaMA và Bard đã cách mạng hóa trí tuệ nhân tạo dành cho ngôn ngữ. Mặc dù OpenAI không phải là nhà cung cấp duy nhất của các mô hình ngôn ngữ lớn, nhưng họ đã nhận được sự công nhận rộng rãi nhất khi có khả năng nhận đầu vào văn bản và hình ảnh và đưa ra những phản hồi giống con người — ngay cả với những nhiệm vụ đòi hỏi giải quyết vấn đề phức tạp và lập luận cao cấp.
Sự phổ biến và lan truyền viral của ChatGPT đã làm thay đổi cách xã hội nhìn nhận thời điểm mới này cho trí tuệ nhân tạo.
Bước tiến tiếp theo sẽ định nghĩa trí tuệ nhân tạo cho nhiều thế hệ là robot. Xây dựng những robot có sức mạnh trí tuệ nhân tạo có thể học cách tương tác với thế giới vật lý sẽ nâng cao tất cả các công việc lặp đi lặp lại trong các lĩnh vực từ giao vận, vận chuyển, sản xuất, bán lẻ, nông nghiệp và thậm chí là chăm sóc sức khỏe. Điều đó cũng sẽ mở ra nhiều tiện ích trong thế giới vật lý như chúng ta đã thấy trong thế giới kỹ thuật số trong vài thập kỷ qua.
Mặc dù có một số vấn đề độc đáo cần giải quyết trong lĩnh vực robot so với ngôn ngữ, nhưng có những điểm tương đồng về các khái niệm nền tảng cốt lõi. Và một số tinh hoa trong lĩnh vực trí tuệ nhân tạo đã tiến bộ đáng kể trong việc xây dựng "GPT cho robot".
Gì đã tạo nên thành công của GPT?
Để hiểu cách xây dựng "GPT cho robot", trước hết hãy xem xét các trụ cột cốt lõi mà đã tạo nên thành công của LLMs như GPT.
Phương pháp mô hình nền tảng
GPT là một mô hình trí tuệ nhân tạo được huấn luyện trên một tập dữ liệu đa dạng và rộng lớn. Trước đây, các kỹ sư thu thập dữ liệu và huấn luyện trí tuệ nhân tạo cụ thể cho một vấn đề cụ thể. Sau đó, họ sẽ cần thu thập dữ liệu mới để giải quyết vấn đề khác. Vấn đề khác nữa? Lại cần dữ liệu mới. Nhưng bây giờ, với phương pháp mô hình nền tảng, điều ngược lại đang xảy ra.
Thay vì xây dựng trí tuệ nhân tạo đặc thù cho mỗi trường hợp sử dụng, ta có thể sử dụng một trí tuệ nhân tạo có thể áp dụng được một cách phổ quát. Mô hình nền tảng đó hỗ trợ tốt hơn cho một nhiệm vụ cụ thể. Nó có thể khai thác những hiểu biết từ các nhiệm vụ khác và tổng quát hóa cho những nhiệm vụ mới tốt hơn vì đã học được các kỹ năng bổ sung từ việc thực hiện tốt qua một loạt các nhiệm vụ đa dạng.
Đào tạo trên tập dữ liệu lớn, riêng và chất lượng cao
Để có một trí tuệ nhân tạo tổng quát, bạn cần truy cập vào một lượng lớn dữ liệu đa dạng. OpenAI đã có được dữ liệu thực tế cần thiết để huấn luyện các mô hình GPT một cách khá hiệu quả. GPT được huấn luyện trên dữ liệu được thu thập từ toàn bộ internet với một tập dữ liệu đa dạng và lớn, bao gồm sách, bài báo tin tức, bài đăng trên mạng xã hội, mã nguồn và nhiều hơn nữa.
Không chỉ kích thước của bộ dữ liệu quan trọng; việc tạo dữ liệu chất lượng, có giá trị cao cũng đóng vai trò quan trọng. Các mô hình GPT đã đạt được hiệu suất chưa từng có vì các tập dữ liệu chất lượng cao của chúng chủ yếu được thông qua bởi các nhiệm vụ mà người dùng quan tâm và câu trả lời hữu ích nhất.
Vai trò của học tăng cường (reinforcement learning - RL)
OpenAI sử dụng học tăng cường thông qua phản hồi từ con người (RLHF) để điều chỉnh phản ứng của mô hình theo sự ưu tiên của con người (ví dụ, điều được coi là có lợi cho người dùng). Học tăng cường làm việc không chỉ bằng việc học giám sát thuần túy (SL) bởi vì SL chỉ đối mặt với một vấn đề có mẫu rõ ràng hoặc một tập hợp các ví dụ. LLMs yêu cầu trí tuệ nhân tạo đạt được một mục tiêu mà không cần có một câu trả lời duy nhất. Chính RLHF đã giúp thuật toán di chuyển đến mục tiêu thông qua thử và lỗi trong khi con người xác nhận các câu trả lời đúng (điểm thưởng cao) hoặc từ chối các câu trả lời không chính xác (điểm thưởng thấp). Trí tuệ nhân tạo tìm ra hàm điểm thưởng tốt nhất để giải thích sở thích của con người và sau đó sử dụng RL để học cách đạt được mục tiêu đó.
ChatGPT có thể đưa ra phản hồi tương đương hoặc vượt trội so với khả năng của con người bằng cách học từ phản hồi của con người.
Biên pháp tiếp theo của các mô hình nền tảng là trong robot học
Cùng công nghệ cốt lõi cho phép GPT nhìn thấy, suy nghĩ và thậm chí nói chuyện, cũng cho phép máy móc nhìn thấy, suy nghĩ và hành động. Các robot được cung cấp bởi một mô hình nền tảng có thể hiểu được môi trường vật lý xung quanh, đưa ra quyết định thông minh và thích nghi hành động của mình theo các tình huống thay đổi.
"Cái giống như GPT cho robot" đang được xây dựng theo cách GPT đã từng làm - chuẩn bị cho một cuộc cách mạng sẽ, một lần nữa, định nghĩa lại AI như chúng ta hiểu nó.
Phương pháp mô hình nền tảng
Bằng cách sử dụng phương pháp mô hình nền tảng, bạn cũng có thể xây dựng một trí tuệ nhân tạo (AI) hoạt động trên nhiều nhiệm vụ khác nhau trong thế giới vật lý. Một vài năm trước, các chuyên gia đã đề xuất tạo ra một trí tuệ nhân tạo chuyên dụng cho robot chọn và đóng gói hàng tạp hóa. Điều này khác với mô hình có thể sắp xếp các bộ phận điện khác nhau, và cũng khác biệt với mô hình giải phóng hàng hóa từ một xe tải.
Sự thay đổi mô hình nền tảng này cho phép trí tuệ nhân tạo tương ứng tốt hơn với các tình huống đặc biệt thường xuyên tồn tại trong môi trường thực tế không cấu trúc và có thể khiến mô hình không đào tạo hẹp bối cảnh bối rối. Xây dựng một AI tổng quát cho tất cả những tình huống này là thành công hơn. Chỉ bằng cách huấn luyện trên tất cả mọi thứ, bạn mới có được sự tự chủ cấp độ con người mà chúng ta đã bỏ lỡ từ các thế hệ trước của robot.
Đào tạo trên một bộ dữ liệu lớn, độc quyền và chất lượng cao
Dạy cho một robot học cách nhận thức những hành động đưa đến thành công và những hành động đưa đến thất bại là rất khó khăn. Điều này đòi hỏi một lượng lớn dữ liệu chất lượng cao dựa trên tương tác vật lý thực tế. Việc thiết lập trong phòng thí nghiệm đơn hay các ví dụ video không đáng tin cậy hoặc là nguồn đủ mạnh (ví dụ, các video trên YouTube không truyền tải chi tiết về tương tác vật lý và các bộ dữ liệu học thuật có xu hướng bị giới hạn về phạm vi).
Không giống như AI cho ngôn ngữ hay xử lý hình ảnh, không có bộ dữ liệu hiện có nào mô tả cách mà robot nên tương tác với thế giới vật lý. Vì vậy, việc xây dựng một bộ dữ liệu lớn, độc quyền và chất lượng cao trở thành một thách thức phức tạp hơn cho việc giải quyết trong robot học, và triển khai một đội robot trong sản xuất là cách duy nhất để xây dựng một bộ dữ liệu đa dạng.
Vai trò của học tăng cường
Tương tự như việc trả lời các câu hỏi văn bản với khả năng tương đương con người, điều khiển và điều khiển thông qua cách thức robot đòi hỏi một người đại diện tìm kiếm tiến bộ về một mục tiêu không có một câu trả lời duy nhất, duy nhất đúng (ví dụ, "Cách thành công để nhặt lên củ hành đỏ này là gì?"). Một lần nữa, không chỉ cần học giám sát thuần túy. Bạn cần một robot chạy học tăng cường sâu (deep RL) để thành công trong robot học. Phương pháp tự động, tự học này kết hợp RL với mạng thần kinh sâu để mở khóa các cấp độ hiệu suất cao hơn - AI sẽ tự động điều chỉnh các chiến lược học của nó và tiếp tục tinh chỉnh kỹ năng của mình khi trải nghiệm các tình huống mới.
Sự tăng trưởng gay gắt và đầy thách thức đang tới
Trong vài năm qua, một số chuyên gia AI và robot xuất sắc nhất thế giới đã đặt nền móng kỹ thuật và thương mại cho một cuộc cách mạng mô hình nền tảng robot sẽ định nghĩa lại tương lai của trí tuệ nhân tạo.
Trong khi những mô hình AI này đã được xây dựng tương tự như GPT, việc đạt được sự tự chủ cấp độ con người trong thế giới vật lý lại là một thách thức khoa học khác biệt với hai lý do sau:
- Việc xây dựng một sản phẩm dựa trên trí tuệ nhân tạo có thể phục vụ nhiều môi trường thực tế khác nhau có các yêu cầu vật lý phức tạp đáng kể. AI phải thích nghi với các ứng dụng phần cứng khác nhau, vì không có thiết bị phần cứng nào hoạt động trên nhiều ngành công nghiệp khác nhau (giao thông vận tải, sản xuất, bán lẻ, nông nghiệp, chăm sóc sức khỏe, vv.) và các hoạt động trong mỗi ngành.
- Kho hàng và trung tâm phân phối là môi trường học lí tưởng cho các mô hình AI trong thế giới vật lý. Thông thường, hàng trăm nghìn hoặc thậm chí hàng triệu đơn vị hàng tồn kho (SKU) được chảy qua bất kỳ cơ sở nào tại bất kỳ thời điểm nào - mang đến bộ dữ liệu lớn, độc quyền và chất lượng cao cần thiết để huấn luyện "GPT cho robot".
Thời điểm “GPT của AI trong robot” đang gần kề
Hành trình tăng trưởng của các mô hình nền tảng robot đang tăng tốc rất nhanh
Ứng dụng robot, đặc biệt là trong các nhiệm vụ yêu cầu điều khiển đối tượng chính xác, đã được triển khai trong môi trường sản xuất thực tế - và chúng ta sẽ thấy một số lượng rất lớn các ứng dụng robot thương mại được triển khai trên quy mô vào năm 2024.
Chen đã công bố hơn 30 bài báo chuyên môn xuất hiện trên các tạp chí toàn cầu hàng đầu về Trí tuệ nhân tạo và Học máy.