Phóng to / Robot của Google được điều khiển bởi RT-2. Thứ Sáu vừa qua, Google DeepMind đã công bố Robotic Transformer 2 (RT-2), một mô hình hành động-ngôn ngữ-thị giác (VLA) "đầu tiên trong loại của nó" sử dụng dữ liệu được lấy từ Internet để cải thiện sự kiểm soát của robot thông qua các lệnh bằng ngôn ngữ tự nhiên. Mục tiêu cuối cùng là tạo ra các robot đa năng có thể di chuyển trong môi trường con người, tương tự như các robot hư cấu như WALL-E hoặc C-3PO.

A Google robot controlled by RT-2.

Khi con người muốn học một nhiệm vụ, chúng ta thường đọc và quan sát. RT-2 cũng tương tự, sử dụng một mô hình ngôn ngữ lớn (công nghệ đằng sau ChatGPT) đã được huấn luyện trên văn bản và hình ảnh được tìm thấy trên Internet. RT-2 sử dụng thông tin này để nhận ra các mẫu và thực hiện các hành động, ngay cả khi robot chưa được huấn luyện cụ thể cho những nhiệm vụ đó - một khái niệm gọi là khái quát hóa.

Ví dụ, Google cho biết RT-2 có thể cho phép một robot nhận ra và vứt rác mà không cần được huấn luyện cụ thể để làm như vậy. Nó sử dụng hiểu biết của mình về rác là gì và cách thải nó ra để hướng dẫn hành động của mình. RT-2 ngay cả nhìn thấy bao bì đồ ăn đã bị vứt hoặc vỏ chuối hoài cũng như rác, mặc dù có thể gây hiểu lầm.

Phóng to / Các kỹ năng tổng quát của robot RT-2 có thể thực hiện mà không có trong dữ liệu robot học. Thay vào đó, nó học được từ dữ liệu lấy từ web.

Examples of generalized robotic skills RT-2 can perform that were not in the robotics data. Instead, it learned about them from scrapes of the web.

Trong một ví dụ khác, The New York Times kể lại một kỹ sư của Google ra lệnh, "Lấy con vật tuyệt chủng," và robot RT-2 tìm và lựa chọn một con khủng long từ ba con búp bê trên một cái bàn.

Quảng cáo - Khả năng này đáng chú ý vì robot thường được huấn luyện từ một số lượng lớn điểm dữ liệu thu thập bằng tay, làm cho quá trình này khó hơn vì thời gian và chi phí lớn để bao quát mọi tình huống có thể xảy ra. Đơn giản, thế giới thực là một vòng lặp động, với tình huống và cách bố trí các vật thay đổi. Một robot hỗ trợ thực tế cần có khả năng thích ứng ngay tức thì theo những cách không thể được lập trình rõ ràng, và đó là nơi RT-2 sẽ thể hiện vai trò của nó.

Nhiều hơn những gì mắt thường thấy

Với RT-2, Google DeepMind đã áp dụng một chiến lược sử dụng các mô hình trí tuệ nhân tạo transformer, được biết đến với khả năng tổng quát hóa thông tin. RT-2 dựa trên công việc trí tuệ nhân tạo trước đó của Google, bao gồm mô hình Ngôn ngữ và Hình ảnh Pathways (PaLI-X) và mô hình Ngôn ngữ Pathways Thể thân (PaLM-E). Ngoài ra, RT-2 cũng được huấn luyện chung với dữ liệu từ mô hình tiền nhiệm của nó (RT-1), được thu thập trong 17 tháng trong môi trường "văn phòng nhà bếp" bởi 13 robot.

Kiến trúc RT-2 liên quan đến việc điều chỉnh lại một mô hình VLM được huấn luyện trước với dữ liệu về robot và web. Mô hình kết quả xử lý hình ảnh camera robot và dự đoán các hành động mà robot nên thực hiện.

Phóng to / Google đã điều chỉnh một mô hình VLM với dữ liệu về robot và web. Mô hình kết quả nhận hình ảnh camera robot và dự đoán các hành động mà robot nên thực hiện. Vì RT-2 sử dụng mô hình ngôn ngữ để xử lý thông tin, Google đã chọn biểu diễn các hành động dưới dạng mã thông báo, thông thường là các đoạn từ của một từ. "Để điều khiển một robot, nó phải được huấn luyện để đưa ra các hành động," Google viết. "Chúng tôi đối mặt với thách thức này bằng cách biểu diễn hành động dưới dạng mã thông báo trong đầu ra của mô hình - tương tự như các mã thông báo ngôn ngữ - và mô tả các hành động dưới dạng chuỗi có thể được xử lý bởi các công cụ phân mảnh tiêu chuẩn của ngôn ngữ tự nhiên."

Google fine-tuned a VLM model on robotics and web data. The resulting model takes in robot camera images and predicts actions for a robot to perform.

Quảng cáo Trong quá trình phát triển RT-2, các nhà nghiên cứu đã sử dụng cùng phương pháp chia nhỏ hành động của robot như họ đã làm với phiên bản đầu tiên của robot, RT-1. Họ đã khám phá ra rằng bằng cách biến các hành động này thành một chuỗi biểu tượng hoặc mã thông báo (biểu diễn "chuỗi"), họ có thể dạy robot những kỹ năng mới bằng cách sử dụng các mô hình học tương tự như mô hình xử lý dữ liệu web.

Mô hình cũng sử dụng lý thuyết luận suy chuỗi ý, cho phép nó thực hiện luận suy đa giai đoạn như lựa chọn công cụ thay thế (đá như một cái búa tự nhiên) hoặc chọn thức uống tốt nhất cho một người mệt mỏi (nước giải khát).

Phóng to / Theo Google, lý thuyết luận suy chuỗi ý cho phép một mô hình điều khiển robot thực hiện các hành động phức tạp khi được chỉ dẫn. Google cho biết trong hơn 6.000 lần thử nghiệm, RT-2 đã được phát hiện hoạt động cũng như phiên bản tiền nhiệm của nó, RT-1, trên các nhiệm vụ mà nó đã được huấn luyện, gọi là "nhiệm vụ đã biết". Tuy nhiên, khi được thử nghiệm với các tình huống mới, "chưa biết", RT-2 đã gần gấp đôi hiệu suất của nó lên 62%, so với 32% của RT-1.

According to Google, chain-of-thought reasoning enables a robot control model that perform complex actions when instructed.

Mặc dù RT-2 đã cho thấy khả năng thích ứng tuyệt vời với những gì nó đã học để áp dụng vào những tình huống mới, Google nhận ra rằng nó không hoàn hảo. Trong phần "Hạn chế" của bài báo kỹ thuật RT-2, các nhà nghiên cứu thừa nhận rằng việc bao gồm dữ liệu web trong tài liệu đào tạo "nâng cao khả năng tổng quát hóa về khái niệm ngữ nghĩa và hình ảnh," nhưng nó không thể tự động truyền cho robot những khả năng vật lý mới mà nó chưa học từ dữ liệu đào tạo của robot tiền nhiệm. Nói cách khác, nó không thể thực hiện các hành động mà nó chưa từng luyện tập vật lý trước đây, nhưng nó trở nên giỏi hơn trong việc sử dụng các hành động mà nó đã biết theo các cách mới.

Mặc dù mục tiêu cuối cùng của Google DeepMind là tạo ra các robot đa năng, công ty biết rằng còn rất nhiều công việc nghiên cứu phía trước trước khi đạt được mục tiêu đó. Nhưng công nghệ như RT-2 dường như là một bước tiến mạnh mẽ trong hướng đó.