Robot học nhanh hơn với sự tăng cường AI từ Eureka

bởi Peter Grad, Tech Xplore

EUREKA tạo ra các chức năng thưởng theo cấp bậc con người trên các loại robot và nhiệm vụ khác nhau. Kết hợp với việc học chương trình, EUREKA lần đầu tiên mở khóa khả năng xoay bút nhanh trên một bàn tay nhân tạo có năm ngón tay. Credit: arXiv (2023). DOI: 10.48550/arxiv.2310.12931

Các robot thông minh đang thay đổi vũ trụ của chúng ta. Tại Bệnh viện Đại học Robert Wood Johnson ở New Jersey, các robot hỗ trợ bằng trí tuệ nhân tạo đang mang lại một mức độ an ninh mới cho các bác sĩ và bệnh nhân bằng cách quét toàn bộ không gian để phát hiện vi khuẩn và virus có hại và tiến hành khử trùng chúng bằng một lượng ánh sáng cực tím kháng vi trùng chính xác.

Trong nông nghiệp, cánh tay robot được điều khiển bởi máy bay không người lái quét qua các loại trái cây và rau quả khác nhau và xác định khi chúng chín hoàn hảo để thu hoạch.

Hệ thống Thông minh Vũ trụ Bay AI Flyways tiếp quản những nhiệm vụ khó khăn và thường gây căng thẳng của các nhân viên điều phối chuyến bay, người phải thay đổi mẫu bay vào phút cuối do thời tiết cực đoan đột ngột, nguồn nhiên liệu cạn kiệt, vấn đề cơ học hoặc tình huống khẩn cấp khác. Nó tối ưu hóa các giải pháp, an toàn hơn, tiết kiệm thời gian và hiệu quả về chi phí.

Nhưng quên đi những thành tựu đó: Liệu một robot có thể thực hiện những thủ thuật xoay bút hoàn hảo không?

Đội ngũ tại NVIDIA Research đã phát triển một robot có khả năng đó. Và trong khi nhiệm vụ này ấn tượng - một số chuyên gia cho rằng nó có thể mất tháng hoặc thậm chí một năm trở lên cho con người để nắm vững nghệ thuật xoay ngón tay tinh tế, bao gồm những chi tiết khó khăn như Devil's Sonic, Backaround, Corkscrew và Bust X2 - điều nổi bật về dự án của NVIDA là khả năng xoay bút được học từ các hướng dẫn được tạo bởi trí tuệ nhân tạo.

Trong một bài báo có tựa đề "Eureka: Thiết kế Phần thưởng Mức độ con người thông qua Lập trình Mô hình Ngôn ngữ Lớn" được đăng trên máy chủ trước in arXiv, các nhà nghiên cứu mô tả về việc "tối ưu hóa tiến hóa qua mã phần thưởng" trong đó robot học được các chuyển động phức tạp thông qua hướng dẫn được tạo bởi trí tuệ nhân tạo.

Nó hứa hẹn sự giải quyết vấn đề hiệu quả hơn bao giờ hết với LLMs, sự thao tác vật lý tiên tiến hơn và những máy móc thông minh hơn trong tương lai của chúng ta.

Đội ngũ đã phát triển Eureka, một thuật toán áp dụng cho GPT-4 nhằm xây dựng một hệ thống phần thưởng cho LLMs học các chức năng motor tiên tiến. Các nhiệm vụ được thực hiện trên một ứng dụng mô phỏng vật lý có tên là Isaac Gym, được phát triển bởi NVIDIA. Các nhà nghiên cứu từ UPenn, Caltech và Đại học Texas tại Austin cũng tham gia vào dự án.

Kết quả đạt được thông qua quá trình đào tạo của Eureka vượt trội so với các hướng dẫn do con người thiết kế trong 83% các thử nghiệm. Nhiệm vụ xoay bút nhanh là một trong số 29 kỹ năng phức tạp được đào tạo trên thuật toán Eureka.

"Sự linh hoạt và sự tiến bộ đáng kể của Eureka cho thấy nguyên tắc đơn giản của việc kết hợp các mô hình ngôn ngữ lớn với thuật toán tiến hóa là một phương pháp chung và có thể mở rộng trong việc thiết kế phần thưởng, một hiểu biết có thể áp dụng chung cho các vấn đề tìm kiếm khó khăn, không có giới hạn," Anima Anandkumar, giám đốc nghiên cứu trí tuệ nhân tạo tại NVIDIA và tác giả của bài báo Eureka nói.

Phòng tập Isaac mô phỏng hoạt động thể chất trong một môi trường ba chiều. Phiên huấn luyện song song khổng lồ nhanh chóng tạo ra các giải pháp có thể cho nhiều thao tác hơn cách con người hoặc các hệ thống tính toán sớm có thể. Nhóm nghiên cứu cho biết, phòng tập có thể cải thiện tốc độ huấn luyện gấp 1.000 lần.

Phản hồi từ các nhân viên điều hành có thể được tích hợp vào các thuật toán huấn luyện. Các nhà nghiên cứu cho biết rằng điều đó sẽ đóng vai trò như một "cộng tác viên hùng mạnh" trong các nhiệm vụ đặc biệt thách thức.

Ngoài ra, việc đào tạo Eureka còn bao gồm các nhiệm vụ như mở tủ và kéo ngăn, sử dụng kéo và ném bóng.

Eureka biên soạn thống kê về tiến độ của mỗi phiên và điều chỉnh mã để liên tục cải thiện kết quả.

Theo Shital Shah, một kỹ sư nghiên cứu chính tại Microsoft Research, "Vòng lặp phản hồi tích cực được ca ngợi về tự cải thiện có thể chỉ cách đó không xa, cho phép chúng ta vượt qua dữ liệu và khả năng huấn luyện của con người".

Thông tin thêm: Yecheng Jason Ma và đồng nghiệp, Eureka: Thiết kế phần thưởng cấp độ con người thông qua mã hóa các mô hình ngôn ngữ lớn, arXiv (2023). DOI: 10.48550/arxiv.2310.12931.

Trang web dự án: eureka-research.github.io/

Robot học nhanh hơn với sự tăng cường AI từ Eureka

Tin AI