Trên TikTok, giữa các video "sẵn sàng với tôi", các mẹo vặt và các meme, một số con robot đang làm việc trên một thách thức mà nhiều người trong chúng ta đã từng gặp: đánh bại Super Mario World. Trong tuần qua, người dùng đã trực tiếp phát sóng việc học chơi Mario của một hệ thống trí tuệ nhân tạo (AI), và đối với một con robot cụ thể, mọi thứ diễn ra rất tốt. Tên của nó là Rupert, và nó vừa mới vượt qua màn chơi 2.
Chiến thuật của AI sẽ rất quen thuộc với bất kỳ ai nhớ lại lần đầu tiên vận dụng tay cầm máy Super Nintendo. Rupert chạy, nhảy, tấn công kẻ địch, rơi xuống vực và chết - lần này lại lần khác. Mỗi khi nó chết, Rupert cố gắng một lần nữa. Thông thường, nó thực hiện gần như chính xác những nước đi đã giết nó trong lượt chơi trước. Nhưng nếu bạn xem đủ lâu, bạn sẽ nhận ra Rupert đang tiến hóa và ngày càng tốt hơn. Nó đang học.
"Đó là một chương trình được tạo ra để mô phỏng sự lựa chọn tự nhiên với mạng thần kinh," Join The PCMasterRace, người dùng TikTok đảm nhận việc Rupert, chỉ ra và không muốn sử dụng tên thật của mình. (PCMasterRace là tên không được chấp nhận của một subreddit về máy tính để bàn.)
Nói cách khác, Rupert là một hệ thống thuật toán học máy được cải thiện thông qua việc quan sát những sai lầm của chính nó. Rupert có một mục tiêu xác định: đến được đầu kia của màn chơi. Nó biết nút nào nó có thể bấm và nó có thể nhìn thấy những gì đang diễn ra trên màn hình. (Thật ra, bạn có thể thấy những gì Rupert "nhìn thấy" ở góc trên bên trái của video dưới đây.) Nhưng khác với người chơi Mario là con người, một hệ thống AI không thể đưa ra giả định rằng nó nên tránh Koopas hoặc không rơi xuống khỏi bục. Hết sức quan trọng, Rupert chỉ nhận được phản hồi tích cực và phản hồi tiêu cực. Rupert thực hiện các thử nghiệm ngẫu nhiên. Nó ghi nhớ những gì đã và không đã làm việc, và chiến lược của nó cải thiện theo thời gian.
Rupert được mô phỏng theo quá trình tiến hóa trong ý nghĩa rằng nó hoạt động dựa trên "loài" và "thế hệ". AI thử một chiến thuật cụ thể cho mỗi loài, mỗi loài kéo dài từ hai đến sáu lượt chơi. Đối với mỗi 50-100 loài, AI tập hợp những gì nó đã học vào một "thế hệ".
Khi AI chơi, nó nhận điểm "phù hợp". Điểm phù hợp tăng dựa trên mức độ Mario đi về bên phải và tốc độ anh ta đến đó. Các thế hệ có điểm phù hợp cao được chọn để "giao giống" cho các thế hệ sau, có nghĩa là AI xây dựng trên các hành vi và mô hình đã thành công và bắt đầu từ đầu. Điều đó cho phép quyết định của nó trở nên phức tạp và tinh vi hơn theo thời gian.
Nó tiến triển chậm, nhưng nó hoạt động. Chỉ trong 57 thế hệ, Rupert đã vượt qua màn chơi đầu tiên, đem lại sự vui mừng trong các bình luận khi khán giả cổ vũ cho thành công của Rupert.
Rupert, cùng với một con robot Mario AI trên TikTok khác được đặt tên thân mật là George, đang chạy một chương trình nguồn mở được gọi là MarI/O. Nó được xây dựng bởi coder và livestreamer Seth Hendrickson, người sử dụng tên SethBling khi trực tuyến. MarI/O không mới. Hendrickson đã phát hành nó nhiều năm trước đây, nhưng những hoạt động của con robot có ý nghĩa mới trong thời đại mà ngành công nghệ muốn chúng ta tin rằng trí tuệ nhân tạo sẽ sớm thống trị thế giới.
MarI/O đơn giản hơn rất nhiều so với một hệ thống như ChatGPT, nhưng nó mở ra cửa sổ để hiểu cách các mô hình AI hoạt động. Các công cụ AI này một cách nào đó quăng những mớ mì xốt vào tường, và con người thiết kế các hệ thống để nói với chúng liệu nỗ lực này có tốt hơn hay xấu hơn so với lần trước. Với thời gian, các nỗ lực trở nên tốt hơn. Hãy tưởng tượng rằng điều đó diễn ra hàng triệu hoặc hàng tỉ lần. Bạn có thể xem một giải thích chi tiết hơn trong một trong những video của Hendrickson:
Với ChatGPT, điều này phức tạp hơn một cách mũ bậc. MarI/O không có nhiều lựa chọn: trái, phải, lên, xuống, A, B, X và Y. Trong khi đó, ngôn ngữ Anh có hàng trăm ngàn từ, vô số cách sắp xếp các từ đó và một số lượng lí thuyết vô hạn của ý tưởng. MarI/O đơn giản hơn rất nhiều so với ChatGPT - và công nghệ cơ bản khác biệt - nhưng nếu bạn hiểu được cách MarI/O hoạt động, bạn có thể áp dụng nó để hiểu công nghệ chatbot một cách hữu ích.
Rupert, thật đáng tiếc, chỉ là một chàng trai bé nhỏ. Nó đang cố gắng hết sức, nhưng Rupert sẽ gặp khó khăn khi tiến xa trong trò chơi. Hệ thống của MarI/O chỉ đánh giá nó dựa trên việc Mario đi xa bên phải màn hình, nhưng trong một số cấp độ trong thế giới Super Mario, bạn phải leo lên để đạt được mục tiêu, chứ không phải để đi sang phải.
"Tuy nhiên, tôi đang dự định sửa đổi nó để có thể leo lên cấu trúc dọc tốt hơn", Join the PCMasterRace nói.