Mỗi ngày chúng ta đối mặt với những nhu cầu khác nhau. Tôi đang đói nhưng mệt mỏi; liệu tôi nên sụp xuống ghế sofa hay nấu bữa tối? Tôi đang nóng bức trong thời tiết nguy hiểm nhưng cũng rất khát; liệu tôi nên uống cạn nước ấm đã bị nóng dưới ánh nắng mặt trời hay đưa đầu vào tủ lạnh cho đến khi tôi có đủ khả năng tinh thần để làm đá?

Khi đối mặt với những tình huống khó khăn, chúng ta thường tuân theo bản năng cơ bản mà không suy nghĩ. Nhưng trong cơ sở, nhiều mạng thần kinh cạnh tranh để đưa ra quyết định "tốt nhất" tại bất kỳ thời điểm nào. Ngủ hay ăn. Tủ lạnh hay nước ấm. Chúng có thể là những quyết định tồi tệ khi nhìn lại - nhưng lần sau, chúng ta học từ những sai lầm trong quá khứ.

Khả năng thích ứng của chúng ta với một thế giới thay đổi liên tục là một siêu năng lực mà hiện tại đang trốn thoát khỏi hầu hết các tác nhân Trí tuệ nhân tạo. Ngay cả những tác nhân Trí tuệ nhân tạo tinh vi nhất cũng gặp khó khăn hoặc yêu cầu một lượng tính toán không thể chấp nhận được khi chúng đấu tranh với những mục tiêu xung đột.

Theo một nhóm nghiên cứu do Tiến sĩ Jonathan Cohen tại Viện Sinh thái học Princeton lãnh đạo, lý do rất đơn giản: hệ thống học máy thường hoạt động như một thực thể đơn lẻ, buộc phải đánh giá, tính toán và thực hiện một mục tiêu tại một thời điểm. Mặc dù có thể học từ những sai lầm của nó, Trí tuệ nhân tạo gặp khó khăn trong việc tìm được sự cân bằng phù hợp khi đối mặt với nhiều mục tiêu trái ngược cùng một lúc.

Vì sao không phân tách Trí tuệ nhân tạo?

Trong một nghiên cứu mới được công bố trên PNAS, nhóm nghiên cứu đã lấy cảm hứng từ sinh thái học nhận thức và xây dựng một tác nhân Trí tuệ nhân tạo modul.

Ý tưởng có vẻ đơn giản. Thay vì một hệ thống Trí tuệ nhân tạo đơn lẻ - mạng lưới duy nhất bao trùm toàn bộ "bản thân" - nhóm nghiên cứu đã xây dựng một hệ thống tác nhân modul, mỗi phần đều có "động lực" và mục tiêu riêng nhưng điều khiển một "thân xác" duy nhất. Giống như một xã hội dân chủ, hệ thống Trí tuệ nhân tạo tranh luận trong bản thân để quyết định phản ứng tốt nhất, nơi hành động có khả năng mang lại kết quả thắng lớn nhất chỉ đạo bước tiếp theo của nó.

Trong nhiều mô phỏng, Trí tuệ nhân tạo modul vượt trội hơn so với đối tác khối Trí tuệ nhân tạo cổ điển. Khả năng thích ứng đặc biệt của nó được chứng tỏ khi các nhà nghiên cứu tăng cường giả tăng số mục tiêu cần duy trì đồng thời. Trí tuệ nhân tạo kiểu Lego này đã thích nghi nhanh chóng, trong khi đối tác cổ điển lại khó khăn trong việc bắt kịp.

"Một trong những câu hỏi về bản chất số một về tác nhân là làm sao một cá nhân quản lý được các nhu cầu xung đột," nhóm nghiên cứu nói. Bằng cách phân rã một tác nhân Trí tuệ nhân tạo, nghiên cứu không chỉ cung cấp thông tin về tác nhân học máy thông minh hơn, mà còn "mở ra con đường để hiểu các xung đột tâm lý có sẵn trong tâm hồn con người", Dr. Rober Boshra tại Đại học Princeton viết.ÿ

Trò chơi cuộc sống

Làm thế nào các sinh vật thông minh học cách cân bằng nhu cầu xung đột trong một thế giới phức tạp, thay đổi?

Câu hỏi triết học này đã ám ảnh nhiều lĩnh vực khác nhau - sinh thái học nhận thức, tâm lý học, kinh tế - tìm hiểu bản chất của con người. Chúng ta vẫn chưa có câu trả lời rõ ràng. Nhưng với Trí tuệ nhân tạo ngày càng đối mặt với các thách thức tương tự khi tiến vào thế giới thực, đến lúc giải quyết vấn đề cổ xưa trực tiếp.

Nghiên cứu mới đã đặt ra thách thức dưới hình thức một trò chơi nhập vai đơn giản. Có hai nhân vật điều hướng một thế giới mạng 2 chiều, mỗi nhân vật cố gắng tìm nguồn tài nguyên để tồn tại.

Thí sinh đầu tiên: tác nhân cổ điển, còn được gọi là "bản thân", được đào tạo bằng deep-Q-learning (DQL). Thuật toán này đã trở nên phổ biến từ DeepMind vì khả năng phân tích bước tiếp theo tối ưu dựa trên trạng thái hiện tại. Ví dụ, như trong một trò chơi video, liệu tôi có nên đi sang trái hay phải? Điều hướng quân cờ hoặc Go nào, và đi đâu? Ở đây, thuật toán thăm dò toàn bộ môi trường trong quá trình theo dõi tín hiệu thưởng duy nhất - tức là mục tiêu cuối cùng của nó. Một cách nào đó, tác nhân cổ điển là một bộ não thống nhất cố gắng tối đa hóa kết quả tốt nhất sau khi xử lý đồng thời tất cả các nguồn tài nguyên.

Đối thủ: Trí tuệ nhân tạo modul. Giống như một con bạch tuộc với các cơ quan cận tự trị, tác nhân Trí tuệ nhân tạo được chia thành các bộ phận con, mỗi bộ phận đều có mục tiêu và phản hồi riêng của nó. Để trở thành một cuộc chiến công bằng, mỗi mô-đun cũng được đào tạo bằng DQL. Các "bộ não" riêng biệt quan sát môi trường xung quanh và học cách chọn lựa tùy chọn tốt nhất - nhưng chỉ phù hợp với mục tiêu riêng của nó. Kết quả dự đoán sau đó được tổng hợp. Giải pháp có tiềm năng tối ưu nhất sau đó được chọn, dẫn dắt sự lựa chọn tiếp theo của tác nhân Trí tuệ nhân tạo.

Và sân chơi này?

Trò chơi này là một phiên bản cắt giảm cực kỳ của một trò chơi sinh tồn. Mỗi tác nhân Trí tuệ nhân tạo di chuyển trong một mạng lưới hai chiều có các loại tài nguyên khác nhau được ẩn trong một số khu vực. Mục tiêu là duy trì bốn chỉ số của tác nhân ở mức định sẵn, mỗi chỉ số sẽ giảm dần theo thời gian. Khi nhiều chỉ số giảm, tùy thuộc vào tác nhân Trí tuệ nhân tạo để quyết định ưu tiên chỉ số nào.

Đối với những người chơi game, hãy tưởng tượng việc thử nghiệm như là việc bị ném vào một bản đồ game mới và cố gắng tìm tài nguyên để tăng cường sức khỏe, phép thuật, sức bền và sức mạnh tấn công ví dụ như. Đối với cuộc sống hàng ngày của chúng ta, đó là việc cân bằng đói, nhiệt độ, giấc ngủ và các nhu cầu sinh lý cơ bản khác.

"Ví dụ, nếu đặc vụ có một chỉ số 'đói' thấp, nó có thể thu thập tài nguyên 'thức ăn' bằng cách di chuyển đến vị trí của tài nguyên đó", nhóm nghiên cứu giải thích.

Rừng cho cây

Bài kiểm tra đầu tiên bắt đầu bằng một môi trường tương đối đơn giản. Vị trí cho mỗi mục tiêu tài nguyên đã được cố định ở góc của hội trường game. Đặc vụ một mảnh đã dễ dàng duy trì bốn chỉ số của mình sau 30.000 bước đào tạo, mặc dù nó đã trải qua giai đoạn chạy quá và chạy quá mục tiêu cho đến khi đạt được những mục tiêu nhất định. Trái lại, đặc vụ modul học nhanh hơn rất nhiều. Sau 5.000 bước học, đặc vụ đã nắm bắt được hiểu biết về "trạng thái của thế giới".

Một phần của khả năng của trí tuệ nhân tạo modul đến từ sự khám phá tự nhiên bên trong, tác giả nói. Không giống như các phương pháp trước đây cho các hệ thống modul chia để trị để tiến đến mục tiêu cuối cùng, ở đây trí tuệ nhân tạo đại diện cho một mối quan hệ xã hội toàn diện hơn - một mối quan hệ trong đó một số mô-đun thắng và một số mô-đun thua qua một trạng thái cạnh tranh nội bộ liên tục.

Bởi vì "cơ thể" của đặc vụ trí tuệ chỉ được hướng dẫn bởi mô-đun chiến thắng, những mô-đun thua phải đồng ý với một quyết định mà họ không đồng ý và bị ép vào một thực tại mới. Họ sau đó phải nhanh chóng thích nghi và tính toán lại giải pháp tốt nhất cho bước tiếp theo. Nói cách khác, các mô-đun thường thấy mình ở ngoài vùng thoải mái của mình. Đó là tình yêu nghiêm khắc, nhưng kết quả không mong đợi buộc họ suy ngẫm về các giải pháp mới - đôi khi mang lại kết quả tốt hơn mà họ sẽ không xem xét nếu đối mặt với vấn đề một mình.

Nhìn chung, hệ thống modul tạo thành một "chu kỳ có tác dụng tốt qua khám phá" để cải thiện hành động của trí tuệ nhân tạo, tác giả nghiên cứu Zack Dulberg nói.

Khả năng thích nghi này được thể hiện rõ hơn khi nhóm thử thách cả hai đặc vụ trí tuệ nhân tạo trong môi trường thay đổi. Trong một bài kiểm tra, vị trí mục tiêu tài nguyên đã di chuyển đến một vị trí lưới ngẫu nhiên với các tỷ lệ thời gian không đều. Trí tuệ nhân tạo modul nhanh chóng nhận biết các thay đổi và thích nghi với chúng, trong khi đặc vụ một mảnh hoạt động kém hơn rất nhiều.

Trong một bài kiểm tra khác, nhóm đã tăng cường các yếu tố đồng thời duy trì tám yếu tố thay vì bốn yếu tố ban đầu. Bài kiểm tra giải quyết vấn đề mà tính toán trở nên ngày càng không thể đạt được từ quan điểm thời gian và năng lượng khi số các biến tăng lên - được gọi là "lời nguyền của kích thước".

Đặc vụ modul nhanh chóng thích nghi để săn tìm tài nguyên để duy trì mục tiêu của mình. Trái lại, đặc vụ một mảnh lại gặp khó khăn, mất nhiều thời gian hơn để quay trở lại mức đạt được mong muốn cho mỗi chỉ số của nó.

 

Một người so với nhiều người

Phương pháp modul là một ví dụ khác về việc tận dụng bộ não để phát triển trí tuệ nhân tạo - đồng thời cung cấp thông tin về cách não bộ của chúng ta hoạt động.

Tương tự như công việc trước đó, các mô-đun modul cho thấy rằng có thể có một đặc vụ trí tuệ nhân tạo duy nhất học các bài toán con riêng biệt và dễ hơn trong cùng một thời gian mà tương đối phân tán trong việc xử lý dữ liệu. Thêm một mô hình với hệ thống điều khiển phân cấp có thể gia tăng trí tuệ nhân tạo, tác giả nói, vì cả hai cấu trúc đều tồn tại trong thế giới tự nhiên.

Hiện tại, mỗi mô-đun được lập trình cho lợi ích riêng - một tổng thể của chính bản thân. Nhưng mục tiêu sống của chúng ta thường gắn kết với nhau; ví dụ: giảm bớt khát và chiến đấu với nhiệt không phải là xung đột hoàn toàn. Nhóm nghiên cứu nhấn mạnh sự cần thiết để tích hợp những sự giao cắt này - và tìm hiểu xem chúng được kế thừa hay học trong các bài kiểm tra tương lai.

Đối với Dulberg, điều chưa biết là một phần của sự hồi hộp. "Mô-đun phát triển như thế nào? Những đặc điểm nào của môi trường phát triển tạo áp lực lên các giải pháp khác nhau?", ông hỏi. "Và liệu lợi ích của tính modul có giải thích tại sao mâu thuẫn tâm lý nội bộ có vẻ nằm ở trung tâm của điều kiện con người?"

Hình ảnh tín dụng: Anestiev/Pixabay