Meta vừa công bố một mô hình AI mã nguồn mở mới sử dụng nhiều dữ liệu khác nhau, bao gồm văn bản, âm thanh, dữ liệu hình ảnh, nhiệt độ và đo chuyển động. Tuy nhiên, mô hình này chỉ là một dự án nghiên cứu cho đến lúc này, không có ứng dụng thực tế hoặc khả năng tiêu dùng ngay lập tức. Với mô hình này, Meta đang đánh dấu một tương lai của các hệ thống AI tạo ra trải nghiệm đa giác quan, và khi các đối thủ như OpenAI và Google ngày càng trở nên kín đáo, Meta vẫn tiếp tục chia sẻ nghiên cứu AI.

Ý tưởng của nghiên cứu này là kết nối nhiều loại dữ liệu thành một chỉ số đa chiều duy nhất (hoặc "không gian nhúng," theo ngôn ngữ AI). Điều này có thể có vẻ hơi trừu tượng, nhưng đó lại là cùng một ý tưởng đang ở đằng sau sự bùng nổ gần đây của AI tạo ra nhiều điều mới mẻ về mặt đa giác quan.

Các mô hình AI đa dạng là trung tâm của sự bùng nổ của AI tạo ra nhiều điều mới mẻ về mặt đa giác quan. Ví dụ như các trình tạo hình ảnh AI như DALL-E, Stable Diffusion và Midjourney hoàn toàn dựa vào các hệ thống kết nối văn bản với hình ảnh trong quá trình đào tạo. Chúng tìm kiếm các mẫu trong dữ liệu hình ảnh và kết nối thông tin này với các miêu tả về hình ảnh tương ứng. Đó là điều cho phép các hệ thống này tạo ra những bức tranh theo các thông tin văn bản mà người dùng cung cấp.

Meta cho biết rằng mô hình của họ, ImageBind, là mô hình đầu tiên kết hợp sáu loại dữ liệu thành một không gian nhúng duy nhất. Sáu kiểu dữ liệu bao gồm: thông tin thị giác (dưới dạng hình ảnh và video); hình ảnh hồng ngoại; dữ liệu văn bản; âm thanh; thông tin sâu và quan trọng nhất trong số đó - đo chuyển động được tạo bởi đơn vị đo iner (IMU). (IMU được tìm thấy trong điện thoại và đồng hồ thông minh, nơi chúng được sử dụng cho một loạt các nhiệm vụ, từ chuyển đổi một điện thoại từ chế độ ngang sang chế độ dọc cho đến phân biệt giữa các loại hoạt động vật lý khác nhau.)

Ý tưởng là các hệ thống AI trong tương lai sẽ có thể tham khảo dữ liệu này giống như cách các hệ thống AI hiện tại làm cho đầu vào văn bản. Hãy tưởng tượng một thiết bị thực tế ảo tiên tiến cho phép bạn không chỉ tạo ra âm thanh và đầu vào hình ảnh mà còn cho phép bạn quan sát môi trường và chuyển động trên sân khấu vật lý. Bạn có thể yêu cầu nó mô phỏng một chuyến đi đại dương dài và nó sẽ không chỉ đưa bạn lên một con tàu với tiếng sóng ầm ầm phát ra từ xa mà còn tạo ra cảm giác đung đưa trên boong tàu và được thổi mát bởi làn gió biển.

Trong một bài đăng trên blog, Meta cho biết các dòng dữ liệu giác quan khác có thể được thêm vào các mô hình trong tương lai, bao gồm "chạm, nói, mùi và tín hiệu não fMRI". Nó cũng khẳng định rằng nghiên cứu "đưa máy móc một bước gần hơn đến khả năng học hỏi đồng thời, toàn diện và trực tiếp từ nhiều hình thức thông tin khác nhau". (Dù, chắc chắn phải xem các bước nhỏ này là những bước như thế nào.)

Điều này đương nhiên là rất chủ quan và có thể là các ứng dụng ngay lập tức của nghiên cứu này sẽ bị giới hạn hơn nhiều. Ví dụ, năm ngoái, Meta đã trình diễn một mô hình AI tạo ra các video ngắn và mờ từ các miêu tả văn bản. Công việc như ImageBind cho thấy cách các phiên bản tương lai của hệ thống có thể tích hợp các luồng dữ liệu khác, tạo ra âm thanh phù hợp với đầu ra video, chẳng hạn.

Với người quan sát ngành công nghiệp, nghiên cứu này còn thú vị ở chỗ Meta đang chia sẻ công thức cơ bản của mô hình với mã nguồn mở - một thực hành ngày càng bị kiểm soát chặt chẽ trong thế giới AI.

Những người phản đối chia sẻ công thức như OpenAI cho rằng thực hành này sẽ gây hại cho người tạo ra vì đối thủ có thể sao chép công việc của họ và nó có thể tiềm ẩn nguy cơ nguy hiểm cho phép kẻ xấu lợi dụng các mô hình AI tiên tiến. Nhưng những người ủng hộ lại cho biết việc chia sẻ công thức cho phép bên thứ ba kiểm tra các hệ thống để phát hiện các thiếu sót và giải quyết một số vấn đề của chúng. Họ cho rằng điều này có thể mang lại lợi ích thương mại, vì nó cho phép các công ty tuyển dụng các nhà phát triển bên thứ ba làm việc miễn phí để cải thiện công việc của mình.

Meta cho đến nay vẫn tận tuỵ với việc chia sẻ công thức, mặc dù không phải không có khó khăn. Với Meta, sự thiếu thành tích thương mại trong lĩnh vực AI (công ty không có chatbot để cạnh tranh với Bing, Bard hoặc ChatGPT) đã cho phép họ tiếp cận với phương pháp này. Và trong thời gian hiện tại, với ImageBind, công ty đang tiếp tục với chiến lược này.