Những mô hình ngôn ngữ đa phương thức lớn (MLLMs) đã phát triển đáng kể trong những tháng gần đây. Chúng thu hút sự chú ý của mọi người đến các mô hình ngôn ngữ lớn (LLMs), trong đó mọi người có thể thảo luận về hình ảnh đầu vào. Mặc dù những mô hình này có thể hiểu được nội dung tương tự, nhưng chúng không thể giao tiếp với người dùng về vị trí chính xác của vật liệu trong một bức tranh. Cả người dùng và các mô hình không thể cung cấp các vị trí cụ thể cho vật liệu đã nêu trong một bức tranh. Trái lại, như minh họa trong Hình 1, các khu vực hoặc mục đích cụ thể trong cảnh thường được đề cập trong cuộc trò chuyện hàng ngày của con người, và mọi người có thể nói chuyện và chỉ vào các khu vực cụ thể để chia sẻ thông tin hiệu quả.

Hình 1: Mô phỏng Hội thoại Chỉ dẫn (RD). Người dùng có thể đặt câu hỏi và chỉ vào các khu vực cụ thể. Shikra sau đó sẽ, nếu cần, xác định các khu vực đó khi đáp lại.

Họ gọi loại giao tiếp này là hội thoại chỉ dẫn (RD). Nếu MLLM hoạt động trong lĩnh vực này, nhiều ứng dụng hấp dẫn sẽ phát sinh. Người dùng có thể chỉ định bất cứ điều gì để giao tiếp với trợ lý AI, ví dụ như khi sử dụng kính đặc thực hỗn hợp (XR) như Apple Vision Pro. Khi cần thiết, trợ lý AI có thể hiển thị khu vực ngay trong lĩnh vực nhìn thấy. Điều này cũng giúp robot thị giác tương tác với con người bằng cách hiểu các điểm tham chiếu đặc biệt của họ. Việc hỗ trợ người tiêu dùng nắm được thông tin về các đối tượng trong hình ảnh giúp mua sắm trực tuyến. Trong nghiên cứu này, họ phát triển MLLM để hé lộ cuộc trò chuyện dựa trên việc chỉ dẫn.

Các nhà nghiên cứu từ SenseTime Research, SKLSDE, Đại học Beihang và Đại học Shanghai Jiao Tong đã phát triển Shikra, một mô hình thống nhất có thể xử lý đầu vào và đầu ra của tọa độ không gian, đó là những gì họ đã tạo ra. Mọi tọa độ, cả đầu vào và đầu ra, được cung cấp dưới dạng số liệu ngôn ngữ tự nhiên mà không cần sử dụng từ vựng hoặc bộ mã hoá vị trí bổ sung. Một lớp căn chỉnh, một LLM và một bộ mã hoá thị giác là những phần của kiến trúc Shikra. Họ làm cho Shikra thống nhất và đơn giản bằng cách không giới thiệu các mô-đun trước/sau phát hiện hoặc các mô hình cắm vào khác. Họ cung cấp nhiều tương tác người dùng mà người dùng có thể sử dụng để so sánh sự khác biệt giữa các khu vực khác nhau, hỏi về ý nghĩa của hình thu nhỏ, nói về các mục cụ thể, v.v. trên trang web của họ. Shikra có thể trả lời mọi câu hỏi kèm theo lý do, cả bằng giọng nói và địa lý.

Công việc về ngôn ngữ-thị giác (VL) của cuộc trò chuyện chỉ dẫn vượt qua nhiều công việc khác. Shikra, là chuyên gia về RD, có thể tự nhiên thực hiện các nhiệm vụ như Trả lời câu hỏi Bằng hình ảnh (VQA), miêu tả hình ảnh và các nhiệm vụ liên quan đến vị trí, như Hiểu Biểu Đạt Chỉ Dẫn (REC) và chỉ trỏ, với kết quả đáng mong đợi. Ngoài ra, bài báo này còn thảo luận về các vấn đề thú vị như cách miêu tả vị trí trong một bức tranh. Những MLLM trước đây có thể hiểu các vị trí tuyệt đối? Việc sử dụng thông tin địa lý trong quá trình lập luận có thể dẫn đến câu trả lời chính xác hơn cho các câu hỏi? Họ hy vọng những thí nghiệm phân tích này sẽ kích thích nhiều nghiên cứu MLLM hơn trong tương lai.

Các đóng góp chính của bài viết này như sau:

• Bài báo này giới thiệu hoạt động của Hội thoại Chỉ dẫn (RD), đó là một phần quan trọng của giao tiếp con người thông thường và có nhiều ứng dụng thực tế.

• Shikra, một MLLM chung, được cung cấp làm RD. Shikra thân thiện và thống nhất mà không cần thêm từ vựng mới, mô-đun phát hiện trước/sau hoặc các mô hình cắm vào khác.

• Shikra dễ dàng xử lý các cài đặt ẩn, dẫn đến nhiều tình huống ứng dụng khác nhau. Mà không cần điều chỉnh tinh chỉnh, nó cũng cho thấy kết quả tốt trên các nhiệm vụ ngôn ngữ thị giác phổ biến, bao gồm REC, PointQA, VQA và miêu tả hình ảnh. Mã nguồn có sẵn trên GitHub.

Hãy kiểm tra Paper và Liên kết GitHub của chúng tôi. Đừng quên tham gia cộng đồng SubReddit AI 25k của chúng tôi, Kênh Discord và Thư thông báo qua email, nơi chúng tôi chia sẻ tin tức nghiên cứu AI mới nhất, các dự án AI thú vị và hơn thế nữa. Nếu bạn có bất kỳ câu hỏi nào liên quan đến bài viết trên hoặc nếu có điều gì chúng tôi đã bỏ sót, vui lòng gửi email cho chúng tôi theo địa chỉ [email protected]

🚀 Xem 100 công cụ AI trong AI Tools Club

Aneesh Tickoo