Các mô hình thu nhỏ khu vui chơi dành cho trẻ em được nhìn thấy trước logo Meta hiển thị trong hình minh họa chụp vào ngày 4 tháng 4 năm 2023. REUTERS/Dado Ruvic/Illustration/Hình ảnh hàng hóa Mua Quyền Cấp Phép
NEW YORK, Ngày 22 tháng 8 (Reuters) - Công ty mẹ của Facebook, Meta Platforms (META.O) đã phát hành một mô hình trí tuệ nhân tạo có khả năng dịch và ghi chú âm thanh trong hàng chục ngôn ngữ, là một khối xây dựng tiềm năng cho các công cụ cho phép giao tiếp thời gian thực qua các rào cản ngôn ngữ.
Công ty cho biết trong bài đăng trên blog rằng mô hình SeamlessM4T của họ có thể hỗ trợ dịch giữa văn bản và âm thanh trong gần 100 ngôn ngữ, cũng như dịch giọng nói sang giọng nói hoàn chỉnh cho 35 ngôn ngữ, kết hợp công nghệ trước đây chỉ có sẵn trong các mô hình riêng lẻ.
CEO Mark Zuckerberg đã nói ông hình dung những công cụ như vậy sẽ tạo điều kiện cho giao tiếp giữa người dùng trên toàn cầu trong thế giới ảo, tức tập hợp các thế giới ảo kết nối trên đó ông đặt cược cho tương lai của công ty.
Meta đang làm mô hình này sẵn có cho cộng đồng sử dụng phi thương mại, theo đăng trên blog.
Công ty truyền thông xã hội lớn nhất thế giới đã phát hành nhiều mô hình trí tuệ nhân tạo miễn phí hầu hết trong năm nay, bao gồm một mô hình ngôn ngữ lớn có tên là Llama đặt ra một thách thức nghiêm trọng cho các mô hình chủ quyền do Microsoft-backed (MSFT.O) OpenAI và Alphabet's (GOOGL.O) Google bán.
Zuckerberg cho hay một hệ sinh thái trí tuệ nhân tạo hở, làm việc trong lợi ích của Meta, vì công ty có nhiều điều để đạt được bằng cách tạo ra các công cụ dựa trên người dùng cho các nền tảng xã hội của mình hơn là tính phí truy cập vào các mô hình.
Tuy nhiên, Meta đối mặt với các vấn đề pháp lý tương tự như ngành công nghiệp khác liên quan đến dữ liệu huấn luyện được sử dụng để tạo ra các mô hình của họ.
Vào tháng 7, nghệ sĩ hài Sarah Silverman và hai tác giả khác đã đệ đơn kiện vi phạm bản quyền chống lại cả Meta và OpenAI, cáo buộc hai công ty sử dụng sách của họ làm dữ liệu huấn luyện mà không có sự cho phép.
Đối với mô hình SeamlessM4T, các nhà nghiên cứu của Meta đã nói trong một bài báo nghiên cứu rằng họ đã thu thập dữ liệu huấn luyện âm thanh từ 4 triệu giờ "âm thanh nguyên bản trích xuất từ kho dữ liệu web được công bố công khai," mà không nêu rõ kho dữ liệu đó là gì.
Một người phát ngôn viên của Meta không trả lời câu hỏi về nguồn gốc của dữ liệu âm thanh.
Dữ liệu văn bản được lấy từ các bộ dữ liệu được tạo năm ngoái và thu thập nội dung từ Wikipedia và các trang web liên quan, theo báo cáo nghiên cứu.
Bài viết của Katie Paul, Chỉnh sửa bởi Rosalba O'Brien.
Tiêu chuẩn của chúng tôi: Nguyên tắc tin cậy của Thomson Reuters.