Các nhà nghiên cứu trí tuệ nhân tạo từ Meta Platforms Inc. cho biết hôm nay họ đã đạt được tiến bộ đáng kể trong việc tạo ra hình ảnh và video dựa trên trí tuệ nhân tạo.
Facebook và Instagram đã phát triển các công cụ mới cho phép kiểm soát quá trình chỉnh sửa hình ảnh thông qua hướng dẫn bằng văn bản và phương pháp mới cho việc tạo video từ văn bản. Các công cụ mới dựa trên Meta's Expressive Media Universe hoặc Emu, mô hình nền tảng đầu tiên của công ty về việc tạo ra hình ảnh.
EMU đã được công bố vào tháng 9 và hiện được sử dụng trong sản xuất, đưa ra các trải nghiệm như tính năng tưởng tượng Imagine của Meta AI cho phép người dùng tạo ra hình ảnh thực tế trong Messenger. Trong một bài đăng trên blog, các nhà nghiên cứu trí tuệ nhân tạo của Meta giải thích rằng việc tạo ra hình ảnh bằng trí tuệ nhân tạo thường là một quá trình từng bước, trong đó người dùng thử một đề xuất và hình ảnh được tạo ra không hoàn toàn như họ đã nghĩ. Kết quả là, người dùng buộc phải điều chỉnh đề xuất cho đến khi hình ảnh được tạo ra gần giống như họ đã tưởng tượng.
Emu Edit để chỉnh sửa hình ảnh
Công ty Meta muốn loại bỏ quá trình này và mang đến cho người dùng sự kiểm soát chính xác hơn, và đó là mục tiêu của công cụ mới Emu Edit. Nó đề xuất một phương pháp mới trong việc chỉnh sửa hình ảnh, trong đó người dùng chỉ cần nhập các hướng dẫn dựa trên văn bản. Nó có thể thực hiện chỉnh sửa cục bộ và toàn cầu, thêm hoặc xóa nền, biến đổi màu sắc và hình học, phát hiện đối tượng, phân đoạn và nhiều tác vụ chỉnh sửa khác.
"Các phương pháp hiện tại thường có xu hướng hoặc quá chỉnh sửa hoặc không đạt được kết quả tốt trên các tác vụ chỉnh sửa khác nhau," các nhà nghiên cứu đã viết. "Chúng tôi cho rằng mục tiêu chính không chỉ là tạo ra một hình ảnh 'tin được'. Thay vào đó, mô hình nên tập trung vào việc chỉnh sửa chính xác chỉ các pixel liên quan đến yêu cầu chỉnh sửa."
Với mục tiêu đó, Emu Edit được thiết kế để chính xác theo dõi hướng dẫn của người dùng để đảm bảo các pixel không liên quan đến yêu cầu không bị ảnh hưởng bởi việc chỉnh sửa. Ví dụ, nếu người dùng muốn thêm văn bản "Aloha!" vào hình ảnh mũ bóng chày, chính mũ bóng chày không được thay đổi.
Các nhà nghiên cứu cho biết việc kết hợp thị giác máy tính vào hướng dẫn cho các mô hình tạo ra hình ảnh cho phép người dùng có sự kiểm soát chưa từng có trong việc chỉnh sửa hình ảnh.
Emu Edit được huấn luyện trên một bộ dữ liệu chứa 10 triệu mẫu được tổng hợp, mỗi mẫu bao gồm một hình ảnh đầu vào, mô tả của tác vụ cần thực hiện và hình ảnh đầu ra mục tiêu. Các nhà nghiên cứu tin rằng đây là tập dữ liệu lớn nhất từ trước đến nay với loại này, cho phép Emu Edit mang lại kết quả vượt trội về sự trung thực của hướng dẫn và chất lượng hình ảnh.
Emu Video cho việc tạo video
Nhóm trí tuệ nhân tạo của Meta cũng tập trung vào việc cải tiến việc tạo ra video. Các nhà nghiên cứu giải thích rằng quá trình sử dụng trí tuệ nhân tạo tạo video thực tế chất lượng cao thực ra tương tự như việc tạo hình ảnh, chỉ có sự khác biệt là nó liên quan đến việc đưa các hình ảnh đó đến đời bằng việc tạo sự chuyển động.
Công cụ Video Emu tận dụng mô hình Emu và cung cấp một phương pháp đơn giản cho việc tạo video từ văn bản dựa trên mô hình phân tán. Meta cho biết công cụ này có thể phản ứng với các đầu vào khác nhau, bao gồm chỉ có văn bản, chỉ có hình ảnh hoặc cả hai cùng nhau.
Quá trình tạo video được chia thành một vài bước, bước đầu tiên là tạo một hình ảnh được điều kiện bởi một đề mục văn bản, trước khi tạo một video dựa trên hình ảnh đó và một đề mục văn bản khác. Theo nhóm nghiên cứu, phương pháp "phân tách" này mang lại một cách rất hiệu quả để huấn luyện các mô hình tạo video.
"Chúng tôi chứng minh rằng việc tạo video phân tách có thể thực hiện thông qua một mô hình phân tán duy nhất," các nhà nghiên cứu viết. "Chúng tôi trình bày các quyết định thiết kế quan trọng, chẳng hạn như điều chỉnh lịch trình nhiễu cho sự phân tán video và huấn luyện nhiều giai đoạn cho phép chúng tôi tạo trực tiếp các video có độ phân giải cao hơn."
Meta cho biết ưu điểm của phương pháp mới này là nó đơn giản hơn trong việc triển khai, chỉ sử dụng một cặp mô hình phân tán để tạo ra một video có độ phân giải 512x512, thời lượng 4 giây, với 16 hình/giây, so với công cụ Make-A-Video cũ của họ, sử dụng năm mô hình. Công ty cho biết các đánh giá của con người về công việc này cho thấy nó được "thích hơn rất nhiều" so với công việc trước đó về tạo hình ảnh đối với chất lượng tổng thể và tính trung thực đối với đề mục văn bản gốc.
Emu Video cũng có những khả năng khác, bao gồm khả năng tạo hoạt hình cho hình ảnh của người dùng dựa trên đề mục văn bản đơn giản, và một lần nữa nó vượt trội so với công việc trước đây.
Hiện tại, nghiên cứu của Meta về chỉnh sửa hình ảnh và tạo video bằng trí tuệ nhân tạo đang tiếp tục, nhưng nhóm nhấn mạnh rằng công nghệ này có nhiều ứng dụng thú vị. Ví dụ, nó có thể giúp người dùng tạo các hình dán hoạt hình và GIF riêng của họ ngay lập tức, thay vì tìm kiếm những cái đã tồn tại phù hợp với ý tưởng họ muốn chuyển đổi. Nó cũng có thể giúp mọi người chỉnh sửa ảnh riêng của họ mà không cần sử dụng các công cụ phức tạp như Photoshop.
Công ty cũng cho biết các mô hình mới nhất của họ không thể thay thế các nghệ sĩ và nhà hoạt họa chuyên nghiệp trong thời gian ngắn. Thay vào đó, tiềm năng của chúng nằm ở việc giúp mọi người tự thể hiện mình theo cách mới.
Hình ảnh: Meta AI
“TheCUBE là một đối tác quan trọng của ngành công nghiệp. Bạn thật sự là một phần của sự kiện của chúng tôi và chúng tôi rất đánh giá cao bạn đã tới và tôi biết mọi người cũng đánh giá cao nội dung mà bạn tạo ra” - Andy Jassy
CẢM ƠN BẠN