Trí tuệ nhân tạo và học máy đã là những dự án đam mê của Google trong vài năm qua và bài phát biểu chính của Google I/O 2023 chỉ bày tỏ điều đó rõ ràng hơn. Tạo hình ảnh là một trong những ứng dụng hấp dẫn nhất của công nghệ này và những nỗ lực của Google trong lĩnh vực này được hiện thực hóa dưới dạng công cụ tạo hình ảnh dựa trên văn bản gọi là Imagen, tương tự như Midjourney và DALL-E 2. Bây giờ, Google đang chia sẻ nghiên cứu về Imagen Editor, nơi những gợi ý văn bản và một ít phác thảo có thể đủ để thực hiện chỉnh sửa cục bộ cho ảnh.

Tiện ích Imagen của Google đã thành thạo trong việc tạo ra hình ảnh hoàn toàn từ các gợi ý văn bản. Tuy nhiên, nếu bạn không hài lòng với kết quả, bạn thường phải sắp xếp lại lời nhắc của mình và tinh chỉnh nó, và cho máy tạo ảnh một lần nữa, chỉ vì Imagen chưa cho phép chỉnh sửa các yếu tố cụ thể của ảnh bạn không hài lòng. Để giải quyết vấn đề này, Google đã đưa ra nghiên cứu về Imagen Editor và EditBench, các tiện ích hiện đang trong quá trình beta, nhưng có khả năng hướng dẫn chỉnh sửa với gợi ý văn bản.

Thay vì tạo hình ảnh mới bằng cách sử dụng một gợi ý, Imagen Editor cần một bức ảnh cần được chỉnh sửa, một gợi ý văn bản từ người dùng xác định sự thay đổi, và một khu vực được chỉnh sửa xác định nơi mà sự thay đổi cần được áp dụng. Kết quả là các chỉnh sửa giới hạn trong khu vực bạn xác định, phù hợp với các gợi ý được cung cấp và có kết quả giống thật và tự nhiên.

Kỹ thuật được gọi là inpainting, quá trình mà công cụ mới của Google sử dụng tương tự như một công cụ khôi phục hình ảnh hoặc chúng ta có thể mô tả tốt nhất là sự kết hợp giữa trí tuệ nhân tạo của Google và Content Aware Fill của Adobe Photoshop. Các nhà nghiên cứu đã phát triển các bộ mã hóa mới cho Imagen Editor và bao gồm cả một mô đun phát hiện đối tượng trong trí tuệ nhân tạo để bù đắp cho những khu vực chưa được đánh dấu hoặc có bản vẽ chưa chính xác.

Imagen-Editor-Deer-Results-anim

Nghiên cứu cũng bao gồm một công cụ được gọi là EditBench để đánh giá kết quả của inpainting dựa trên văn bản. Dựa trên bộ dữ liệu 240 hình ảnh, bài kiểm tra đã đánh giá các chỉnh sửa trên cả hình ảnh do con người và hình ảnh được tạo ra bởi trí tuệ nhân tạo trên các tham số như các đối tượng được sửa đổi, các thuộc tính của chúng như hình dạng, kích thước, số lượng và phù hợp với cảnh quan sát. Google đã nhận thấy rằng việc đánh dấu đối tượng giúp cải thiện sự tương quan giữa hình ảnh và văn bản, làm Imagen Editor tốt hơn các lựa chọn khác như DALL-E 2 và StableDiffusion trong tất cả các danh mục trên EditBench.

Thật không may, Google có những lo ngại không xác định liên quan đến việc sử dụng trí tuệ nhân tạo một cách có trách nhiệm và đó chính là lý do tại sao công ty này sẽ không phát hành Imagen Editor. Công ty đã đề xuất một khung hình để bảo vệ việc phát triển trí tuệ nhân tạo và hi vọng rằng một vài giới hạn nghiêm ngặt có thể được thiết lập trước khi cho phép mọi người truy cập vào các công cụ như Imagen Editor. Mặt khác, EditBench được cung cấp hoàn toàn miễn phí để giúp nghiên cứu trí tuệ nhân tạo phát triển hơn. Trong khi đó, chúng tôi hy vọng mô hình cơ bản của Imagen sẽ được tích hợp vào Gboard sớm.