Cách đây một năm, tạo hình ảnh thực tế bằng trí tuệ nhân tạo (AI) là một giấc mơ. Chúng tôi rất ấn tượng với những khuôn mặt được tạo ra giống như thật, mặc dù đa số là có ba mắt, hai mũi, v.v. Tuy nhiên, điều đã thay đổi khá nhanh chóng với việc phát hành các mô hình truyền dẫn. Ngày nay, khó phân biệt được hình ảnh được tạo ra bởi AI với hình ảnh thật.
Khả năng tạo ra các hình ảnh chất lượng cao là một phần trong việc giải quyết vấn đề này. Nếu chúng ta sử dụng chúng một cách đúng đắn, việc nén chúng một cách hiệu quả đóng vai trò quan trọng trong nhiều nhiệm vụ như sinh nội dung, lưu trữ dữ liệu, truyền tải và tối ưu hóa băng thông. Tuy nhiên, việc nén hình ảnh chủ yếu phụ thuộc vào các phương pháp truyền thống như mã hóa chuyển đổi và các kỹ thuật định lượng, với việc giới hạn thử nghiệm các mô hình sinh.
Mặc dù thành công trong việc tạo ra hình ảnh, các mô hình truyền dẫn và các mô hình sinh dựa trên điểm số chưa phải là các phương pháp tiên tiến nhất cho việc nén hình ảnh, đứng sau các phương pháp dựa trên mô hình GAN. Họ thường hoạt động kém hơn hoặc tương đương với các phương pháp dựa trên GAN như HiFiC đối với các hình ảnh có độ phân giải cao. Ngay cả việc thử tái sử dụng các mô hình từ văn bản - hình ảnh cho nén hình ảnh cũng đã cho ra kết quả không đáng hài lòng, sản xuất ra các phục hồi khác biệt so với đầu vào ban đầu hoặc chứa các tác phẩm nghệ thuật không mong muốn.
Sự khác biệt về hiệu suất giữa các mô hình sinh dựa trên điểm số trong các tác vụ tạo hình ảnh và sự thành công hạn chế trong việc nén hình ảnh đặt ra các câu hỏi hấp dẫn và thúc đẩy nghiên cứu tiếp tục. Điều đáng ngạc nhiên là các mô hình có khả năng tạo ra hình ảnh chất lượng cao không thể vượt qua GAN trong tác vụ cụ thể của việc nén hình ảnh. Sự khác biệt này gợi ý rằng có thể có những thách thức và quan điểm đặc biệt khi áp dụng các mô hình sinh dựa trên điểm số vào các nhiệm vụ nén, đòi hỏi phải có các phương pháp chuyên biệt để tận dụng toàn bộ tiềm năng của chúng.
Vì vậy, chúng ta biết rằng có tiềm năng để sử dụng các mô hình sinh dựa trên điểm số trong nén hình ảnh. Câu hỏi là, làm thế nào có thể thực hiện được điều đó? Chúng ta hãy đào sâu vào câu trả lời.
Các nhà nghiên cứu của Google đề xuất một phương pháp kết hợp một bộ mã hóa tự động tiêu chuẩn, được tối ưu hóa cho sai số bình phương trung bình (MSE), với một quy trình truyền dẫn để khôi phục và thêm các chi tiết tinh tế bị bỏ qua bởi bộ mã hóa tự động. Tốc độ bit để mã hóa một bức ảnh chỉ được xác định bởi bộ mã hóa tự động, vì quá trình truyền dẫn không cần thêm bit. Bằng cách điều chỉnh lại các mô hình truyền dẫn nhằm mục đích nén hình ảnh cụ thể, đã chứng minh rằng chúng có thể vượt xa một số phương pháp sinh mới đây về chất lượng hình ảnh. Phương pháp được đề xuất có thể bảo tồn chi tiết tốt hơn so với các phương pháp tiên tiến hiện tại.
Phương pháp đề xuất khám phá hai phương pháp liên quan chặt chẽ: các mô hình truyền dẫn, có hiệu suất ấn tượng nhưng yêu cầu một số bước lấy mẫu lớn, và các luồng chỉnh sửa, hoạt động tốt hơn khi cho phép ít bước lấy mẫu hơn.
Phương pháp hai bước bao gồm: trước tiên mã hóa hình ảnh đầu vào bằng bộ mã hóa tự động được tối ưu hóa cho MSE và sau đó áp dụng quy trình truyền dẫn hoặc các luồng chỉnh sửa để cải thiện tính thực tế của phục hồi. Mô hình truyền dẫn sử dụng một lịch trình nhiễu được dịch ngược so với các mô hình văn bản-hình ảnh, ưu tiên các chi tiết hơn là cấu trúc toàn cục. Trong khi đó, mô hình luồng chỉnh sửa tận dụng cặp được cung cấp bởi các đầu ra bộ mã hóa tự động để ánh xạ trực tiếp đầu ra bộ mã hóa tự động đến các hình ảnh không bị nén.
Ngoài ra, nghiên cứu đã tiết lộ các chi tiết cụ thể có thể hữu ích cho nghiên cứu trong tương lai trong lĩnh vực này. Ví dụ, đã cho thấy rằng lịch trình nhiễu và lượng nhiễu được tiêm trong quá trình sinh hình ảnh ảnh hưởng đáng kể đến kết quả. Thú vị là trong khi các mô hình văn bản-hình ảnh được hưởng lợi từ việc tăng mức độ tiếng ồn khi huấn luyện trên hình ảnh có độ phân giải cao, được tìm thấy là giảm nhiễu chung của quá trình truyền dẫn là có lợi cho nén. Điều chỉnh này cho phép mô hình tập trung hơn vào các chi tiết tinh tế, vì các chi tiết thô đã được bộ phục hồi của bộ mã hóa tự động bắt đầu bắt được.
Hãy kiểm tra Bài báo. Đừng quên tham gia SubReddit ML 24k của chúng tôi, Kênh Diễn đàn, và Bản tin qua Email, nơi chúng tôi chia sẻ tin tức nghiên cứu AI mới nhất, các dự án AI thú vị và nhiều hơn nữa. Nếu bạn có bất kỳ câu hỏi nào liên quan đến bài viết trên hoặc nếu chúng tôi đã bỏ sót điều gì, hãy gửi email cho chúng tôi tại [email protected].
Kiểm tra 100 Công cụ AI trong AI Tools Club
Ekrem Çetinkaya
➡️ Thử nghiệm: Ake: Mạng lưới Proxy Cư trú Siêu tốt (Tài trợ)