Table of contents

Phóng to / Làng cổ xoắn AI ban đầu đã nắm bắt đến mức thu hút mạng xã hội, được tạo ra bằng Stable Diffusion và ControlNet. Vào ngày Chủ nhật, một người dùng Reddit có tên là "Ugleh" đăng một bức ảnh phát sinh bởi trí tuệ nhân tạo về một ngôi làng thời Trung cổ hình xoắn được chú ý nhanh chóng trên mạng xã hội vì những đặc điểm hình học đáng kinh ngạc. Những bài viết tiếp theo nhận được nhiều lời khen ngợi hơn nữa, bao gồm một tweet với hơn 145.000 lượt thích. Ugleh tạo ra những bức ảnh này bằng cách sử dụng Stable Diffusion và một kỹ thuật điều hướng được gọi là ControlNet.

The original AI-generated spiral village that captivated social media, created using Stable Diffusion and ControlNet.

Các phản ứng trực tuyến đối với tác phẩm nghệ thuật này đã có sự kỳ diệu và sự ngưỡng mộ, cũng như sự tôn trọng với việc phát triển một điều mới mẻ trong nghệ thuật AI sinh tạo. "Chưa bao giờ thấy bức tranh như thế này. Một thứ mới mẻ trong thế giới nghệ thuật," viết một người dùng X. "Thật ra, tôi đã nhìn thấy RẤT NHIỀU tác phẩm nghệ thuật trí tuệ nhân tạo, đã ở trong lĩnh vực này trong một thời gian dài, và đây là một trong những tác phẩm tuyệt vời nhất mà tôi từng nhìn thấy. Công việc của bạn thật tuyệt vời," viết nghệ sĩ AI Kali Yuga trên X.

Có lẽ đáng chú ý nhất là đồng sáng lập Y-Combinator và nhà bình luận công nghệ truyền thông xã hội thường xuyên Paul Graham viết, "Đây là điểm mà nghệ thuật do trí tuệ nhân tạo tạo ra vượt qua Cuộc thử Turing đối với tôi." Trong khi Graham đang ám chỉ Cuộc thử Turing (mục đích là kiểm tra xem hành vi của máy có khác biệt so với con người hay không) như một phép ẩn dụ thay vì nghĩa đen, ông rõ ràng đã ấn tượng.

Không phải ai cũng ấn tượng, dĩ nhiên, với một số người dùng X cố gắng 'phân tách' các yếu tố cấu thành của ngôi làng xoắn ốc được tạo ra bởi trí tuệ nhân tạo. 'Nó đẹp, nhưng có nhiều quyết định một con người sẽ không bao giờ làm,' một nhà thiết kế đồ họa có tên Trent viết. 'Nhiều bóng không đúng, và việc đặt ống khói ngay phía trên cửa sổ không có ý nghĩa. Nếu phóng to, còn có những mẫu nhiễu đặc trưng của nghệ thuật trí tuệ nhân tạo.'"

"Quảng cáo: Vào tháng 6, chúng tôi đã khám phá một kỹ thuật sử dụng mô hình tổng hợp hình ảnh AI Stable Diffusion và ControlNet để tạo ra các mã QR có vẻ như các tác phẩm nghệ thuật phong phú, bao gồm nghệ thuật lấy cảm hứng từ anime. Ugleh sử dụng cùng mạng thần kinh để tối ưu hóa việc tạo ra những mã QR đó (chúng cũng là hình học) và đưa vào đó những hình ảnh đơn giản của các xoắn ốc và sơ đồ ô cờ."

"Khi được hướng dẫn bởi 'Cảnh ngôi làng thời Trung Cổ với đường phố đông đúc và lâu đài ở xa (kiệt tác:1.4), (chất lượng tốt nhất), (chi tiết),' ControlNet đã tạo ra các cảnh mà các yếu tố nghệ thuật của hình ảnh phù hợp với các hình dạng cảm giác của xoắn ốc và ô cờ. Trong một hình ảnh, những đám mây cong trên đầu và mọi người đứng theo một vòng cung nhẹ để phù hợp với chỉ dẫn xoắn ốc. Trong hình ảnh khác, các ô đám mây, cánh đồng, mặt tòa nhà và xe ngựa tạo thành một cảnh hình ô cờ."

"

Phép màu từ ControlNet

"

"Vậy làm thế nào nó hoạt động? Chúng tôi đã nhiều lần trình bày về Stable Diffusion trước đó. Đó là một mô hình mạng thần kinh được đào tạo trên hàng triệu hình ảnh được thu thập từ Internet. Nhưng chìa khóa ở đây là ControlNet, lần đầu xuất hiện trong một bài báo nghiên cứu có tựa đề 'Thêm Kiểm Soát Điều Kiện vào Mô Hình Phân Tán Văn Bản-Ảnh' do Lvmin Zhang, Anyi Rao và Maneesh Agrawala viết vào tháng hai năm 2023, và nhanh chóng trở nên phổ biến trong cộng đồng Stable Diffusion."

"Thường, một hình ảnh Stable Diffusion được tạo ra bằng cách sử dụng một gợi ý văn bản (gọi là text2image) hoặc một gợi ý hình ảnh (img2img). ControlNet giới thiệu hướng dẫn bổ sung có thể có dạng thông tin được trích xuất từ một hình ảnh nguồn, bao gồm phát hiện tư thế, bản đồ độ sâu, bản đồ bình thường, phát hiện cạnh và nhiều hơn nữa. Bằng cách sử dụng ControlNet, người tạo nghệ thuật AI có thể tái tạo gần như hình dạng hoặc tư thế của một đối tượng trong một hình ảnh."

"
  • Một ảnh chụp màn hình của quá trình ControlNet của Ugleh, được sử dụng để tạo ra một số hình ảnh." '
  • ''
  • Mẫu xoắn ốc được sử dụng để hướng dẫn ControlNet tạo ra ngôi làng thời Trung Cổ. "
  • '
  • Mẫu kẻ ô được sử dụng để tạo ra một số tác phẩm của Ugleh.

Sử dụng ControlNet và các lệnh tương tự, dễ dàng sao chép công việc của Ugleh, và người khác đã làm điều đó một cách vui nhộn, bao gồm các nhân vật trong anime kẻ ô, một bộ phim hoạt hình, làng thời Trung cổ "goatse" (ngạc nhiên an toàn để làm việc), và một phiên bản làng thời Trung cổ của "Cô gái với chiếc đồng hồ chạm".

Quảng cáo Dù có sự chú ý đáng kể và nhiều lời đề nghị chuyển tác phẩm nghệ thuật thành NFT, Ugleh đã quyết định giữ một hình ảnh thấp cho đến lúc này. Trên trang X, anh ta đã nói rằng [TÔI] trân trọng mọi phản hồi tích cực đối với nghệ thuật AI, tôi không có kế hoạch kiếm tiền từ những thế hệ mới nhất của mình và tôi sẽ không tham gia bất kỳ cuộc phỏng vấn chính thức nào. Tôi chỉ là một kẻ mê công nghệ AI thông thái bình thường đã thử nghiệm với một kỹ thuật ControlNet mới."

Nếu bạn muốn thử nghiệm với ControlNet, trang web này có hướng dẫn tốt. Ngoài ra, Ugleh đã đăng một luồng công việc từng bước, bao gồm các tệp mẫu xoắn và bàn cờ, trên Imgur.

Mặc dù tác phẩm nghệ thuật rất đáng chú ý, chính sách bản quyền hiện tại của Hoa Kỳ cho thấy rằng các hình ảnh này không đạt đủ tiêu chuẩn để nhận được sự bảo hộ bản quyền, do đó có thể nằm trong phạm vi công cộng. Mặc dù nghệ thuật được tạo ra bởi trí tuệ nhân tạo vẫn là một vấn đề gây tranh cãi về mặt đạo đức và pháp lý đối với nhiều người, những người yêu nghệ thuật sáng tạo tiếp tục đẩy xa giới hạn của những gì mà một người không có kỹ năng hoặc đào tạo có thể làm bằng cách sử dụng những công cụ mới này. Vẫn chưa rõ liệu pháp luật có thể nhận ra bao giờ và như thế nào ngọn lửa cần thiết của bản nguồn cảm hứng con người sẽ làm cho các tác phẩm như thế này trở thành hiện thực.