Trong vài tháng qua, AI sinh sản đã trở nên ngày càng phổ biến. Từ nhiều tổ chức đến các nhà nghiên cứu AI, ai cũng đang khám phá tiềm năng lớn mà AI sinh sản nắm giữ để tạo ra nội dung độc đáo và độc đáo. Với sự giới thiệu của Large Language Models (LLMs), nhiều nhiệm vụ được thực hiện một cách thuận tiện. Các mô hình như DALL-E, được phát triển bởi OpenAI, cho phép người dùng tạo hình ảnh thực tế từ một lời nhắn văn bản, đã được sử dụng bởi hơn một triệu người dùng. Mô hình sinh hình ảnh từ văn bản này tạo ra hình ảnh chất lượng cao dựa trên mô tả văn bản đã nhập.

Để tạo ra hình ảnh 3 chiều, dự án mới đã được phát hành gần đây bởi OpenAI. Được gọi là Shap - E, mô hình sinh ra điều kiện này đã được thiết kế để tạo ra tài sản 3D. Khác với các mô hình truyền thống chỉ tạo ra một biểu diễn đầu ra duy nhất, Shap-E tạo ra các thông số của các chức năng tiềm ẩn. Các chức năng này có thể được đưa ra dưới dạng phẳng lưới được đánh vẽ hoặc các trường phản xạ thần kinh (NeRF), cho phép tạo ra các tài sản 3D đa dạng và chân thực.

Trong quá trình đào tạo Shap · E, các nhà nghiên cứu đã đào tạo trình mã hóa trước tiên. Bộ mã hóa này nhận các tài sản 3D làm đầu vào và ánh xạ chúng vào các thông số của một chức năng tiềm ẩn. Điều này giúp cho mô hình học các biểu diễn cơ bản của các tài sản 3D một cách đầy đủ. Tiếp theo, mô hình truyền khí hậu điều kiện đã được đào tạo bằng cách sử dụng các đầu ra của bộ mã hóa. Mô hình truyền khí hậu điều kiện học phân phối điều kiện của các tham số chức năng tiềm ẩn được cung cấp dữ liệu đầu vào và do đó tạo ra các tài sản 3D đa dạng và phức tạp bằng cách lấy mẫu từ phân phối đã học. Mô hình truyền khí hậu được đào tạo bằng bộ dữ liệu lớn của các cặp tài sản 3D và mô tả văn bản tương ứng của chúng.

Shap - E bao gồm các biểu diễn thần kinh tiềm ẩn (INRs) cho các biểu diễn 3D. Các biểu diễn thần kinh tiềm ẩn mã hóa các tài sản 3D bằng cách ánh xạ tọa độ 3D thành thông tin cụ thể về vị trí, chẳng hạn như mật độ và màu sắc, để biểu thị một tài sản 3D. Chúng cung cấp một khung viề điều kiện linh hoạt bằng cách bắt các tính chất hình học chi tiết của các tài sản 3D. Hai loại INR mà nhóm đã thảo luận là -

Trường phản xạ thần kinh (NeRF) - NeRF biểu thị các cảnh 3D bằng cách ánh xạ tọa độ và hướng quan sát thành mật độ và màu RGB. NeRF có thể được phát ra từ các điểm nhìn tùy ý, cho phép phát hiện chính xác và chân thực của cảnh, và có thể được đào tạo để phù hợp với phát hiện chắc chắn.

DMTet và tiện ích GET3D của nó - Những INR này đã được sử dụng để biểu diễn một lưới tam giác 3D được đánh vẽ bằng cách ánh xạ tọa độ thành màu sắc, khoảng cách có dấu và lệch tọa độ. Bằng cách sử dụng các chức năng này, tam giác lưới 3D có thể được xây dựng theo cách có thể khác nhau.

Nhóm đã chia sẻ một vài ví dụ về kết quả của Shap · E, bao gồm các kết quả 3D cho các thông báo văn bản, bao gồm một cái chén thức ăn, một con chim cánh cụt, một con chó voxelized, một đám lửa, một cái ghế có hình như một trái bơ, và còn nhiều hơn nữa. Các mô hình kết quả được đào tạo với Shap · E đã chứng minh hiệu suất tuyệt vời của mô hình. Nó có thể sản xuất đầu ra chất lượng cao chỉ trong vài giây. Để đánh giá, Shap · E đã được so sánh với một mô hình sinh ra khác được gọi là Point · E, chuyên tạo ra các biểu diễn rõ ràng trên các đám mây điểm. Mặc dù mô hình hóa nhiều không gian và đa biểu diễn hơn, Shap · E so sánh đã hiển thị sự hội tụ nhanh hơn và đạt được chất lượng mẫu tương đương hoặc tốt hơn.

Tóm lại, Shap · E là một mô hình sinh ra có hiệu quả và tiết kiệm cho các tài sản 3D. Nó có vẻ rất hứa hẹn và là một đóng góp quan trọng cho những đóng góp của AI sinh sản.

Hãy kiểm tra nghiên cứu Paper,  mã Code và các mẫu. Đừng quên tham gia Hạt nhân 20k ML SubReddit, Kênh Discord của chúng tôi và Danh sách Thư Email, nơi chúng tôi chia sẻ tin tức nghiên cứu AI mới nhất, dự án AI hay và hơn thế nữa. Nếu bạn có bất kỳ câu hỏi nào liên quan đến bài viết trên hoặc nếu chúng tôi bỏ sót bất cứ điều gì, hãy gửi email cho chúng tôi tại [email protected].