Mô hình hóa ba chiều (3D) đã trở nên quan trọng trong nhiều lĩnh vực, chẳng hạn như kiến trúc và kỹ thuật. Mô hình 3D là các đối tượng hoặc môi trường được tạo ra trên máy tính có thể được thao tác, hoạt hình và hiển thị từ các góc độ khác nhau để cung cấp một biểu đồ hình ảnh thực tế của thế giới vật lý. Việc tạo mô hình 3D có thể tốn nhiều thời gian và chi phí, đặc biệt là đối với các đối tượng phức tạp. Tuy nhiên, các nâng cao gần đây trong lĩnh vực thị giác máy tính và học máy đã làm cho việc tạo ra các mô hình hoặc cảnh 3D từ một hình ảnh đầu vào trở nên khả thi.

Việc tạo ra cảnh 3D liên quan đến việc sử dụng các giải thuật trí tuệ nhân tạo để học cấu trúc cơ bản và tính chất hình học của một đối tượng hoặc môi trường từ một hình ảnh duy nhất. Quá trình này thường bao gồm hai giai đoạn: giai đoạn đầu tiên liên quan đến việc trích xuất hình dạng và cấu trúc của đối tượng, và giai đoạn thứ hai bao gồm việc tạo ra texture và diện mạo của đối tượng.

Trong những năm gần đây, công nghệ này đã trở thành một chủ đề nóng trong cộng đồng nghiên cứu. Cách tiếp cận cổ điển cho việc tạo ra cảnh 3D liên quan đến việc học các đặc trưng hoặc đặc tính của một cảnh được trình bày trong hai chiều. Ngược lại, các tiếp cận mới khai thác việc dùng phân tích tích phân, cho phép tính toán các đạo hàm của hình ảnh được hiển thị với các thông số hình học đầu vào.

Tuy nhiên, tất cả các kỹ thuật này, thường được phát triển để giải quyết công việc này cho các nhóm đối tượng cụ thể, cung cấp các cảnh 3D có phạm vi hạn chế, chẳng hạn như những biểu hiện đại diện cho biên độ địa hình với các thay đổi nhỏ.

Một phương pháp tiếp cận mới cho việc tạo ra cảnh 3D đã được đề xuất để giải quyết giới hạn này. Mục tiêu của nó là tạo ra các cảnh tự nhiên có các tính năng độc đáo phát sinh từ sự tương phản giữa hình học và diện mạo của các thành phần cấu thành chúng. Tính đặc thù của các tính năng này khiến cho việc học các đặc điểm chung của các hình ảnh trở nên thách thức.

Trong các trường hợp tương tự, phương pháp mẫu được áp dụng, liên quan đến việc điều khiển một mô hình mẫu phù hợp để xây dựng một mô hình mục tiêu phong phú hơn. Do đó, mô hình mẫu nên có các đặc điểm tương tự với mô hình mục tiêu để kỹ thuật này có hiệu quả.

Tuy nhiên, có các cảnh mẫu khác nhau với các tính năng cụ thể khiến cho việc áp dụng các thiết kế phù hợp cho mọi loại cảnh trở nên khó khăn.

Do đó, phương pháp được đề xuất sử dụng một giải thuật dựa trên miếng vá, đã được sử dụng trước đó lâu hơn các công nghệ sâu hơn. Các bước xử lý được trình bày trong hình dưới đây.

Cụ thể, một khung viền sản xuất nhiều tầng bao gồm các miếng vá dựa trên mô hình gần nhất sinh ra (GPNN) được áp dụng để tối đa hóa tóm tắt hai chiều kéo và đẩy giữa đầu vào và đầu ra.

Phương pháp này sử dụng Plenoxels, một lĩnh vực phái sinh dựa trên lưới, được biết đến với các hiệu ứng thị giác ấn tượng của nó, để đại diện cho cảnh đầu vào. Trong khi cấu trúc đều và đơn giản của nó có lợi cho các giải thuật dựa trên miếng vá, những thiết kế quan trọng nhất phải được triển khai. Cụ thể, kim tự tháp mẫu được xây dựng qua quá trình huấn luyện của Plenoxels từ thô đến tinh trong ảnh của cảnh đầu vào thay vì chỉ đơn giản là thu nhỏ một mô hình được huấn luyện trước độ phân giải cao. Hơn nữa, các tính năng ở nhiều chiều, bất kỳ tại mỗi cấp độ dựa trên Plenoxels, nhiễu nhiều, và giới hạn đại số được chuyển đổi thành các tính năng hình học và diện mạo được xác định và nhất quán để tăng cường tính ổn định và hiệu quả trong việc khớp miếng vá tiếp theo.

Hơn nữa, nghiên cứu này sử dụng các biểu diễn đa dạng cho quá trình tổng hợp trong khung viền sinh sản gần nhất. Việc khớp miếng và trộn diễn ra đồng thời ở mỗi cấp độ để dần tổng hợp một cảnh giá trị trung gian, cuối cùng, sẽ được chuyển đổi thành một phiên bản dựa trên tọa độ.

Cuối cùng, việc sử dụng các giải thuật dựa trên miếng và voxels có thể dẫn đến yêu cầu tính toán lớn. Do đó, một giải thuật NNF trường gần nhất chính xác đến xấp xỉ được sử dụng trong kim tự tháp, giữ cho không gian tìm kiếm trong phạm vi quản lý trong khi chỉ làm những khoản tiền xử lý nhỏ với sự tối ưu hóa tóm tắt hình ảnh tối thiểu.

Các kết quả đạt được bởi mô hình này được báo cáo dưới đây cho một số hình ảnh ngẫu nhiên.

Đây là tóm tắt một khung viền trí tuệ nhân tạo mới để cho phép tạo ra các cảnh 3D phong phú hình ảnh từ hình ảnh. Nếu bạn quan tâm, bạn có thể tìm hiểu thêm về kỹ thuật này bằng các liên kết bên dưới.

🚀 Hãy Xem Qua Hàng Trăm Công Cụ Trí Tuệ Nhân Tạo trong AI Tools Club

Daniele Lorenzi

➡️ Đang Hot: Các Máy Chủ Proxy Tốt Nhất 2023

"