2D影片到3D建模：NVIDIA Neuralangelo AI模型開啟數位文藝復興

NVIDIA昨天發布一種新的AI模型Neuralangelo，利用神經網路能夠進行3D重建，將2D影片片段轉化為詳細的3D結構。從生成建築物、雕塑和其他現實世界對象的逼真的虛擬物件都可以實現。

Harris Chang June 2, 2023 — 4 minutes read

2D影片到3D建模：NVIDIA Neuralangelo AI模型開啟數位文藝復興

就像米開朗基羅能夠用大理石塊雕刻出令人驚嘆、栩栩如生的雕像一樣，Neuralangelo可以生成帶有錯綜複雜的細節和紋理的3D結構，後續讓專業人員可以將這些3D對象導入設計應用程序，進一步編輯它們。用於藝術、影片、遊戲開發、機器人技術和工業數位等。

Neuralangelo 能夠將複雜材料的紋理（包括屋頂瓦片、玻璃窗格和光滑的大理石）從2D影片轉換為3D建模資源，遠超過先前的方法。高度的保真度使其 3D 重建更易於開發人員和專業人員使用智能手機捕捉的影片快速創建可用的虛擬物件，並且用於他們的專案。

NVIDIA的高級研究總監劉明宇博士說到：“Neuralangelo提供的3D重建能力將對創作者大有益處，能夠幫助創作者在數位世界中重現真實世界。” 這個工具最終將使開發人員能夠將從小至雕像大致大型建築——皆導入影像遊戲或數位工業的虛擬環境中。”

在演示中，NVIDIA的研究人員展示了該模型如何重建像米開朗基羅的大衛那樣標誌性的對象，以及像平板卡車那樣普通的物件。Neuralangelo還可以重建建築物的內部和外部。

以3D看世界的神經渲染模型

以往的AI模型在重建3D場景時，往往難以準確捕捉重複的紋理模式、均勻的顏色和強烈的顏色變化。Neuralangelo採用即時神經圖形基元，這是 NVIDIA 即時 NeRF 技術的基礎，來幫助捕捉這些更細緻的細節。

該模型使用從多個角度拍攝的物體或場景的 2D 影片，選擇幾個捕捉到不同視點的畫面——就像藝術家從多個側面考慮一個主題，以獲得深度、大小和形狀的感覺。

一旦確定了每個畫面的攝像機位置，Neuralangelo的AI就會創建一個大致的3D場景表達，就像雕塑家開始鑿刻主題的形狀。

然後，該模型優化渲染以銳化細節，就像雕塑家精心雕刻石頭來模仿布料或人形的紋理。結果是會生成一個3D物體或大規模場景，可以用於虛擬現實應用、數位或機器人技術開發。

View this post on Instagram

A post shared by Tenten™ - Generative Future (@tenten.co)

6月18-22日舉行的CVPR大會上探討NVIDIA研究成果

Neuralangelo是NVIDIA研究在計算機視覺和模式識別會議(CVPR)上展示的近30個項目其中之一，該會議將於6月18-22日在溫哥華舉行。這些論文涵蓋了包括姿態估計、3D重建和影片生成等主題。

這些項目之一DiffCollage，是一種創建大規模內容的擴散方法 — 包括長的橫向景觀、360度全景和循環運動圖像。當提供了一個標準比例的圖像訓練數據集時，DiffCollage將這些較小的圖像視為更大視覺的部分 — 就像拼貼的片段。這使得擴散模型能夠生成看起來連貫的大型內容，而無需在相同規模的圖像上進行訓練。