蘋果釋出新模型GAUDI：只用文字就能生成無限制3D模型

2022-08-07由新智元發表于科技

新智元報道

編輯：LRS

【新智元導讀】

最近蘋果釋出了一個新模型GAUDI，能直接從文字生成3D模型，NeRF的相機位置還不受限制！

2020年開始大火的神經輻射場（NeRF）技術，僅需幾張2D圖片，就能合成出高質量的3D模型場景。

有人暢想，NeRF可能是實現元宇宙的一項重要技術基礎，各個大廠紛紛上馬專案進行研究，比如英偉達的AI研究人員展示過從照片中建立3D物體，谷歌也依靠NeRF來實現沉浸式檢視或渲染3D人物。

NeRF可以從2D影象中生成3D場景，OpenAI的DALL-E 2可以從文字裡生成出2D影象，那二者一結合，豈不是可以直接從文字生成3D模型？

谷歌在2021年末提出過Dream Fields，嘗試結合NeRF生成3D檢視與OpenAI的CLIP模型的能力，直接從文字中生成物體的3D模型。

不過谷歌的Dream Fields主要用於生成單個物件，將生成式AI擴充套件到完全不受約束的3D場景仍然是一個尚未解決的問題。

造成這種情況的其中一個原因可能是攝像機位置的限制：雖然對於單個物件，每個可能的合理攝像機位置都可以對映到一個dome，但在3D場景中，這些攝像機位置受到物件和牆壁等障礙物的限制。如果在場景生成期間不考慮這些，則生成的3D場景的可用性就會大大降低。

最近蘋果披露了他們最新的用於生成沉浸式3D場景的神經網路架構GAUDI，可以根據文字提示建立3D場景。

論文連結：https：//arxiv。org/pdf/2207。13751。pdf

GAUDI是一個能夠捕捉複雜而真實的三維場景分佈的生成模型，可以從移動的攝像機中進行沉浸式渲染，採用了一種可擴充套件但強大的方法來解決這個具有挑戰性的問題。

研究人員首先最佳化一個隱表徵，將輻射場和攝像機的位置分開，然後將其用於學習生成模型，從而能夠以無條件和有條件的方式生成三維場景。

GAUDI在多個數據集的無條件生成設定中取得了sota的效能，並允許在給定條件變數（如稀疏的影象觀測或描述場景的文字）的情況下有條件地生成三維場景。

模型的名字來自西班牙著名建築大師Antoni Gaudi，以其複雜、新穎、獨樹一幟、個人色彩強烈的建築作品知名，他被譽為「上帝的建築師」。他有一句名言：創造會透過人類的媒介不斷地傳承下去！

從文字到3D

為了解決攝像機位置受限的問題，GAUDI模型把攝像機的姿勢當做是穿過場景的軌跡，從而明確了模型的設計方向。

GAUDI將每個軌跡（即來自三維場景的姿勢影象序列）對映到一個隱表示中，以完全分離的方式編碼輻射場（例如三維場景）和相機路徑。

GAUDI模型引入了三個解碼器網路。

1、相機姿態解碼器（camera pose decoder）網路主要負責在軌跡中的某個歸一化時序位置預測可能的相機位置。為了確保輸出是3D場景架構的有效位置，輸出為一個3D向量，代表方向的歸一化quaternion朝向和三維平移向量。

2、場景解碼器（scene decoder）網路透過一種3D畫布的形式預測輻射場網路的條件變數。該網路將一個代表場景的潛編碼作為輸入，輸出為一個軸對齊的三平面（tri-plane）表示。

3、輻射場解碼器（radiance field decoder）網路的任務是使用體積渲染方程重建影象，對每個畫素的值進行預測，其中三維點表示為特定深度的射線方向（與畫素位置對應）。

然後設計一個去噪重建目標對三個網路進行聯合最佳化。

訓練過程中，每個軌跡潛表徵都會透過重建目標進行最佳化，從而可以將其擴充套件到成千上萬的軌跡。將每個軌跡的潛表徵解釋為自由引數後，也使得處理每個軌跡的大量可變檢視變得更簡單，而不需要一個複雜的編碼器架構來彙集大量的檢視。

在為觀察到的軌跡的經驗分佈優化了潛表徵後，可以在潛表徵的集合上學習生成模型。

在無條件的情況下，模型可以完全從模型學到的先驗分佈中取樣輻射場，允許它透過在潛像空間內插值來合成場景。

在有條件的情況下，模型在訓練時可用的條件變數（如影象、文字提示等）可以用來生成與這些變數一致的輻射場。

在實驗階段，研究人員使用四個資料集對GAUDI的能力進行測試：

1、Vizdoom是一個具有簡單紋理和幾何形狀的合成模擬環境，就場景和軌跡的數量以及紋理而言，它是最簡單的資料集。

2、Replica是一個由18個真實場景組成的資料集，其中的軌跡是透過Habitat渲染的。

3、VLN-CE是一個最初為連續環境中的視覺和語言導航設計的資料集，由3D資料集中一個agent在3D場景中兩點之間導航的3600條軌跡組成，透過Habitat渲染觀察結果。這個資料集還包含了agent所採取的軌跡的文字描述。

4、ARKitScenes是一個室內空間掃描的資料集。這個資料集包含了大約1600個不同的室內空間的5000多份掃描資料。與之前的資料集相比，ARKitScenes提供了原始的RGB和深度掃描以及使用ARKit SLAM估計的相機姿勢，而其他資料集是透過在模擬中的渲染獲得的。此外，其他的資料集的軌跡是點對點的，就像導航一樣，而ARKitScenes的相機軌跡類似於對整個室內空間的自然掃描。

在重建效能的量化評估上可以發現，GAUDI模型中描述的最佳化問題能夠找到能夠以令人滿意的方式重建經驗分佈中的軌跡的潛編碼。

在不同資料集的隨機軌跡結果中，可以看到GAUDI可以重建學習檢視並能夠匹敵現有方法的質量。

在以文字作為條件的情況下，研究人員使用VLN-CE中提供的導航文字描述來訓練GAUDI模型。這些文字描述包含了關於場景以及導航路徑的抽象資訊，例如「走出臥室」，「進入客廳」，「透過擺動的門離開房間，然後進入臥室」等。採用預訓練的RoBERTa-base作為文字編碼器，並使用其中間表示來調節擴散模型。

這也是首個攤銷（amortized）的方式從文字生成有條件的三維場景的模型，也就是說不需要費時費力來最佳化、蒸餾CLIP模型。

甚至還可以把「影象」當做條件進行生成。

在每次訓練迭代中，研究人員隨機抽取軌跡中的影象並將其作為條件變數。採用預訓練的ResNet-18作為影象編碼器。在推理過程中，產生的條件GAUDI模型能夠對給定影象從隨機視角觀察的輻射場進行取樣。

不過GAUDI當前生成的影片質量仍然很低，並且充滿了偽影。但憑藉其AI系統，蘋果正在為可以渲染3D物件和場景的生成式AI系統奠定另一個基礎，一個未來可能的應用方向是為蘋果的XR頭顯生成數字位置。

參考資料：

https：//mixed-news。com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/

TAG： 3D 場景模型 GAUDI 生成

蘋果釋出新模型GAUDI：只用文字就能生成無限制3D模型

相關推薦