codec avatars:利用vr捕獲技術和人工智慧系統在未來五十年的重要進展

檢視引用/資訊源請點選:映維網

利用Pica模型,單個Oculus Quest 2頭顯能夠在同一場景實時渲染5個虛擬化身

映維網 2021年04月20日

)就如同個人計算機和智慧手機在過去四十五年裡(並正繼續)改變了世界一樣,Facebook堅信增強現實和虛擬現實將成為未來五十年裡我們工作、娛樂和聯結的主要方式。

為了克服人與人之間,以及人與機會之間的物理距離挑戰,團隊正在積極開展一個名為Codec Avatars的專案。Codec Avatars旨在利用突破性的3D捕獲技術和人工智慧系統,從而幫助人們在未來快速輕鬆地建立逼真的虛擬化身,並令虛擬現實中的社交聯絡變得如同現實世界般自然和常見。

日前,Facebook公佈了一份即將在今年6月計算機視覺與模式識別大會(Conference on Computer Vision and Pattern Recognition;CVPR)介紹的論文。

簡單來說,只對螢幕空間中的虛擬化身的面部可見畫素進行解碼,可以在計算受限的平臺實現高保真的面部動畫。

對於輕量級的編解碼器PiCA,團隊進行了兩項主要的技術創新,從而允許其透過小模型來實現高質量解碼:學習的位置編碼函式;以弱監督方式訓練的全卷積密集網格解碼器。

團隊指出,對於實現遠距離三維真實面對面通訊,在虛擬現實或增強現實中與圖片級真實感的虛擬化身進行通訊是一條富有前景的途徑。在名為《Pixel Codec Avatars》的論文中,研究人員提出了一種3D人臉的深度生成模型Pixel Codec Avatars(PiCA)。

Facebook寫道,PiCA不僅具備最先進的重建效能,而且在執行期間能夠實現高效計算和自適應渲染條件。

這個模型結合了兩個核心思想:(1)用於解碼空間變化特徵的完全卷積結構;(2)渲染自適應的每畫素解碼器。這兩種技術是透過一個密集表面表示整合,其中密集表面表示以弱監督方式從低拓撲網格追蹤學習而成。

codec avatars:利用vr捕獲技術和人工智慧系統在未來五十年的重要進展

圖1是一個在虛擬現實情景中實現的多人遠端會議配置。

在正常的社交距離下,頭部僅佔據顯示器畫素的一個子集,其覆蓋範圍很大程度上取決於與觀看者之間的距離。由於自身遮擋,從任何視角都看不到大約一半的頭部。圖1上半部分是生成的和光柵化的幾何體,以及顯示相應檢視中可見畫素的紋理貼圖;圖2下半部分展示了渲染的虛擬化身以及它們覆蓋整個影象的畫素百分比。

為了避免在不影響最終渲染的面區域中浪費計算,PiCA僅在幾何體光柵化覆蓋的影象區域中使用每畫素解碼。類似於隱式神經渲染的最新進展,這種解碼器依賴於以人臉為中心的位置編碼來產生高度詳細的影象。

團隊採用兩種策略來有效地生成這樣的編碼。首先,在紋理空間中利用卷積網路的空間共享計算,以降低的解析度(256×256)產生空間變化的表情和檢視特定程式碼。然後,透過一個預先計算的高解析度(1K×1K)進行補充。為了獲得更高的解析度結果,團隊進一步在10K解析度下對訊號進行1D位置編碼(獨立於紋理域的水平和垂直維度)。這種對映能夠在高解析度面部影象中實現清晰的空間細節。

codec avatars:利用vr捕獲技術和人工智慧系統在未來五十年的重要進展

監督(a)影象,(b)深度,以及(c)7K個頂點的粗略追蹤網格。從中可以學習一個對應的密集面網格(d),解析度為個65K頂點,甚至包括粗略追蹤網格不提供任何資訊的位置,如舌頭。最終渲染(e)可以表示難以追蹤的表情。

因為UV座標的最佳編碼值直接從資料中學習,所以低8維編碼足以恢復高頻。作為對比,使用正弦函式實現高細節的現有位置編碼方案需要將維數增加20×,並且存在相應的計算成本。另外,等其他研究相比,PiCA在螢幕空間中不使用卷積,而是在每個貢獻畫素處應用shallow MLP。這樣做的優勢是避免了運動過程中的視覺偽影和立體不一致性,同時避免了在縮放、旋轉和透視方面的挑戰。

相關論文

Pixel Codec Avatars

https://paper。nweon。com/9670

在不同性別和膚色被試的表情和視點測試中,PiCA實現了優於現有技術的重建效果。重要的是,PiCA模型的體積要小於最先進的基線模型,並且使得多人通訊成為可能。利用Pica模型,單個Oculus Quest 2頭顯能夠在同一場景實時渲染5個虛擬化身。

TAG: PiCA畫素虛擬化渲染Codec