在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

新智元報道

編輯:好睏 袁榭

【新智元導讀】

在大批企業搶位元宇宙、苦思如何將真實世界VR化又如何變現的當下,從服務遊戲宅做起的Unity公司,技術力與商業經驗已經足以在遊戲引擎中,支撐一個人、物都高擬真的實景世界克隆版了。

玩家一動,就把「據說買不起機器假肢只好坐輪椅」的NPC嚇到衝刺速度賽蘇炳添。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

在一個有巫師存在的宇宙中,獵魔人的坐騎閒來俯臥撐一下,好像也講得通哦。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

「身邊槍林彈雨,NPC八風不動」的哏,已經讓「加拿大鄧超」賤賤老師拍成熱賣電影了。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

三十多年來,遊戲的NPC似乎從視覺效果到互動智慧都有進步,但有無質變,實在不好說。

畢竟它們和那些只會復讀「英雄要不要光臨我的小店」、運動軌跡詭異的古早NPC實無不同。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

曾有人開玩笑:網際網路時代的技術進步,三分之二是宅圈需求刺激推動的。

仔細想想,這話還真不假。在晚近的過去,線上看片的需求讓資料傳輸技術獲得革命性的突破。在不遠的未來,遊戲宅對五毛錢視效和低智NPC的鄙視,說不定也將同等地改變元宇宙呢。

對此,Unity微微一笑,公佈了5年前公司已開始用於遊戲建模和製作NPC的AI。

是不是有「大家在山上慢慢爬,我在山頂恭候」的賤賤感?在大佬抓緊砸錢、企業拼命搶位的元宇宙急流中,Unity已經有足夠實力在自家的遊戲引擎裡搭建一個足夠真實的虛擬現實世界。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

而且更欠的是,Unity似乎不擔心「元宇宙如何變現」的天問。

元宇宙裡大搞NPC

還記得復仇者聯盟4最終大戰那個恢弘的場面嗎?

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

這背後強大的渲染技術正是來自曾6次獲得奧斯卡最佳視覺效果獎,由著名導演Peter Jackson建立的Weta Digital(維塔數字)。

2021年11月9日,Unity出資16。25億美元收購了Weta Digital。

由此,Unity也開始了在「元宇宙」這條路上的大步流星。

不過,Unity公司的高管們是逐漸開竅的:

一開始他們只求讓遊戲裡的NPC看起來更真實,行為脫離智障。

不過公司高管慢慢發現,力求真實細膩的遊戲建模與NPC互動的AI引擎,可以反用於真實世界中,讓各種企業和單位使用這些引擎完成各種需求。

而這些企業輸入的資料,又能用於完善Unity的AI引擎,讓Unity的虛擬建模逐漸成為真實世界的數碼克隆版。在當下就能搭上元宇宙的順風船了。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

說到元宇宙,也就不得不提Unity在技術開放日上揭秘到數字人制作流程。

而下面這位「真人」小姐姐便是其中之一。

她會嘟嘴賣萌,也會緊皺眉頭生氣,甚至讓你不禁懷疑,如果有了她還需要再捏造二次元老婆麼。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

不過,對於量產的NPC來說,還需要點兒別的東西。

NPC如何「變人」?

想要把現實中的人給「元」了,顯然需要非常大量且富有多樣性的資料和標註,例如人物建模、姿勢等等。

然而,使用現成的資料集是不行的。不僅因為資料量太少,而且其中存在的隱私和偏見問題也飽受非議。

既然真實世界的資料不好用,那我們自己合成總行了吧。

於是,一個新興的替代方案誕生了——合成數據。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

然而,這個想法從一開始就遇到了阻礙:合成數據的生成器很難搞。

為此,Unity推出了一個全新的解決方案「PeopleSansPeople」。包含高了度引數化且直接可以應用於模擬的3D人體資料、引數化照明和拍攝系統、引數化環境生成器,以及完全可操縱和可擴充套件的領域隨機生成器。

顧名思義,這個專案是從將取樣自實景生活中真人外觀的資料隨機化開始,進而基於這些資料打造合成數據模型,將真人虛擬NPC化,也讓NPC更加有真實感。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

https://arxiv。org/pdf/2112。09290。pdf

透過PeopleSansPeople,使用者可以在JSON註釋檔案中生成帶有完美匹配亞畫素的2D/3D邊界框的RGB影象、符合COCO標準的人體關鍵點以及語義/例項分割掩碼。

此外,PeopleSansPeople還利用了Detectron2 Key。point R-CNN變體進行了基準合成數據的訓練。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

結果顯示,利用合成數據對網路進行預訓練,並在目標真實世界的資料上進行微調之後,可以讓關鍵點的AP評分達到60。37±0。48(COCO test-dev2017)。優於單獨使用相同真實資料訓練的模型(AP為55。80)和使用ImageNet預訓練的模型(AP為57。50)。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

「PeopleSansPeople」包含了一個針對macOS和Linux的大規模(1M以上)資料集:

28個不同年齡和種族的3D人體模型,不同的服裝(21,952個獨特的服裝紋理);

39個動畫短片,具有完全隨機的人體姿態、體型等;

完全引數化的照明(位置、顏色、角度和強度)和拍攝(位置、視場、焦距)設定;

一組物體基元,作為分散注意力的物體和具有不同質地的遮擋物;

一組來自COCO未標記的1600張自然影象,作為物體的背景和紋理。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

此外,PeopleSansPeople還有一個Unity的模板。

使用者可以將他們自己的3D資料匯入這個環境,並透過修改或定義新的領域隨機生成器來進一步提高其能力。除了具有之前那個資料集的全部功能,還包括:

4個具有不同服裝顏色的三維人體模型示例;

8個動畫剪輯的例子,具有完全隨機化的人體姿態等等;

一組來自Unity Perception軟體包的529張自然的雜貨物品圖片,作為物體的背景和紋理。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

為了讓模型能夠推廣到真實的領域之中,Unity透過額外的領域隨機化來改變模擬的環境,進而在合成數據中引入更多的變化。

也就是對三維物體的位置和姿勢、場景中三維物體的紋理和顏色、燈光的配置和顏色、拍攝引數以及一些後期處理效果等方面進行隨機化。

其中,隨機生成器在模擬過程中透過使用正態分佈、均勻分佈和二項分佈從可能範圍中取樣來改變這些元件的引數。

而且在合成數據的訓練中不併需要進行資料增強,從而也就加快了訓練的速度。

於是,有了這樣一個工具,我們就可以在即將成為NPC的模型上「整活」了。

比如,利用Unity Shader Graph在衣服上生成千奇百怪的圖案。

模擬各種人體能夠完成的動作和姿勢也不在話下。

如此一來,應該能避免類似這種NPC的腦袋調轉180度的情況吧。

現在,重新回到PeopleSansPeople這個模型上。

利用領域隨機化,Unity生成了由500,000張影象和標籤組成的合成數據集,並使用其中的490,000張圖片進行訓練,10,000張圖片進行驗證。

和COCO人物資料集相比,PeopleSansPeople在未標註的以及帶有關鍵點的例項上,都多一個數量級。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

資料集

對於COCO資料集,由於有許多縱向和橫向的影象,從而觀察到了長方形的邊界框分佈隨著影象的高度和寬度而下降。其中絕大多數影象的邊界框都集中在中心附近,而很少向邊緣擴散。

對於PeopleSansPeople的合成數據,這些邊界框更傾向於佔據整個影象框架,從而強迫模型去利用整個接受域。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

邊界框佔位熱圖

從統計資料中可以看到,COCO的每個影象大多隻有1或2個邊界框,而PeopleSansPeople資料集中影象的邊界框普遍更多。

PeopleSansPeople資料集有更均勻的邊界框大小分佈,而COCO的邊界框大多很小。此外,PeopleSansPeople資料集中的大多數邊框都有關鍵點註釋,而COCO則不然。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

a) 每幅影象的邊界框數量;b) 相對於影象大小的邊界框大小;c) 每個邊界框的註釋關鍵點;d) 每個邊界框的關鍵點比例

最後,為了量化PeopleSansPeople的人體模型在生成的影象中的姿勢多樣性,Unity對人物四肢的五個代表性關鍵點生成了姿勢熱圖:

PeopleSansPeople的姿勢分佈包含了COCO中的姿勢分佈;

PeopleSansPeople的合成姿勢分佈比COCO更廣泛;

在COCO中,大多數人是正面朝向的,導致了點的密度與「手性」的不對稱,而這在PeopleSansPeople的合成數據中是沒有的。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

五個有代表性的關鍵點位置熱圖。上面:COCO;下面:PeopleSansPeople

為了獲得一套從模擬到真實的遷移學習的基準結果,Unity使用平均精度(AP)作為模型效能的主要指標,在COCO人物驗證(person val2017)和測試集(test-dev2017)上進行了平局。

Unity透過隨機初始化的權重和ImageNet預訓練的權重來訓練模型,並採用預設的引數範圍來生成資料集,完全沒有超引數的應用。

結果顯示,PeopleSansPeople模型比那些只在真實資料上訓練的模型或用ImageNet預訓練然後在真實資料上微調的模型更好。

在真實資料有限的情況下,這種效果在few-shot遷移學習中更為突出。

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

COCO人體驗證集上的邊界框檢測結果

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

對COCO人體驗證集的關鍵點檢測結果

在元宇宙裡克隆真人?Unity元宇宙的背後竟是遊戲宅

COCO測試集上的關鍵點檢測結果

此外,由於合成數據帶有豐富的高質量標籤,它可以與很少甚至沒有註釋的真實資料結合起來,實現弱監督訓練。

Unity的AI專案負責人稱,PeopleSansPeople專案裡,虛擬NPC模型的最終姿勢互動、視覺效果不是實景擷取的複製,實景資料只是模板基底,最終模型是合成的。

這樣既避免了當下關於隱私的各種法律與道德麻煩,也能避免AI的資料偏見,實在是建模的不二良選。

而Unity不會缺乏真實基底資料合理合法的來源,因為很多服務於海量人流的企業與單位與Unity緊密合作,為之提供持續的資料。Unity只消在其中採用不涉及隱私的一小點,就能很大完善遊戲化專案中的NPC們。

當然,想要讓NPC真正告別「智障」,還有很長的一段路要走。

參考資料:

https://blog。unity。com/technology/human-centric-computer-vision-with-unity-synthetic-data

https://www。wired。com/story/gaming-giant-unity-wants-to-digitally-clone-the-world/

TAG: UnityNPCPeopleSansPeoplecoco資料