在虛擬世界裡探索，李飛飛的“具身AI”離大腦更接近了

2022-07-09由新智元發表于科技

新智元報道

編輯：David 如願

【新智元導讀】

李飛飛的「具身」AI，靠著探索世界，比傳統AI更接近大腦！

2009年，當時還在普林斯頓大學任教的計算機科學家李飛飛發明了一個數據集，後來改變了人工智慧的發展史。

該資料集被稱為ImageNet，包括數以百萬計的標記影象，可以訓練複雜的機器學習模型來識別圖片中的目標。

2015年，用這個資料集訓練出來的機器，超過了人類的識別能力。不久之後，李飛飛開始尋找她所謂的另一顆「北極星」，推動人工智慧走向真正的智慧化。

靠訓練讓機器識圖，還是沒那麼智慧。她開始尋求與人類智慧的起源更接近的方式。

她回顧了5。3億年前的「寒武紀大爆炸」，並找到了靈感，當時，眾多物種的陸生動物首次出現。有理論認為，新物種的爆發部分是由眼睛的出現推動的，眼睛可以第一次讓動物看到了它們周圍的世界。

李飛飛認為，動物的視覺從來都不是單獨形成的，而是深深結合整個身體的過程中發生的，因為動物需要在快速變化的環境中移動、導航、生存，並做出改變。」

現在，李飛飛的工作更加側重於AI智慧體。與十幾年前不同的是，這些智慧體除了接受來自資料集的靜態影象，還可以在三維虛擬世界的模擬中移動，並與環境互動。

這是一個被稱為「具身AI」的新領域，該領域與機器人學的研究方向有諸多交集，因為機器人可以作為現實世界中具身AI智慧體的物理等價物，在強化學習上，兩個領域也有著共同的特徵。

李飛飛和該領域的其他研究人員認為，「具身AI」帶來的重大轉變，是讓AI從學習直接的能力，如識別影象，到學習如何執行類似人類的多個步驟的複雜任務，比如煎蛋卷。

今天，具身研究包括任何能夠探測和改變自身環境的智慧體。在機器人學中，AI智慧體總是生活在一個機器人的身體裡，但現實模擬中的智慧體可能只有虛擬身體，或者只是透過一個移動的攝像機來感知世界，但仍然可以與周圍環境互動。

「所謂「具身」的意義，其實不在於身體本身，而是與環境互動行為的整體需求和功能。」李飛飛說。

這種互動給了智慧體一種全新的瞭解世界的方式。簡單來說，過去是觀察兩個物體之間可能存在的關係，現在是自己進行實驗並導致這種關係的產生。

有了這種新的理解，就會有更高的智慧。隨著新的虛擬世界的建立和執行，具身AI智慧體已經開始兌現這一潛力，在新環境中取得了重大進展。

越來越完美的環境模擬

長期以來，研究人員一直想為AI智慧體創造逼真的虛擬世界，但直到五年前，這個想法才開始成為現實。這要歸功於電影和影片遊戲行業所推動的圖形化領域的技術進步。

2017年，AI智慧體首次實現了在一個逼真的室內虛擬空間中實現了身臨其境的居家感。

這個名為「AI2-Thor」的模擬器，由艾倫人工智慧研究所的計算機科學家建造，讓智慧體在自然的廚房、浴室、客廳和臥室中漫步。

智慧體周圍的3D檢視隨著它們的移動而移動，當智慧體停下來仔細觀察時，又會展示出新的角度。

這樣的「新世界」也讓智慧體有機會對新維度的變化進行推理：時間維度。

西蒙弗雷澤大學（Simon Fraser University）的計算機圖形研究人員Manolis Savva認為：「這就是與以往的最大區別，在具身AI環境中……可以獲得時間上連貫的資訊流，而且可以控制。」

這些模擬世界現在已經足夠逼真，可以訓練智慧體完成全新任務。現在的智慧體不僅能識別目標，還能與之互動，比如拿起目標，並在其周圍導航。這些步驟看似很不起眼，但對於任何智慧體瞭解環境來說都是必不可少的。

2020年，虛擬智慧體超越了視覺層面，聽到了虛擬環境中發出的聲音，用另一種方式瞭解世界。

當然，這並不是說這項工作已經大功告成了。

斯坦福大學的計算機科學家丹尼爾·亞明斯（Daniel Yamins）說：「即使是最好的模擬器，也遠不如現實世界那麼真實」。

與麻省理工學院和IBM的同事一起，Yamins共同開發了ThreeDWorld，把重點放在虛擬世界中模仿現實生活中的物理學——比如液體的行為方式

「這真的很難，挑戰很大，但這足以讓AI智慧體開始以新的方式學習。」

比傳統神經網路更接近大腦

到目前為止，衡量「具身AI」進展的一個簡單方法是，將具身智慧體的表現與在更簡單的靜態影象任務上訓練的演算法進行比較。

研究人員指出，這些比較並不完美，但早期結果確實表明，具身AI智慧體的學習方式不同，有時效果確實比其前輩更好。

在最近的一篇論文中，研究人員發現一個具身的AI智慧體在檢測指定的物體時的表現更加準確，比傳統方法提高了近12%。

艾倫人工智慧研究所的計算機科學家、論文共同作者之一的Roozbeh Mottaghi說：「物體檢測界花了三年多的時間才實現了這種水平的改進。方法僅僅是透過與世界的互動。」

還有論文表明，如果將具身AI智慧體賦予有形的形式，並讓它們只探索一次虛擬空間，或者讓它們四處移動，收集目標的多個檢視時，在目標檢測任務中的表現也強於傳統的訓練演算法。

研究人員還發現，具身AI的演算法和傳統演算法在學習方式上有根本不同。

以神經網路為例，研究人員發現，具身AI智慧體中的神經網路，在響應視覺資訊時活躍的神經元相對較少，這表明每個單獨的神經元有更大的餘地選擇響應哪些內容。

相比之下，傳統AI智慧體的效率要低得多，需要更多的神經元在大部分時間內處於活躍狀態。

研究人員將具身和非具身的神經網路與活體大腦（小鼠的視覺皮層）中的神經元活動進行了比較，發現具身AI智慧體與活體大腦的活動是最接近的。

不過研究人員也指出，這並不一定意味著具身AI更好，二者只是不同而已。

與物體探測論文不同的是，Clay和Lindsay在比較相同神經網路的潛在差異中，要讓智慧體執行完全不同的任務，所以可能需要工作方式不同的神經網路來完成各自的目標。

但是，雖然將具身神經網路與非具身神經網路進行比較是一種相對進步的衡量標準，但研究人員並不是真的會對如何提高具身智慧體在當前任務中的表現感興趣。

這項工作將繼續進行，使用傳統的訓練方式。真正的目標是學習更復雜的、類人的任務，這也是研究人員最感興趣的地方。

在短短几年內，由Meta AI研究主任、佐治亞理工學院計算機科學家Dhruv Batra領導的團隊迅速提高了一種名為point-goal navigation的特定導航任務的效能。

一個agent會被放置在一個全新的環境中，並且必須在沒有地圖的情況下導航到相對於起始位置的目標座標（「往北5米，往東10米的地方」）。

透過給agent一個GPS和一個指南針，並在Meta的虛擬世界，即AI棲息地中訓練它，Batra表示：「我們能夠在標準資料集上獲得超過99。9%的準確性。」

這個月，他們成功地將訓練結果擴充套件到一個更困難卻更現實的場景，即agent沒有GPS或指南針。該agent只能透過移動時看到的畫素流來估計其位置，不過其準確率也達到94%。

Mottaghi說：「這是一個了不起的進步。然而，這並不意味著導航問題已經完全被解決了。」

在某種程度上，這是因為許多其他型別的導航任務需要使用更復雜的語言指令，比如「經過廚房去拿臥室床頭櫃上的眼鏡」，其準確率仍然只有30%到40%左右。

但導航仍然是「具身AI」中最簡單的任務之一，因為agent在環境中移動時不需要操作任何內容。

到目前為止，「具身AI」的agent還尚未掌握任何與物件相關的任務。一部分挑戰在於，當agent與新物件進行互動時，它可能會出現很多錯誤，然後錯誤很可能會堆積起來。

目前，大多數研究人員透過選擇只包含幾個步驟的任務來克服這個問題，但大多數類人類的活動，比如烘焙或洗碗，需要對多個物體進行長序列的動作。若要實現這一目標，人工智慧agent將需要更大的推動。

在這方面，李飛飛可能又一次走在了前沿，她開發了一個數據集，希望能像她的ImageNet專案為人工智慧物體識別所做的那樣，為「具身AI」做貢獻。

她曾經為人工智慧社群提供了一個巨大的影象資料集，用於實驗室標準化輸入資料，現在她的團隊釋出了一個標準化的模擬資料集，其中包括100個類似人類的活動，供agent完成，並且可以在任何虛擬世界中進行測試。

一旦agent成功完成了這些複雜的任務，李飛飛認為模擬的目的，就是為了在最終的可操作空間，即真實世界，進行訓練。

李飛飛表示：「在我看來，模擬是機器人研究中最重要、最令人興奮的領域之一。」

機器人的新前沿

機器人本質上就是一個具身「AI智慧體」。

透過寄居在現實世界中的某種物理軀體，它們代表了最極端的具身AI智慧形式。但許多研究人員現在發現，這些agent甚至能從虛擬世界的訓練中受益。

Mottaghi說：「機器人技術中SOTA演算法，比如強化學習，通常需要數百萬次迭代來學習那些有意義的東西。」因此，訓練真正的機器人去完成艱鉅的任務，這可能需要若干年的時間。

但在虛擬世界中訓練他們首先提供了比實時訓練更快的機會，並且數千名agent可以在數千個具有細微差別的房間中同時訓練。此外，虛擬訓練對機器人以及機器人附近的人類，都更加安全。

2018年，許多機器人專家開始更重視模擬器，OpenAI的研究人員證明，將模擬技能轉移到現實世界是可能的。他們訓練一隻機械手去操作一個只在模擬中見過的立方體。

最近的成功進展讓無人機學會了如何在空中避免碰撞；讓自動駕駛汽車實現跨城市測試；讓具有四條腿的，像小狗一樣的機器人在瑞士阿爾卑斯山完成一小時的徒步，這和人類所需要的時間一樣。

在未來，研究人員還可能透過虛擬現實頭盔將人類送入虛擬空間，從而縮小模擬世界和現實世界之間的差距。

英偉達機器人研究高階主管、華盛頓大學教授Dieter Fox指出，機器人研究的一個關鍵目標是製造出在現實世界中對人類有幫助的機器人。但要做到這一點，它們必須要先接觸並學習如何與人類互動。

Fox說：「利用虛擬現實技術讓人類進入這些模擬環境，使他們能夠演示東西，並與機器人進行互動，這是非常了不起的事情。」

無論它們是存在於模擬世界還是現實世界，具身人工智慧agent都在學習如何更像我們。

該領域同時在所有方面取得進展——新的世界、新的任務以及新的學習演算法。

李飛飛表示：「我看到了深度學習、機器人學習、視覺甚至語言的融合。現在我認為，透過這一面向具身人工智慧的登月或北極星計劃，我們將學習AI的基礎技術，從而真正實現重大突破。」

參考資料：

https：//twitter。com/drfeifei/status/1417265544164646923

https：//www。quantamagazine。org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/

TAG： AI 具身智慧 agent 機器人

在虛擬世界裡探索，李飛飛的“具身AI”離大腦更接近了

相關推薦