李飛飛劃重點的“具身智慧”，走到哪一步了？

2022-07-09由機器之心發表于科技

選自Quanta magazine

作者：Allison Whitten

機器之心編譯

編輯：張倩

在前段時間的一篇文章中，李飛飛指出了計算機視覺未來的幾個重要方向，其中最重要的一個就是具身智慧。她認為，具身智慧將成為 AI 領域的下一個「北極星問題」之一。那麼，具身智慧是什麼？為什麼如此重要？現在發展到什麼程度了？這篇文章進行了詳細分析。

2009 年，當時在普林斯頓大學工作的計算機科學家李飛飛主導構建了一個改變人工智慧歷史的資料集——ImageNet。它包含了數百萬張有標籤的影象，可以用來訓練複雜的機器學習模型，以識別影象中的物體。

2015 年，機器的識別能力超過了人類。李飛飛也在不久之後轉向了新的目標，去尋找她所說的另一顆「北極星」（此處的「北極星」指的是研究人員所專注於解決的關鍵科學問題，這個問題可以激發他們的研究熱情並取得突破性的進展）。

她透過回溯 5。3 億年前的寒武紀生命大爆發找到了靈感，當時，許多陸生動物物種首次出現。一個有影響力的理論認為，新物種的爆發部分是由眼睛的出現所驅動的，這些眼睛讓生物第一次看到周圍的世界。李飛飛認為，動物的視覺不會孤零零地產生，而是「深深地嵌在一個整體中，這個整體需要在快速變化的環境中移動、導航、生存、操縱和改變，」她說道，「所以我就很自然地轉向了一個更加活躍的 AI 領域。」

如今，李飛飛的工作重點集中在 AI 智慧體上，這種智慧體不僅能接收來自資料集的靜態影象，還能在三維虛擬世界的模擬環境中四處移動，並與周圍環境互動。

這是一個被稱為「具身 AI」的新領域的廣泛目標。它與機器人技術有所重疊，因為機器人可以看作是現實世界中具身 AI 智慧體和強化學習的物理等價物。

李飛飛等人認為，具身 AI 可能會給我們帶來一次重大的轉變，從識別影象等機器學習的簡單能力，轉變到學習如何透過多個步驟執行復雜的類人任務，如製作煎蛋卷。

今天，具身 AI 的工作包括任何可以探測和改變自身環境的智慧體。在機器人技術中，AI 智慧體總是生活在機器人身體中，而真實模擬中的智慧體可能有一個虛擬的身體，或者可能透過一個移動的相機機位來感知世界，而且還能與周圍環境互動。「具身的含義不是身體本身，而是與環境互動以及在環境中做事的整體需求和功能，」李飛飛解釋說。

這種互動性為智慧體提供了一種全新的——在許多情況下是更好的——瞭解世界的方式。這就相當於，之前你只是觀察兩個物體之間可能的關係，而現在，你可以親自實驗並讓這種關係發生。有了這種新的理解，想法就會付諸實踐，更大的智慧也會隨之而來。隨著一套新的虛擬世界的建立和執行，具身 AI 智慧體已經開始發揮這種潛力，在他們的新環境中取得了重大進展。

「現在，我們沒有任何證據證明存在不透過與世界互動來學習的智慧，」德國奧斯訥布呂克大學的具身 AI 研究者 Viviane Clay 說。

走向完美模擬

雖然研究人員早就想為 AI 智慧體創造真實的虛擬世界來探索，但真正建立的時間才只有五年左右。這種能力來自於電影和影片遊戲行業對影象的改進。2017 年，AI 智慧體可以像在家裡一樣逼真地描繪室內空間——雖然是虛擬的，但卻是字面上的「家」。艾倫人工智慧研究所的計算機科學家構建了一個名為 AI2-Thor 的模擬器，讓智慧體在自然的廚房、浴室、客廳和臥室中隨意走動。智慧體可以學習三維檢視，這些檢視會隨著他們的移動而改變，當他們決定近距離觀察時，模擬器會顯示新的角度。

這種新世界也給了智慧體一個機會去思考一個新維度「時間」中的變化。西蒙弗雷澤大學的計算機圖形學研究員 Manolis savva 說，「這是一個很大的變化。在具身 AI 設定中，你有這些時間上的連貫資訊流，你可以控制它。」

這些模擬的世界現在已經足夠好，可以訓練智慧體完成全新的任務。它們不僅可以識別一個物體，還可以與它互動，撿起它並在它周圍導航。這些看似很小的步驟對任何智慧體來說都是理解其環境的必要步驟。2020 年，虛擬智慧體擁有了視覺以外的能力，可以聽到虛擬事物發出的聲音，這為其瞭解物體及其在世界上的執行方式提供了一種新的視角。

可以在虛擬世界（ManipulaTHOR environment）中執行的具身 AI 智慧體以不同的方式學習，可能更適合更復雜的、類人的任務。

不過，模擬器也有自己的侷限。「即使最好的模擬器也遠不如現實世界真實，」斯坦福大學計算機科學家 Daniel Yamins 說。Yamins 與麻省理工學院和 IBM 的同事共同開發了 ThreeDWorld，該專案重點關注在虛擬世界中模擬現實生活中的物理現象，如液體的行為以及一些物體如何在一個區域是剛性的，而在另一個區域又是柔性的。

這是一項非常具有挑戰性的任務，需要讓 AI 以新的方式去學習。

與神經網路進行比較

到目前為止，衡量具身 AI 進展的一種簡單方法是：將具身智慧體的表現與在更簡單的靜態影象任務上訓練的演算法進行比較。研究人員指出，這些比較並不完美，但早期結果確實表明，具身 AI 的學習方式不同於它們的前輩，有時候比它們的前輩學得還好。

在最近的一篇論文（《Interactron： Embodied Adaptive Object Detection》）中，研究人員發現，一個具身 AI 智慧體在檢測特定物體方面更準確，比傳統方法提高了近 12%。該研究的合著者、艾倫人工智慧研究所計算機科學家 Roozbeh Mottaghi 表示，「目標檢測領域花了三年多的時間才實現這種水平的改進。而我們僅透過與世界的互動就取得了很大的進步。」

其他論文已經表明，當你把目標檢測演算法做成具身 AI 的形式，並讓它們探索一次虛擬空間或者隨處走動收集物件的多檢視資訊時，該演算法會取得進步。

研究人員還發現，具身演算法和傳統演算法的學習方式完全不同。要想證明這一點，可以想想神經網路，它是每個具身演算法和許多非具身演算法學習能力背後的基本成分。神經網路由許多層的人工神經元節點連線而成，它鬆散地模仿人類大腦中的網路。在兩篇獨立的論文中，研究人員發現，在具身智慧體的神經網路中，對視覺資訊作出反應的神經元較少，這意味著每個單獨的神經元在作出反應時更有選擇性。非具身網路的效率要低得多，需要更多的神經元在大部分時間保持活躍。其中一個研究小組（由即將任紐約大學教授的 Grace Lindsay 領導）甚至將具身和非具身的神經網路與活體大腦中的神經元活動（老鼠的視覺皮層）進行了比較，發現具身的神經網路最接近活體。

Lindsay 很快指出，這並不一定意味著具身化的版本更好，它們只是不同。與物體檢測論文不同的是，Lindsay 等人的研究比較了相同神經網路的潛在差異，讓智慧體完成了完全不同的任務，因此他們可能需要工作方式不同的神經網路來完成他們的目標。

雖然將具身神經網路與非具身神經網路相比是一種衡量改進的方法，但研究人員真正想做的並不是在現有的任務上提升具身智慧體的效能，他們的真正目標是學習更復雜、更像人類的任務。這是最令研究人員興奮的地方，他們看到了令人印象深刻的進展，尤其是在導航任務方面。在這些任務中，智慧體必須記住其目的地的長期目標，同時制定一個到達目的地的計劃，而不會迷路或撞到物體。

在短短几年的時間裡，Meta AI 的一位研究主管、佐治亞理工學院計算機科學家 Dhruv Batra 領導的團隊在一種被稱為「point-goal navigation」的特定導航任務上取得了很大進展。在這項任務中，智慧體被放在一個全新的環境中，它必須在沒有地圖的情況下走到某個座標（比如「Go to the point that is 5 meters north and 10 meters east」）。

Batra 介紹說，他們在一個名叫「AI Habitat」的 Meta 虛擬世界中訓練智慧體，並給了它一個 GPS 和一個指南針，結果發現它可以在標準資料集上獲得 99。9% 以上的準確率。最近，他們又成功地將結果擴充套件到一個更困難、更現實的場景——沒有指南針和 GPS。結果，智慧體僅藉助移動時看到的畫素流來估計自身位置就實現了 94% 的準確率。

Meta AI Dhruv Batra 團隊創造的「AI Habitat」虛擬世界。他們希望提高模擬的速度，直到具身 AI 可以在僅僅 20 分鐘的掛鐘時間內達到 20 年的模擬經驗。

Mottaghi 說，「這是一個了不起的進步，但並不意味著徹底解決了導航問題。因為許多其他型別的導航任務需要使用更復雜的語言指令，比如「經過廚房去拿臥室床頭櫃上的眼鏡」，其準確率仍然只有 30% 到 40% 左右。

但導航仍然是具身 AI 中最簡單的任務之一，因為智慧體在環境中移動時不需要操作任何東西。到目前為止，具身 AI 智慧體還遠遠沒有掌握任何與物件相關的任務。部分挑戰在於，當智慧體與新物件互動時，它可能會出現很多錯誤，而且錯誤可能會堆積起來。目前，大多數研究人員透過選擇只有幾個步驟的任務來解決這個問題，但大多數類人活動，如烘焙或洗碗，需要對多個物體進行長序列的動作。要實現這一目標，AI 智慧體將需要更大的進步。

在這方面，李飛飛可能再次走在了前沿，她的團隊開發了一個模擬資料集——BEHAVIOR，希望能像她的 ImageNet 專案為目標識別所做的那樣，為具身 AI 作出貢獻。

這個資料集包含 100 多項人類活動，供智慧體去完成，測試可以在任何虛擬環境中完成。透過建立指標，將執行這些任務的智慧體與人類執行相同任務的真實影片進行比較，李飛飛團隊的新資料集將允許社群更好地評估虛擬 AI 智慧體的進展。

一旦智慧體成功完成了這些複雜的任務，李飛飛認為，模擬的目的就是為最終的可操作空間——真實世界——進行訓練。

「在我看來，模擬是機器人研究中最重要、最令人興奮的領域之一。」李飛飛說到。

機器人研究新前沿

機器人本質上是具身智慧體。它們寄居在現實世界的某種物理身體內，代表了最極端的具身 AI 智慧體形式。但許多研究人員發現，即使是這類智慧體也能從虛擬世界的訓練中受益。

Mottaghi 說，機器人技術中最先進的演算法，如強化學習等，通常需要數百萬次迭代來學習有意義的東西。因此，訓練真實機器人完成艱鉅任務可能需要數年時間。

機器人可以在現實世界中不確定的地形中導航。新的研究表明，虛擬環境中的訓練可以幫助機器人掌握這些技能以及其他技能。

但如果先在虛擬世界中訓練它們，速度就要快得多。數千個智慧體可以在數千個不同的房間中同時訓練。此外，虛擬訓練對機器人和人來說都更安全。

2018 年，OpenAI 的研究人員證明了：智慧體在虛擬世界中學到的技能可以遷移到現實世界，因此很多機器人專家開始更加重視模擬器。他們訓練一隻機械手去操作一個只在模擬中見過的立方體。最新的研究成果還包括讓無人機學會在空中避免碰撞，將自動駕駛汽車部署在兩個不同大陸的城市環境中，以及讓四條腿的機器狗在瑞士阿爾卑斯山完成一小時的徒步旅行（和人類所花的時間一樣）。

未來，研究人員還可能透過虛擬現實頭顯將人類送入虛擬空間，從而縮小模擬和現實世界之間的差距。英偉達機器人研究高階主管、華盛頓大學教授 Dieter Fox 指出，機器人研究的一個關鍵目標是構建在現實世界中對人類有幫助的機器人。但要做到這一點，它們必須首先接觸並學習如何與人類互動。

Fox 說，利用虛擬現實技術讓人類進入這些模擬環境，然後讓他們做出演示、與機器人互動，這將是一種非常強大的方法。

無論身處模擬還是現實世界，具身 AI 智慧體都在學習如何更像人，完成的任務更像人類的任務。這個領域在各個方面都在進步，包括新的世界、新的任務和新的學習演算法。

「我看到了深度學習、機器人學習、視覺甚至語言的融合，」李飛飛說，「現在我認為，透過這個面向具身 AI 的『登月計劃』或『北極星』，我們將學習智慧的基礎技術，這可以真正帶來重大突破。」

李飛飛探討計算機視覺「北極星」問題的文章。連結：https：//www。amacad。org/publication/searching-computer-vision-north-stars

原文連結：https：//www。quantamagazine。org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com

TAG：具身 AI 智慧李飛飛機器人

李飛飛劃重點的“具身智慧”，走到哪一步了？

相關推薦