機器人堆疊研究新進展!DeepMind 提出新基準

智東西(公眾號:zhidxcom)

編譯 |

程茜

編輯 |

李水青

智東西10月12日訊息,人工智慧研究實驗室DeepMind近日為提高機器人的物體堆疊能力提出新基準。

Deep Mind的研究小組透過RGB堆疊技術(RGB-Stacking)對機器人進行強化學習訓練,評估多個研究物件的行為和動作來提高機器人能力。該項技術利用放置在籃子內紅色、藍色、綠色三種顏色的不同物體,對機器人手臂進行訓練,因此被稱作RGB堆疊。

一、推出機器人堆疊新基準,開源成果

對大多數人來說,將一個物體堆疊在另一個物體上是一項簡單的任務,但即使是最精密的機器人也很難一次處理多項堆疊任務。堆疊動作需要一系列不同的運動、感知和分析技能,包括與不同型別物體互動的能力,將這個簡單的人工任務提升為機器人技術,是一個面臨巨大挑戰並極其複雜的任務。

DeepMind關於機器人學習的研究小組認為,推進機器人堆疊的最新技術將需要一個新的基準。機器人學習會議 (the Conference on Robot Learning ,CoRL 2021)中發表的一篇論文中介紹了RGB堆疊,該項技術的任務是讓機器人學習如何抓住不同的物體並在彼此之間保持平衡。

雖然其他論文中已經存在堆疊任務的相關基準,但研究人員認為其研究的獨創性在於,研究物件選擇的多樣性以及驗證其研究發現而進行的評估。該論文的研究結果表明,模擬資料和現實世界資料的組合可用於學習“多物件操作”,這為機器人學習解決泛化新物件的問題提供了強大的基礎。

為了支援其他研究人員,該研究小組開源了一版模擬環境,併發布了他們用於構建真實機器人RGB堆疊環境的設計,以及用於3D列印的RGB物件模型資訊,並且在未來將更廣泛地開放其機器人研究過程中使用的一系列圖書館資源和工具。

二、兩大測試三大階段,挖掘機器人學習潛能

RGB堆疊的目標是透過強化學習訓練機械臂堆疊不同形狀的物體。強化學習是一種機器學習技術,它使機器人能夠利用自己動作和經驗的反饋,並透過反覆試驗來學習。

RGB堆疊將一個抓手連線到籃子上方的機器人手臂上,籃子裡放著紅、綠、藍不同顏色的三個物體。機器人必須在20秒內將紅色物體堆疊在藍色物體上方,而綠色物體則作為障礙物來分散其注意力。

機器人堆疊研究新進展!DeepMind 提出新基準

DeepMind的研究人員表示,這個學習過程可以確保機器人透過對多個物件集的訓練獲得通用技能。RGB堆疊有意改變機器人抓取和堆疊的特性,這些特性定義了機器人如何抓取和堆疊每個物件,從而使機器人不斷超越更簡單的拾取和放置行為策略。

DeepMind研究小組的RGB堆疊基準測試包括兩個不同難度的測試。在“技能掌握”測試中,其目標是訓練一個能夠熟練堆疊一組預定義的五個三元組的智慧體;在“技能泛化”測試中,研究人員使用相同的三元組進行評估,但在超過一百萬個可能的三元組物件上訓練代理研究物件,為了測試泛化,這些訓練物件中排除了被選擇在“技能掌握”中測試的三元組的物件組。其次,在這兩級測試中,又將機器學習管道分解為三個階段。

研究人員聲稱,使用RGB堆疊方法訓練的機器人產生了“令人驚訝”的堆疊策略,並且出現對堆疊物件子集的“精通”現象。儘管如此,研究人員認為這隻觸及了機器人學習的表面內容,而針對泛化面臨的挑戰仍未得到解決。

三、釋出新基準,助推製造業再次繁榮

“隨著研究人員不斷努力解決機器人技術推廣落地的挑戰,我們希望這個新的基準,連同我們釋出的環境、設計和工具,有助於產生新的想法和方法,使操作更容易,機器人更有能力。”研究人員補充道。

隨著機器人越來越擅長堆疊和抓取物體,一些專家認為,這種自動化技術可能會推動美國的製造業的新繁榮。在谷歌雲和哈里斯民意調查最近的一項研究中,三分之二的製造商表示,日常運營中人工智慧技術的使用頻率正在增加,74%的製造商認為他們能夠應對目前瞬息萬變的工作環境。

其次,製造業公司預計在未來五年的生產效率將會隨著數字化轉型的發展而逐漸提高。麥肯錫與世界經濟論壇(McKinsey’s research with the World Economic Forum)的研究表明,到2025年,實施傳統工業實踐自動化“工業4。0”的製造商,其生產價值的創造潛力將達到3。7萬億美元。

結語:DeepMind新基準推動機器人行業程序

在機器人學習技術的研究過程中,獲取資料較為困難,使得其發展面臨困境。作為通用人工智慧領域的領軍企業,DeepMind為解決機器人學習泛化問題提出新基準,並且主動開放研究過程的相關資源,共享研究成果,有望推動整個行業取得新進展。

但顯而易見的是,機器人學習泛化問題仍需要長時間的探索,也是人工智慧企業在未來發展面臨的重大挑戰。

TAG: 機器人堆疊RGB研究學習