炸場！DeepMind通用人工智慧新突破：一套權重通吃視覺文字和決策

2022-05-14由量子位發表于科技

夢晨魚羊發自凹非寺

量子位 | 公眾號 QbitAI

通用人工智慧，還得看DeepMind。

這回，

只一個模型，使用相同的權重

，不僅把看家本領雅達利遊戲玩得飛起。

和人類聊聊天、看圖寫話也不在話下。

甚至還能在現實環境裡控制機械臂，讓其聽從指令完成任務！

模型名為

Gato

，西班牙語中的“貓”。

按照DeepMind的說法，這隻貓貓可以使用

具有相同權重的同一個神經網路

，適應各種不同的環境。

具體而言，DeepMind讓它在

604個

不同的任務上接受了訓練，這些任務模式完全不同，需要觀察的元素和行為規則也不同。

而Gato不僅在450個任務中都超過了專家水平的50%，在23個雅達利遊戲上表現還超過人類平均分。

DeepMind CEO哈薩比斯直接說：

這是我們目前最通用的智慧體。

這一最新成果一發布，當即就在AI圈子裡掀起熱議。

有AI研究者指出：

Gato令人印象深刻。只需要在雲上花費5萬美元，就能完成對它的訓練。

這點錢只是PaLM訓練費用1100萬美元的一個零頭。用PaLM的預算完全可以將Gato擴充套件100倍，而這很可能是行之有效的。

PaLM是谷歌釋出的5400億引數語言模型。

有人直接祭出了AlphaStar架構和Gato架構的對比：

Zoom AI傑出科學家Awni Hannun則直接感嘆起過去5周以來，谷歌/DeepMind釋出成果之密集。

所以這隻來自DeepMind的“貓貓”，究竟怎麼一回事？

一個Transformer搞定一切

對於研究方法，DeepMind只用一句話就解釋明白了：

我們受到語言大模型的啟發，用類似的方法把模型能力拓展到文字之外的領域。

沒錯，這次立功的又是語言大模型中常用的

Transformer

架構。

Transformer的本質就是把一個序列轉換（transform）成另一個序列。

所以要想讓它掌握各種不同任務，首先就需要把各類資料都編碼成序列。

文字

自不必說，天然就是序列資訊，可用經典的SentencePiece編碼。

影象

，ViT已經打好樣，先按16x16畫素分割，再給每個畫素編上號處理成序列。

玩遊戲時的按鍵輸入

同樣是序列，屬於離散值，比如懂得都懂的“上上下下左右左右BABA”。

操縱機器人時的感測器訊號和關節力矩

屬於連續值，也透過一系列取樣和編碼處理成離散序列。

最終，所有序列資料都交給同一個Transformer處理。

整個Gato模型使用的訓練資料

總體上偏向遊戲和機器人控制任務

，596個任務佔了85。3%。視覺和自然語言任務只佔14。7%。

模型架構上，為了簡潔和可擴充套件性，就在最經典的原版Transformer基礎上小改，具體引數如下：

24層11。8億引數版的Gato，在谷歌16x16 Cloud TPUv3切片上訓練了大約4天。

到了部署階段，Gato對於視覺和語言任務就像傳統Transformer和ViT那樣執行。

對於遊戲和機器人控制的行為模式則可以理解為

“走一步看一步”

。

首先給出一個任務提示，比如遊戲操作或機器人動作，作為輸出序列的開頭。

接下來Gato會觀察當前的環境，對動作向量進行一次自迴歸取樣，執行動作後環境發生變化，再重複這個過程……

那麼這樣訓練出來的Gato，在各項任務中到底表現如何？

僅靠12億引數成為多面手

玩遊戲方面，Gato的表現可以用一張圖來總結。

x軸是訓練集之中專家水平的百分比，其中0代表一個隨機引數模型的水平。

y軸是Gato超過或達到對應專家水平的任務數量。

最終結果，Gato在604個任務中，有

450個超過了專家水平的50%

。

更詳細的結果如下：

雅達利遊戲測試中，Gato在

23個遊戲上表現超過人類平均分

，11個遊戲上比人類得分高一倍。

這些遊戲包括經典的乒乓球、賽車，也包括射擊、格鬥等多種型別。

在Bengio團隊推出的BabyAI測試上，Gato幾乎在所有關卡達到了

專家水平的80%

，最難的幾個Boss關達到75%。與之前BabyAI榜單上的兩個模型水平相當（分別為77%和90%），但這兩個模型都針對性的用了上百萬個演示來訓練。

△BabyAI關卡示例

在Meta-World上（虛擬環境中操作機械臂），Gato在全部45個任務中，有

44個超過專家水平的50%，35個超過80%，3個超過90%

。

△Meta-World任務示例

操縱真實機器人方面，與之前模型對比也不遑多讓。

至於視覺和文字任務DeepMind這次至少為了驗證通用模型的可行性，沒有做跑分，而是給了一些示例。

△描述影象

△聊天對話

最後，DeepMind還對Gato模型的可擴充套件性做了評估。

雖然當前Gato在每一個單獨任務上都還比不上SOTA結果，但實驗結果表明，隨著引數、資料和硬體的增加，Gato模型的效能還有

成比例上漲

的空間。

另外，Gato在

少樣本學習

上也表現出一定潛力。

DeepMind認為，這樣一個通用模型將來可透過提示或微調迅速學習新的任務，再也不用為每個任務都重頭訓練一個大模型了。

通用人工智慧還有多遠？

看完Gato如此表現，網友們的“大受震撼”也就不奇怪了。

甚至還有人認為，AGI（通用人工智慧）近在眼前。

當然，反對/質疑的聲音也不小。

比如始終衝在給人工智慧潑冷水一線的馬庫斯，這次也第一時間開了炮：

仔細看看第10頁。無論模型有多大，大型語言模型標誌性的不靠譜和錯誤資訊仍然存在。

但不管怎麼說，DeepMind在通用人工智慧方向上的努力都在不斷湧現出新成果。

事實上，無論是2013年驚豔了谷歌的雅達利遊戲AI，還是名滿全球的AlphaGo、AlphaStar，DeepMind透過這些階段性成果想要達成的終極目標，一直都通向

通用人工智慧

這個關鍵詞。

去年，DeepMind首席研究科學家、倫敦大學學院教授David Silver還領銜釋出了一篇同樣引起不少討論的文章：Reward is Enough。

論文認為，強化學習作為基於獎勵最大化的人工智慧分支，足以推動通用人工智慧的發展。

而據Gato團隊成員透露，這隻“貓貓”已經在DeepMind內部孕育了2年時間。

此次Gato是以有監督方式進行離線訓練的，但論文也強調，原則上，同樣可以採用離線或線上強化學習的方式對其進行訓練。

而就在一週前，DeepMind釋出了一個新影片，其中說到：

我們接下來要做一件大事（the next big thing），那意味著需要去嘗試很多人們認為過於困難的事情。但我們一定要去嘗試一下。

現在看來，這個next big thing就是指AGI了。

論文地址：https：//www。deepmind。com/publications/a-generalist-agent

參考連結：［1］https：//twitter。com/DeepMind/status/1524770016259887107

TAG： Gato DeepMind 模型任務人工智慧

炸場！DeepMind通用人工智慧新突破：一套權重通吃視覺文字和決策

相關推薦