facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

新智元報道

編輯:LQ

【新智元導讀】

Facebook AI釋出了一篇Yann LeCun和研究科學家Ishan Misra合寫的文章:《自監督學習:智慧的暗物質》,文章把「常識」描述為人工智慧的「暗物質」,還介紹了:自監督學習是最有希望賦予AI類常識的途徑。

從嬰兒時期的「物體恆存」開始,我們知道跟我們玩躲貓貓的大人其實並沒有消失,他們就藏在某個地方,只是被某個東西擋住了。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

「你是想告訴我,咱們玩躲貓貓的時候其實你哪也沒去?」

我們也知道因為「地心引力」,蘋果只會從上往下落而不會從下往上升。

在習得了無數類似的概念後,我們形成了對這個世界的廣義預測模型,在隨後的成長和閱歷中,透過不斷嘗試並觀察這些概念的應用效果,我們不斷建立假設,解釋我們的行為如何改變這個世界。這就構成了我們的常識。

常識是構成人類和動物智慧的主體。

有了常識,人類可以快速學習很多新的東西:幾張奶牛的圖片就可以讓小孩子認識「奶牛」這種動物;有了常識,有的人可以在20個小時內學會開車。

但是,人工智慧卻做不到,學習了幾張奶牛的圖片後,把奶牛換個地方,它可能就認不出了;把人類幾千個小時的學車資料輸到最好的AI系統裡,它仍然不能實現完全自主駕駛。

因為它沒有常識。

常識是人工智慧的暗物質。

LeCun在最新的一篇文章裡這樣描述。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

近年來,人工智慧取得了巨大的進步,人工智慧系統可以從大量精心標記的資料中學習。

這種「監督學習」在訓練專門的模型方面效能極好,在它們訓練的任務上往往效能表現極高。

但是,只靠監督學習,人工智慧是走不遠的。

由目前的監督學習再往前發展遇到了瓶頸,如何在標記資料不充分的情況下學習新技能,還能完成多項任務?

現實世界中,我們又不可能標記所有的東西,而且有些任務標記資料不充分,比如訓練資源匱乏的語言翻譯系統。

如果人工智慧能夠在訓練資料集之外獲得對現實世界更加細緻深入的理解,那它將會更接近人類智慧水平。

然而,對於人類理所當然的常識,對人工智慧來說卻一直是一大挑戰。

那麼如何讓人工智慧獲得「類常識」呢?

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

LeCun和Ishan Misra在這篇文章中表示,自監督學習(SSL)是最有可能讓人工智慧獲得背景知識和類常識的方法之一。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

Facebook研究科學家Ishan Misra

自監督學習

自監督學習使人工智慧系統能夠從海量資料中學習,這對於識別和理解更微妙、更少見的世界表徵模式非常重要。

自監督學習在推進NLP方面一直都很成功,包括 Collobert-Weston 2008模型、 Word2Vec、 GloVE、 fastText,以及最近的BERT、RoBERTa、XLM-R 等。以這種方式預先訓練的系統比單獨以監督的方式訓練的系統性能更高。

Facebook最新的研究專案

SEER

利用SwAV和其他方法對10億個隨機未標記影象進行大型網路預訓練,在多種視覺任務中都獲得了最高精度。

這一進展表明,自監督學習可以勝任複雜的CV任務,以及現實世界場景。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

研究人員透過Instagram的公開的10億張圖片進行模型訓練

這篇文章還將重點介紹在不確定性存在的情況下用於預測的基於能量的模型、聯合嵌入方法以及用於人工智慧系統中自監督學習和推理的延遲可變架構等一些最前途的新方向。

自監督學習是一種預測學習

自監督學習從資料本身獲得監督訊號,通常利用資料中的底層結構。自監督學習的一般技術是從任何觀察到的或未隱藏的輸入部分預測任何未觀察到的或隱藏的輸入部分(或特性)。

例如,正如在 NLP 中常見的那樣,我們可以隱藏句子的一部分,並從剩餘的單詞中預測隱藏的單詞。我們也可以從當前幀(觀測資料)中預測影片中過去或未來的幀(隱藏資料)。

由於自監督學習利用資料本身的結構,它可以利用各種監督訊號跨越共同發生的模式(如影片和音訊)和跨越大型資料集ーー所有這些都不依賴於標籤。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

在自監督學習中,系統被訓練為從可見的輸入部分(綠色)預測隱藏的輸入部分(灰色)

作為SSL監督訊號的結果,「自監督學習」這個術語比以前的術語「無監督學習」更能被人們接受。

無監督學習是一個定義不清且具有誤導性的術語,它指的是學習根本不需要任何監督。

事實上,自監督學習並不是無監督的,因為它使用的反饋訊號遠遠多於標準的有監督學習和強化學習的方法。

面向語言與視覺的自監督學習

自監督學習對 NLP 有著特別深遠的影響,允許我們在大型的未標記文字資料集上訓練BERT、 RoBERTa、 XLM-R等模型,然後將這些模型用於下游任務。

這些模型在自我監督階段進行預訓練,然後針對特定任務進行微調,例如對文字的主題進行分類。在自我監督的預訓練階段,系統顯示一個簡短的文字(通常是1000個單詞) ,其中一些單詞被遮蔽或替換。

這個系統被訓練來預測被遮蔽或替換的單詞。在這樣做的過程中,系統學會了表達文字的意思,這樣它就可以很好地填寫「正確的」或在上下文中有意義的詞語。

預測輸入中缺少的部分是 SSL 預訓練的一個較為標準的任務。要完成「( )在熱帶草原上追逐( )」這樣的句子,系統必須知道獅子或獵豹可以追逐羚羊或角馬,但貓在「廚房」追逐老鼠,而不是在「熱帶草原」。

作為訓練的結果,系統學會了表達單詞的意義,單詞的句法角色,以及整個文字的意義。

然而,這些技術不能輕易地擴充套件到新的領域,比如 CV。 儘管早期的結果很有希望,SSL在計算機視覺方面還沒有帶來我們在 NLP 中看到的同樣的改進(儘管最終這將會改變)。

其主要原因是,在預測影象時要比預測文字時更難以表示不確定性。當缺失的單詞無法被準確預測(是「獅子」還是「獵豹」?)系統可以將詞彙表中所有可能的單詞與分數或機率聯絡起來: 「獅子」、「獵豹」和其他一些捕食者的得分最高,而詞彙表中其他單詞的得分都很低。

這種規模的培訓模型還需要一個在執行時間和記憶體方面都很有效的模型架構,不會在精確性上有所妥協。

幸運的是,FAIR最近在架構設計領域的一項創新帶來了一個稱為 RegNets 的新模型家族,它完全符合這些需求。

RegNet 模型能夠擴充套件到數十億甚至數萬億個引數,可以進行最佳化適應不同的執行時間和記憶體限制。

但是我們不知道如何有效地表示不確定性,當我們預測影片中丟失的幀或者影象中丟失的補丁時。我們不能列出所有可能的影片幀,並將其中的每一幀關聯一個分數,因為它們的數量是無限的。

雖然這個問題限制了 SSL 在視覺方面的效能改進,但是新的 SSL 技術,例如 SwAV,正開始在視覺任務中打破精確記錄。

這在 SEER 系統中得到了最好的證明,該系統使用一個經過數十億例子訓練的大型卷積網路。

對預測中的不確定性建模

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

為了更好地理解這一挑戰,我們首先需要理解預測的不確定性,以及與CV相比,它是如何用自然語言處理建模的。在 NLP 中,預測丟失的單詞包括計算詞彙表中每個可能的單詞的預測得分。

雖然詞彙量本身很大,預測一個缺失的單詞涉及到一些不確定性,但是可以生成一個詞彙表中所有可能的單詞的列表,以及該單詞在該位置出現的機率估計。

典型的機器學習系統可以將預測作為一個分類問題來處理,並使用一個巨大的所謂 softmax 層來計算每個結果的得分,這一層將原始得分轉換為一個可能詞的機率分佈。

使用這種技術,預測的不確定性表現為對所有可能結果的機率分佈,前提是可能結果的數量是有限的。

另一方面,在 CV 中,類似的任務是預測影片中的「缺失」幀、影象中的缺失補丁或語音訊號中的缺失片段,這涉及到對高維連續物體的預測,而不是離散的結果。有無數可能的影片幀可以合理地跟隨給定的影片剪輯。

不可能顯式地表示所有可能的影片幀並將預測分數與它們關聯起來。事實上,我們可能永遠沒有技術來表示高維連續空間上合適的機率分佈,例如所有可能的影片幀的集合。

這似乎是一個棘手的問題。

自監督方法的統一觀點

有一種方法是可以在基於能量的模型(EBM)的統一框架內考慮 SSL。EBM是一個可訓練的系統,給定兩個輸入,x 和 y,告訴我們它們之間是多麼不相容。

例如,x 可以是一個短影片片段,y 可以是另一個影片片段。機器會告訴我們 y 在多大程度上是 x 的好延續,為了表示 x 和 y 之間的不相容性,機器產生一個單一的數字,稱為能量。如果能量低,則認為 x 和 y 是相容的; 如果能量高,則認為它們是不相容的。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

基於能量的模型(EBM)測量觀測值 x 和預測值 y 之間的相容性。如果 x 和 y 是相容的,那麼能量就是一個小數; 如果 x 和 y 是不相容的,那麼能量就是一個大數

訓練一個能量模型包括兩個部分: (1)向它展示相容的 x 和 y 的例子,並訓練它產生較低的能量,(2)找到一種方法,以確保對於一個特定的 x,與 x 不相容的 y 值產生比與 x 相容的 y 值更高的能量。第一部分是簡單的,難的是第二部分。

對於影象識別,我們的模型採用兩幅影象,x 和 y 作為輸入。如果 x 和 y 是同一影象的輕微變形版本,則模型被訓練為在其輸出上產生低能量。

例如,x 可以是一張汽車的照片,y 可以是同一輛汽車的照片,這張照片是在一天中不同的時間從一個稍微不同的位置拍攝的,因此 y 中的汽車是移動的,旋轉的,大的,小的,並且顯示出與 x 中的汽車稍微不同的顏色和陰影。

聯合嵌入,孿生神經網路

一個特別適合這樣做的深度學習架構是所謂的孿生神經網路或聯合嵌入架構。這個想法可以追溯到20世紀90年代早期和21世紀中期Geoff Hinton實驗室和Yann LeCun團隊的論文。

在相當長的一段時間裡,它都被忽視,但自2019年底以來,它迎來了復興。聯合嵌入體系結構由同一網路的兩個相同(或幾乎相同)副本組成。一個網路輸入 x,另一個網路輸入y。

網路產生稱為嵌入的輸出向量,代表 x 和 y。第三個模組,在頭部連線網路,計算一個能量作為兩個嵌入向量之間的距離。當模型顯示同一影象的變形版本時,網路的引數可以很容易地調整,使得它們的輸出更加接近。

這將確保網路將產生幾乎相同的表示(或嵌入)的物件,無論該物件的特定檢視是什麼。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

聯合嵌入結構。位於頂部的函式 c 產生一個標量能量,用於測量由具有相同引數的兩個同卵雙生網路產生的表示向量(嵌入)之間的距離(w)。當 x 和 y 是同一影象的不同版本時,系統被訓練為產生低能量,這迫使模型為兩幅影象產生相似的嵌入向量。困難的部分是訓練模型,以便為不同的影象產生高能量(即不同的嵌入)。

難點在於當 x 和 y 是不同的影象時,確保網路產生高能量,即不同的嵌入向量。如果沒有特定的方法,這兩個網路會忽略它們的輸入,且總是產生相同的輸出嵌入。

這種現象被稱為坍縮。當坍縮發生時,不匹配的 x 和 y 的能量並不比匹配的 x 和 y 的能量高。

有兩類技術可以避免坍縮: 對比方法和正則化方法。

基於能量的對比 SSL

對比方法的基本思想是構造不相容的 x 和 y 對,並調整模型的引數使得相應的輸出能量較大。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

用對比方法訓練能量模型,包括同時從訓練集中壓縮相容(x,y)對的能量(用藍點表示) ,同時壓縮以綠點表示的精心選擇的(x,y)對的能量(用綠點表示)。在這個簡單的例子中,x 和 y 都是標量,但在實際情況中,x 和 y 可能是一個具有數百萬維度的影象或影片。找出不相容的x-y對,從而以適當的方式塑造能量,從計算上講是具有挑戰且昂貴的。

透過遮蓋或替換某些輸入詞來訓練 NLP 系統的方法屬於對比法的範疇。但是它們沒有采用聯合嵌入結構。

相反,它們使用一種預測結構,在這種結構中,模型直接為 y 生成預測。一開始是一段完整的文字 y,然後破壞它,例如透過遮蓋一些詞來生成觀察 x。

破壞的輸入會被輸入到一個大型神經網路中進行訓練,來重現原始文字 y。將一個沒有破壞的文字,重建為自身,這時為低重建錯誤;而將一個破壞的文字重建,這時或得到一個較大的重建錯誤。

如果將重建錯誤解釋為能量,它將具有所期望的特性: 正常的文字,能量較低;被破壞的文字,能量較高。

訓練一個模型,對一個被損壞的輸入進行恢復,這項技術被稱為去噪自動編碼器。

雖然這個想法最早可以追溯到20世紀80年代,但2008年蒙特利爾大學Pascal Vincent等人重新提出這個模型,隨後由Collobert 和 Weston把它引入到 NLP 當中,後透過谷歌發表的 BERT 論文流行起來。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

掩碼語言模型是去噪自動編碼器的一個例項,本身就是對比自監督學習的一個例項。變數 y 是一個文字片段; x 是文字中某些單詞被遮蔽的版本。網路經過訓練可以重構未被破壞的文字

正如我們前面指出的,這種型別的預測架構只能對給定的輸入產生單個預測。因為模型必須能夠預測多種可能的結果,所以預測不是一組單詞,而是一系列詞彙表中每個缺失單詞位置的得分。

但是我們不能對影象使用這個技巧,因為我們不能列舉所有可能的影象。這個問題有解決辦法嗎?簡短的回答是否定的。

在這個方向上有很多有趣的想法,但是他們還沒有產生和聯合嵌入結構一樣好的結果。一個有趣的途徑是潛變數預測架構。

facebook ai釋出了一篇文章:自監督學習是最有希望賦予ai類常識的途徑| ppt

一種潛變數預測結構。給定一個觀測值 x,該模型必須能夠產生一組由圖中 s 形帶狀符號的多重相容預測。由於潛變數 z 在一個集合中變化,由一個灰色正方形表示,輸出隨著一組合理的預測而變化

隱變數預測模型包含一個額外的輸入變數(z)。它被稱為latent,因為它的值從來沒有被觀察到。

在一個訓練好的模型中,當隱變數在給定集合中變化時,輸出預測會隨著與輸入 x 相容的合理預測集合的變化而變化。

但是對比方法有一個主要的問題: 訓練它們效率很低。在像影象這樣的高維空間中,有許多方式可以使一個影象與另一個影象不同。

找到一組能夠涵蓋它們與給定影象的所有不同方面的對比影象幾乎是不可能的任務。

套用列夫 · 托爾斯泰的《安娜 · 卡列尼娜》的一句名言: 「幸福的家庭都是相似的,不幸的家庭各有各的不幸。」這似乎適用於任何一類高維物體。

如果可以確保不相容對的能量高於相容對的能量,而不明確地增加許多不相容對的能量,那會怎樣?

基於能量的非對比 SSL

應用於聯合嵌入體系結構的非對比方法可能是目前 SSL 領域最熱門的研究課題。這個領域還有很多沒有被探索,但是看起來很有前途。

聯合嵌入的非對比方法包括 DeeperCluster、 ClusterFit、 MoCo-v2、 SwAV、 SimSiam、 Barlow Twins、 DeepMind 的 BYOL 等。

他們使用了各種技巧,比如為一組相似的影象計算虛擬目標嵌入(DeeperCluster、 SwAV、 simsim) ,或者透過架構或引數向量(BYOL、 MoCo)使兩個聯合嵌入架構略有不同。Barlow Twins 試圖使嵌入向量的各個分量之間的冗餘最小化。

從長遠來看,或許一個更好的選擇是設計出帶有隱變數預測模型的非對比方法。主要的障礙是,他們需要一種方法,以儘量減少潛在變數的能力。

隱變數可以改變的集合的體積限制了低能量輸出的體積。透過最小化這個體積,人們自動地以正確的方式形成能量。

這種方法的一個成功例子是變分自動編碼器(VAE) ,其中隱變數被「模糊」,這限制了它的能力。但是 VAE 還沒有被證明能夠對下游的視覺任務產生良好的表示。

另一個成功的例子是稀疏建模,但它的應用僅限於簡單的體系結構。似乎沒有一個完美的方法可以限制隱變數的容量。

未來幾年的挑戰可能是為基於能量的隱變數模型設計非對比方法,成功地生成影象、影片、語音和其他訊號的良好表現,並在下游監控任務中產生最佳表現,而不需要大量的標記資料。

推進視覺自監督學習

最近,我們建立並開源了一個新的十億引數的自我監督 CV 模型 SEER,已被證明能夠有效地處理複雜的高維影象資料。

它基於適用於卷積網路體系結構(ConvNet)的 SwAV 方法,可以從大量的隨機影象中訓練而不需要任何元資料或註釋。ConvNet 足夠大,可以從這些龐大而複雜的資料中捕獲並學習每一個視覺化概念。

在對10億張隨機的、未標記的和未策劃的公共 Instagram 圖片進行預訓練,並監督對ImageNet進行微調之後,SEER 的表現超過了最先進的、最先進的自我監督系統,在ImageNet上最高準確率達到了84。2% 。

這些結果表明,我們可以將自監督學習正規化遷移到計算機視覺當中。

在 Facebook 上使用自監督學習

在 Facebook,我們不僅透過基礎的、開放的科學研究,在許多領域推進自監督學習技術,而且我們還將這項前沿工作應用於生產,以快速提高我們產品中內容理解系統的準確性,保證人們在我們的平臺上的安全。

自監督研究,就像我們預訓練的語言模型 XLM 一樣,正在加速今天 Facebook 上的一些重要應用,包括主動偵測仇恨言論。

我們已經部署了 XLM-R,這個模型利用了我們的 RoBERTa 架構,來改進我們在 Facebook 和 Instagram 上的多語言仇恨言論分類器。這將能夠檢測仇恨言論,即使在培訓資料很少的語言中也是如此。

近年來自監督的進步讓我們深受鼓舞,儘管這種方法幫助我們揭開人工智慧的暗物質的面紗還有很長的路要走。自監督是通往人類智力水平的道路上的一個步驟,但是在這個步驟背後肯定還有許多步驟。長期的進展將是累積的。

這就是為什麼我們致力於與更廣泛的人工智慧社群合作,以實現我們的目標,有朝一日,建造具有人類智慧水平的機器。我們的研究已經公開發表在頂級會議上。我們組織了研討會,釋出了庫,以幫助加速這一領域的研究。

參考資料:

https://ai。facebook。com/blog/self-supervised-learning-the-dark-matter-of-intelligence

TAG: 監督模型學習預測能量