442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

一篇AI論文,442個作者。

其中還專門留了一章節寫作者貢獻。

100頁裡超過一半都是參考文獻……

不是,現在都流行這樣式兒的論文嗎?

這不,谷歌最新發布的論文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。

於是作者那一欄就變成了這樣……

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

來自132個機構的研究學者,耗時兩年提出了一個大語言模型新基準

BIG-bench

並在此基礎上評估了OpenAI的GPT模型,Google-internal dense transformer架構等,模型規模橫6個數量級。

最終結果顯示,模型效能雖然隨著規模的擴大而提高,但跟人類的表現相差還很遠。

對於這項工作,Jeff Dean轉發點贊:

Great Work

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

大語言模型新基準

來康康這篇論文究竟說了什麼。

隨著規模的擴大,模型的效能和質量都有一定的改進,這當中可能還存在一些變革性影響,但這些效能此前都沒有很好的描述。

現存的一些基準都有一定的侷限性,評估範圍比較狹窄,效能分數迅速達到飽和。

比如SuperGLUE,在該基準推出後的18個月內,模型就實現了“超過人類水平”的效能。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

基於這樣的背景,BIG-bench就誕生了。

目前它由204個任務組成,內容涵蓋語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟體開發等方面的問題。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

此外還有個人類專家評審團,也執行了所有任務,以提供基線水平。

為了方便更多機構使用,研究人員還給出了BIG-bench Lite,一個小型但有代表性的任務子集,方便更快地評估。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

以及開源了實現基準API的程式碼,支援在公開可用的模型上進行任務評估,以及新任務的輕量級建立。

最終評估結果可以看到,規模橫跨六個數量級,BIG-bench上的總體效能隨著模型規模的擴大、訓練樣本數量的增加而提高。

但跟人類基線水平相比,還是表現得比較差。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

具體在一些任務上,模型效能會隨著規模的增加而平穩地提高。但有時候,會在特定規模上突然出現突破性表現。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

此外,它還可以評估模型存在的社會偏見。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

此外,他們還意外發現模型還可以get一些隱藏技能。比如,如何在國際象棋中合乎規則的移動。

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

作者貢獻寫了14頁

值得一提的是,可能因為作者過多,論文最後還專門留了一章寫作者貢獻。

洋洋灑灑的寫了14頁,其中包括核心貢獻者、Review的、提供任務的……

442個作者100頁論文!谷歌耗時2年釋出大模型新基準|開源

剩下的,還有50頁的參考文獻。

好了,感興趣的旁友可戳下方連結康康論文。

論文連結:https://arxiv。org/abs/2206。04615GitHub連結:https://github。com/google/BIG-bench參考連結:https://twitter。com/jaschasd/status/1535055886913220608

TAG: 模型Bigbench論文效能