442個作者100頁論文！谷歌耗時2年釋出大模型新基準｜開源

2022-06-12由量子位發表于科技

一篇AI論文，442個作者。

其中還專門留了一章節寫作者貢獻。

100頁裡超過一半都是參考文獻……

不是，現在都流行這樣式兒的論文嗎？

這不，谷歌最新發布的論文——Beyond The Imitation Game： Quantifying And Extrapolating The Capabilities Of Language Models。

於是作者那一欄就變成了這樣……

來自132個機構的研究學者，耗時兩年提出了一個大語言模型新基準

BIG-bench

。

並在此基礎上評估了OpenAI的GPT模型，Google-internal dense transformer架構等，模型規模橫6個數量級。

最終結果顯示，模型效能雖然隨著規模的擴大而提高，但跟人類的表現相差還很遠。

對於這項工作，Jeff Dean轉發點贊：

Great Work

。

大語言模型新基準

來康康這篇論文究竟說了什麼。

隨著規模的擴大，模型的效能和質量都有一定的改進，這當中可能還存在一些變革性影響，但這些效能此前都沒有很好的描述。

現存的一些基準都有一定的侷限性，評估範圍比較狹窄，效能分數迅速達到飽和。

比如SuperGLUE，在該基準推出後的18個月內，模型就實現了“超過人類水平”的效能。

基於這樣的背景，BIG-bench就誕生了。

目前它由204個任務組成，內容涵蓋語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟體開發等方面的問題。

此外還有個人類專家評審團，也執行了所有任務，以提供基線水平。

為了方便更多機構使用，研究人員還給出了BIG-bench Lite，一個小型但有代表性的任務子集，方便更快地評估。

以及開源了實現基準API的程式碼，支援在公開可用的模型上進行任務評估，以及新任務的輕量級建立。

最終評估結果可以看到，規模橫跨六個數量級，BIG-bench上的總體效能隨著模型規模的擴大、訓練樣本數量的增加而提高。

但跟人類基線水平相比，還是表現得比較差。

具體在一些任務上，模型效能會隨著規模的增加而平穩地提高。但有時候，會在特定規模上突然出現突破性表現。

此外，它還可以評估模型存在的社會偏見。

此外，他們還意外發現模型還可以get一些隱藏技能。比如，如何在國際象棋中合乎規則的移動。

作者貢獻寫了14頁

值得一提的是，可能因為作者過多，論文最後還專門留了一章寫作者貢獻。

洋洋灑灑的寫了14頁，其中包括核心貢獻者、Review的、提供任務的……

剩下的，還有50頁的參考文獻。

好了，感興趣的旁友可戳下方連結康康論文。

論文連結：https：//arxiv。org/abs/2206。04615GitHub連結：https：//github。com/google/BIG-bench參考連結：https：//twitter。com/jaschasd/status/1535055886913220608

相關推薦