教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

蕭簫 發自 凹非寺

量子位 | 公眾號 QbitAI

大語言模型用著爽,但推理速度實在太慢了?

而且,增加模型體積,推理效果也並不一定就比之前更好。

為了解決這一問題,谷歌MIT的研究人員提出了一個新框架

CALM

,讓它自己來決定計算量。

如果CALM意識到某些層“可有可無”,那麼它在計算時就會跳過這些層。

論文被po到網上後,立刻火了一波:

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

有網友表示,我們就是需要這樣更智慧和自適應的模型,顯然CALM的解碼器已經做到了:

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

直接用中間層輸出結果

CALM全稱Confident Adaptive Language Modeling,即置信自適應大語言模型。

這一模型基於Transformer架構,為了加速它的計算,研究人員提出了一個名叫“

提前退出

”(early exiting)的方法,讓模型根據不同的輸入,

動態

決定要用多少層網路來計算。

也就是說,在計算的過程中,模型不需要經過每一層計算再輸出結果,而是能直接用中間層的特徵輸出token,從而降低模型計算量。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

所以,模型如何決定“退出”的時機呢?

這就需要訓練模型學會自己判斷了。

其中,Yfull是標準模型輸出的結果,Yearly是模型“提前退出”時輸出的結果。為了讓Yearly的效果更好,就需要儘可能讓它與Yfull保持一致。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

當然,不同的任務對於文字輸出一致性也有不同的要求,例如對生成結果要求沒那麼嚴格(可以生成更多樣的語句)的任務,對於Yfull和Yearly的一致性要求就沒那麼高。

因此作者們也在論文中給出了兩個不同的公式,可根據實際情況選用:

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

在實際操作上,論文透過設定一個區域性的token置信度,來檢查其對整個生成序列的影響。

模型在解碼過程中,會計算每一層的置信度c,並將它與達到“提前退出”的閾值λ相比,如果c大於λ,則模型“提前退出”。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

所以,這樣的模型實際測試效果究竟如何?

歸納翻譯QA任務表現都不錯

論文在CNN/DM、WMT和SQuAD三個資料集上進行了測試。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

其中,CNN/DM是一個新聞文章資料集,需要輸出一個幾句話概括文章的結果;WMT15 EN-FR是一個機器翻譯資料集,主要是法譯英句子的結果;Open-book SQUAD 1。1則是一個根據維基百科提問的QA資料集。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

據一作Tal Schuster介紹,在

保持相同效能

的情況下,CALM使用的解碼器層數平均比之前降低了

3倍

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

對於這篇論文,有網友表示贊同:模型確實不需要總是“長時間深入思考”,有時候幾層就能推理出正確答案了。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

據作者表示,這一加速解碼的思路,適用於任何Seq2seq模型。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

作者介紹

這篇論文的作者一共有8個人,分別來自谷歌和MIT CSAIL,其中主要負責人有兩位,Tal Schuster和Adam Fisch。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

Tal Schuster博士畢業於MIT,目前是谷歌的高階研究員,研究方向是機器學習模型的魯棒性、可靠性和效率提升。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

Adam Fisch,MIT在讀博士生,本科畢業於普林斯頓大學,研究方向是機器學習量化不確定性、少樣本學習等。

教大模型自己跳過“無用”層,推理速度×3效能不變,谷歌MIT新方法火了

TAG: 模型Calm輸出MIT計算