引數跑分真那麼重要？大模型評價標準該變變了

2022-04-19由量子位發表于科技

夢晨發自凹非寺

量子位 | 公眾號 QbitAI

預訓練大模型，自誕生以來不斷重新整理AI能力，成為業界競爭的焦點。

引數規模突破千億直奔萬億，開發難度和成本也隨之增大。

到了這個份上，大模型的開發與應用似乎成了“巨頭專屬”，效果越來越驚豔，離普通人卻越來越遠了。

不過，例外正在發生。

最近一場AI創意賽上，全國各地近2000人參與，大家腦洞大開，使用大模型能力開發出各類趣味應用。

如B站UP主同濟同濟子豪兄的這款論文起名神器，輸入摘要就可自動生成論文標題。

開發出這些作品的人其實很多並非AI從業者，甚至沒有計算機專業背景，比如文科生，還有創業公司產品經理等。

這些作品本身倒不是本文的重點，只是，使用大模型什麼時候門檻這麼低了？

這場由百度舉辦的比賽，提供的是文心知識增強大模型做技術支援，此外還有一個特別的標籤——

業界首次大模型能力向公眾開放。

要知道，大模型能力像要向公眾開放，不能光是發發論文、開源一下程式碼了事。

背後還要額外付出努力，提供一系列低門檻的開發平臺和工具、相應的培訓和教學，才能讓沒有AI基礎、甚至不會程式設計的人都能“玩轉大模型”。

為什麼要做到這一步？

百度集團副總裁吳甜這樣回答：

這個世界上有技術背景的人還是少數，AI想要落地不能僅靠技術人員，創意在民間。

只有技術門檻低到了所有人都可以的時候，創意才會真正大規模爆發起來，這是人工智慧落地路上必然的趨勢。

大模型落地難在哪？

想要理解這個趨勢，得先跳出比賽本身，看看AI落地、特別是大模型落地到底遇到了什麼困難。

最近，微軟認知服務團隊發表的一篇大模型遭遇“不可能三角”論文，引發業內關注。

論文提出，目前的預訓練語言模型對於模型規模、精調能力、小樣本能力三者不可兼得。

目前業內的普遍做法，是試圖得其二的同時努力往第三點靠。

放棄控制規模開發超大模型，可以再用知識蒸餾等手段做小型化。

不追求少樣本能力，可以在缺少資料的任務上做資料增強。

不追求精調能力，改用提示學習（Prompt learning）做少樣本任務的方法最近也火了起來。

不過妥協的辦法總歸是有這樣那樣的問題，從效果或成本上阻礙大模型進一步應用落地。

如何突破這個“不可能三角”，各家都有著自己的答案。

微軟論文中給出一種可能路徑，先從個別任務上開啟突破口，如命名實體識別或文字摘要，實現單一任務佔據全部三項優勢後再圖橫向拓展。

谷歌近日推出的下一代AI架構Pathway，則是從提升訓練效率角度嘗試解決。也就是不怕模型大，轉而追求把煉大模型的難度降低。

百度的技術路線則是知識增強，讓AI在大規模知識的指導下以更高效率學習到海量資料中蘊含的規律。

百度靠引入大規模知識圖譜，只用百億級引數規模就在語言模型權威測評SuperGlue上登頂全球榜首，超越人類水平0。8個百分點。

後來釋出的全球首個千億級知識增強大模型鵬城-百度·文心，更是在機器閱讀理解、文字分類、語義相似度計算等60多項任務中都取得了最好效果，在30多項小樣本和零樣本任務上，也重新整理了基準。

……

關於模型本身的事先說到這裡，現階段要想真正解決大模型落地問題，百度還提出一個觀點：

光靠技術手段是遠遠不夠的。

跳出技術之外

文心大模型家族自2019起開始打造，百度對其定位是產業級知識增強大模型。

知識增強前面已經介紹，那麼該如何理解“產業級”這個定位？

吳甜解釋其含義為“來源於產業實踐，同時服務於產業實踐，在實踐當中建設起來”。

一方面，百度研發大模型的初衷就來自產業的落地實踐。

AI落地場景越多，模型面臨泛化性差的問題就越突出。每面臨一個新的場景就需要收集新的資料，進行新的模型訓練。

預訓練模型的出現，透過集中提供通用演算法、打造技術底座，大幅降低了人工智慧的應用門檻，從開發階段就應該是面向產業的。

開發設計階段用到的資料要來源於產業。百度走的知識增強路線，意味著深入到金融、醫療等特定行業時，除了收集該行業的非結構化資料，還要積累專業知識。

做不同的任務設計，模型最後學到的是不一樣的。百度會結合大量的產業應用，藉助任務構建器不斷地提煉任務、挖掘任務，讓模型持續進行學習。

另一方面，文心又依託於百度功能完備的產業化大生產平臺輸出到百行千業，為行業使用大模型帶來更大的便捷。

文心大模型開放了配套大模型開發、輕量化和部署的工具，推進產業落地應用，激發創意。

依託百度飛槳平臺自主研發的端到端自適應分散式訓練框架與4D混合並行技術，以及百舸AI異構計算平臺，解決了大模型訓練過程中多個世界性難題，使大模型訓練速度提升、模型效果更優。

在落地應用上，文心若僅提供API呼叫只能滿足離技術較近行業的少量需求。

因此，百度還會提供配套的資料標註、模型輕量化、邊緣部署等一系列工具和平臺。

如此開發出的產業級知識增強大模型，核心價值在於驅動AI的規模化應用。

人工智慧在與眾多這些產業結合時，場景非常分散、長尾。

針對高頻次、容易流程化和標準化的場景，可以直接提供開發好的AI能力，如保險行業的合同處理，可以靠智慧文件分析能力完成。

但還有很多如製造業、教育等行業中更碎片化的場景，數字化基礎薄弱，行業知識更依靠人類專家經驗、師徒間口口相傳。

這就回到了文章開頭的問題，為什麼要把AI大模型能力做到向公眾開放？

數量眾多的場景，要是靠AI工程師去一個一個去深入調研、做適配，無法解決所有的問題。

只有讓有需求的人都能認識、接觸、親手用上大模型，才能激發創意，取得應用落地上的更大突破。

為此，百度飛槳提供了零門檻AI開發平臺EasyDL，擁有從資料採集、標註、清洗到模型訓練、部署的一站式AI開發能力，無需程式設計和演算法基礎就能使用。

對更復雜的需求，也有BML全功能AI開發平臺，提供開發環境、功能元件和高性價比的算力資源。

透過不斷降低門檻，構建大模型生態，文心大模型對外呼叫量超5000萬次，服務了6萬+開發者、企業、科研機構。

為了讓更多人看到大模型、瞭解大模型、用上大模型，百度舉辦了面向公眾的AI創意賽。

此外還有面向產業的首席AI架構師培養計劃，已向業界輸送247位AI架構師，遍佈工業、農業、金融、交通、能源等數十個行業。

人工智慧高校師資培訓，免費培訓AI專業教師3000餘人，助力700多個高校開設深度學習課程，培養了數萬名在校生。

去年底，還宣佈成立百度松果學堂，打造源於產業的AI人才培養平臺，致力於讓每個人都能更便捷地獲取AI知識，學習AI技術。

所有積累的行業知識、產業應用、人才都將匯聚在文心大模型生態，以及背後更大的百度飛槳深度學習生態中進一步推動AI落地，形成正向迴圈。

到底什麼才是一個好的大模型？

當今，各大研究機構、科技公司都爭相打造自己的大模型。

引數規模上千億、訓練資料也上千GB。單體稠密模型之外，也有稀疏模型路線，引數更是突破萬億。

各大基準測試榜單也不斷被重新整理，超越人類平均水平已是過去式，追上人類最佳水平成了新的目標。

層出不窮的進展讓人眼花繚亂，到底該如何評價一個大模型的優劣？

若是單純比引數大小，缺失了成本和效率的維度。若只看跑分高低，也看不出真正落地時的效果。

如此看下來，一個大模型好壞的新標準也呼之欲出：

能否在效能領先的同時支撐大量產業應用。

從這個角度看，開發者數量超過6萬、在數百個場景中落地應用的文心大模型，真正可稱作“產業級”大模型。

而且百度打造大模型，從技術和難度上來說，並無意外之處。

但最值得關注的還是入場的初心和立場。

據稱文心大模型問世，核心是來自於產業實際的需求，並非閉門造車的結果。

一方面，產業有需求，於是百度有了響應，並且很快實現了技術工程化，再透過飛槳快速實現了產業應用。

另一方面，產業的反饋證明了大模型的價值。在文心落地中，不僅各類大小企業實現了產業化升級，而且側面證明了大模型在商業化落地上的可能性和可行性之路。

在AI模型中，輸入、輸出以及反饋是缺一不可的關鍵要素，而文心大模型的實踐，同樣完成了這樣的閉環。

但這種路徑在大模型上是否可複製？

答案或許還不能言之鑿鑿。

首先要考慮的是技術能力，其次還得有產業生態，最後還能真正從開發者的反饋中獲得認可。

文心之路，多少有點百度飛槳的“凡爾賽”意味，其所具備的要素，並非其他玩家兼具。

但至少，一條大模型的商業化落地路徑，現在已經清晰可見。

文心模式，就是這條路線。

參考資料：

［1］ https：//arxiv。org/abs/2204。06130

TAG：模型 AI 百度文心落地

引數跑分真那麼重要？大模型評價標準該變變了

相關推薦