引數跑分真那麼重要?大模型評價標準該變變了

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

預訓練大模型,自誕生以來不斷重新整理AI能力,成為業界競爭的焦點。

引數規模突破千億直奔萬億,開發難度和成本也隨之增大。

到了這個份上,大模型的開發與應用似乎成了“巨頭專屬”,效果越來越驚豔,離普通人卻越來越遠了。

不過,例外正在發生。

最近一場AI創意賽上,全國各地近2000人參與,大家腦洞大開,使用大模型能力開發出各類趣味應用。

如B站UP主同濟同濟子豪兄的這款論文起名神器,輸入摘要就可自動生成論文標題。

引數跑分真那麼重要?大模型評價標準該變變了

開發出這些作品的人其實很多並非AI從業者,甚至沒有計算機專業背景,比如文科生,還有創業公司產品經理等。

引數跑分真那麼重要?大模型評價標準該變變了

這些作品本身倒不是本文的重點,只是,使用大模型什麼時候門檻這麼低了?

這場由百度舉辦的比賽,提供的是文心知識增強大模型做技術支援,此外還有一個特別的標籤——

業界首次大模型能力向公眾開放。

引數跑分真那麼重要?大模型評價標準該變變了

要知道,大模型能力像要向公眾開放,不能光是發發論文、開源一下程式碼了事。

背後還要額外付出努力,提供一系列低門檻的開發平臺和工具、相應的培訓和教學,才能讓沒有AI基礎、甚至不會程式設計的人都能“玩轉大模型”。

引數跑分真那麼重要?大模型評價標準該變變了

為什麼要做到這一步?

百度集團副總裁吳甜這樣回答:

這個世界上有技術背景的人還是少數,AI想要落地不能僅靠技術人員,創意在民間。

只有技術門檻低到了所有人都可以的時候,創意才會真正大規模爆發起來,這是人工智慧落地路上必然的趨勢。

大模型落地難在哪?

想要理解這個趨勢,得先跳出比賽本身,看看AI落地、特別是大模型落地到底遇到了什麼困難。

最近,微軟認知服務團隊發表的一篇大模型遭遇“不可能三角”論文,引發業內關注。

引數跑分真那麼重要?大模型評價標準該變變了

論文提出,目前的預訓練語言模型對於模型規模、精調能力、小樣本能力三者不可兼得。

引數跑分真那麼重要?大模型評價標準該變變了

目前業內的普遍做法,是試圖得其二的同時努力往第三點靠。

放棄控制規模開發超大模型,可以再用知識蒸餾等手段做小型化。

不追求少樣本能力,可以在缺少資料的任務上做資料增強。

不追求精調能力,改用提示學習 (Prompt learning)做少樣本任務的方法最近也火了起來。

不過妥協的辦法總歸是有這樣那樣的問題,從效果或成本上阻礙大模型進一步應用落地。

如何突破這個“不可能三角”,各家都有著自己的答案。

微軟論文中給出一種可能路徑,先從個別任務上開啟突破口,如命名實體識別或文字摘要,實現單一任務佔據全部三項優勢後再圖橫向拓展。

谷歌近日推出的下一代AI架構Pathway,則是從提升訓練效率角度嘗試解決。也就是不怕模型大,轉而追求把煉大模型的難度降低。

百度的技術路線則是知識增強,讓AI在大規模知識的指導下以更高效率學習到海量資料中蘊含的規律。

引數跑分真那麼重要?大模型評價標準該變變了

百度靠引入大規模知識圖譜,只用百億級引數規模就在語言模型權威測評SuperGlue上登頂全球榜首,超越人類水平0。8個百分點。

後來釋出的全球首個千億級知識增強大模型鵬城-百度·文心,更是在機器閱讀理解、文字分類、語義相似度計算等60多項任務中都取得了最好效果,在30多項小樣本和零樣本任務上,也重新整理了基準。

……

關於模型本身的事先說到這裡,現階段要想真正解決大模型落地問題,百度還提出一個觀點:

光靠技術手段是遠遠不夠的。

跳出技術之外

文心大模型家族自2019起開始打造,百度對其定位是產業級知識增強大模型。

引數跑分真那麼重要?大模型評價標準該變變了

知識增強前面已經介紹,那麼該如何理解“產業級”這個定位?

吳甜解釋其含義為“來源於產業實踐,同時服務於產業實踐,在實踐當中建設起來”。

一方面,百度研發大模型的初衷就來自產業的落地實踐。

AI落地場景越多,模型面臨泛化性差的問題就越突出。每面臨一個新的場景就需要收集新的資料,進行新的模型訓練。

預訓練模型的出現,透過集中提供通用演算法、打造技術底座,大幅降低了人工智慧的應用門檻,從開發階段就應該是面向產業的。

開發設計階段用到的資料要來源於產業。百度走的知識增強路線,意味著深入到金融、醫療等特定行業時,除了收集該行業的非結構化資料,還要積累專業知識。

做不同的任務設計,模型最後學到的是不一樣的。百度會結合大量的產業應用,藉助任務構建器不斷地提煉任務、挖掘任務,讓模型持續進行學習。

另一方面,文心又依託於百度功能完備的產業化大生產平臺輸出到百行千業,為行業使用大模型帶來更大的便捷。

文心大模型開放了配套大模型開發、輕量化和部署的工具,推進產業落地應用,激發創意。

依託百度飛槳平臺自主研發的端到端自適應分散式訓練框架與4D混合並行技術,以及百舸AI異構計算平臺,解決了大模型訓練過程中多個世界性難題,使大模型訓練速度提升、模型效果更優。

在落地應用上,文心若僅提供API呼叫只能滿足離技術較近行業的少量需求。

因此,百度還會提供配套的資料標註、模型輕量化、邊緣部署等一系列工具和平臺。

如此開發出的產業級知識增強大模型,核心價值在於驅動AI的規模化應用。

引數跑分真那麼重要?大模型評價標準該變變了

人工智慧在與眾多這些產業結合時,場景非常分散、長尾。

針對高頻次、容易流程化和標準化的場景,可以直接提供開發好的AI能力,如保險行業的合同處理,可以靠智慧文件分析能力完成。

但還有很多如製造業、教育等行業中更碎片化的場景,數字化基礎薄弱,行業知識更依靠人類專家經驗、師徒間口口相傳。

這就回到了文章開頭的問題,為什麼要把AI大模型能力做到向公眾開放?

數量眾多的場景,要是靠AI工程師去一個一個去深入調研、做適配,無法解決所有的問題。

只有讓有需求的人都能認識、接觸、親手用上大模型,才能激發創意,取得應用落地上的更大突破。

為此,百度飛槳提供了零門檻AI開發平臺EasyDL,擁有從資料採集、標註、清洗到模型訓練、部署的一站式AI開發能力,無需程式設計和演算法基礎就能使用。

對更復雜的需求,也有BML全功能AI開發平臺,提供開發環境、功能元件和高性價比的算力資源。

透過不斷降低門檻,構建大模型生態,文心大模型對外呼叫量超5000萬次,服務了6萬+開發者、企業、科研機構。

為了讓更多人看到大模型、瞭解大模型、用上大模型,百度舉辦了面向公眾的AI創意賽。

此外還有面向產業的首席AI架構師培養計劃,已向業界輸送247位AI架構師,遍佈工業、農業、金融、交通、能源等數十個行業。

人工智慧高校師資培訓,免費培訓AI專業教師3000餘人,助力700多個高校開設深度學習課程,培養了數萬名在校生。

去年底,還宣佈成立百度松果學堂,打造源於產業的AI人才培養平臺,致力於讓每個人都能更便捷地獲取AI知識,學習AI技術。

所有積累的行業知識、產業應用、人才都將匯聚在文心大模型生態,以及背後更大的百度飛槳深度學習生態中進一步推動AI落地,形成正向迴圈。

到底什麼才是一個好的大模型?

當今,各大研究機構、科技公司都爭相打造自己的大模型。

引數規模上千億、訓練資料也上千GB。單體稠密模型之外,也有稀疏模型路線,引數更是突破萬億。

各大基準測試榜單也不斷被重新整理,超越人類平均水平已是過去式,追上人類最佳水平成了新的目標。

層出不窮的進展讓人眼花繚亂,到底該如何評價一個大模型的優劣?

若是單純比引數大小,缺失了成本和效率的維度。若只看跑分高低,也看不出真正落地時的效果。

如此看下來,一個大模型好壞的新標準也呼之欲出:

能否在效能領先的同時支撐大量產業應用。

從這個角度看,開發者數量超過6萬、在數百個場景中落地應用的文心大模型,真正可稱作“產業級”大模型。

而且百度打造大模型,從技術和難度上來說,並無意外之處。

但最值得關注的還是入場的初心和立場。

據稱文心大模型問世,核心是來自於產業實際的需求,並非閉門造車的結果。

一方面,產業有需求,於是百度有了響應,並且很快實現了技術工程化,再透過飛槳快速實現了產業應用。

另一方面,產業的反饋證明了大模型的價值。在文心落地中,不僅各類大小企業實現了產業化升級,而且側面證明了大模型在商業化落地上的可能性和可行性之路。

在AI模型中,輸入、輸出以及反饋是缺一不可的關鍵要素,而文心大模型的實踐,同樣完成了這樣的閉環。

但這種路徑在大模型上是否可複製?

答案或許還不能言之鑿鑿。

首先要考慮的是技術能力,其次還得有產業生態,最後還能真正從開發者的反饋中獲得認可。

文心之路,多少有點百度飛槳的“凡爾賽”意味,其所具備的要素,並非其他玩家兼具。

但至少,一條大模型的商業化落地路徑,現在已經清晰可見。

文心模式,就是這條路線。

參考資料:

[1] https://arxiv。org/abs/2204。06130

TAG: 模型AI百度文心落地