AI十級“找茬”選手，非這個書生莫屬，節後開源！

2022-01-22由新智元發表于科技

新智元報道

編輯：好睏桃子

【新智元導讀】

為了測試，研發團隊的大哥都爬樹上了！什麼模型竟然只需10%的訓練資料，效能就能超越同行，還會免費開源？

考驗你眼力的時候到了！

只看一眼，看出什麼了嘛？

一塊木地板？

只答對了一半，其實圖中還有一隻喵。

下一個問題，這是什麼品種的貓？啊。。。這。。。

承認吧，你是辨別不出來的，但是這個AI「一眼」就搞定了。

而這麼厲害的AI還有個詩意的名字，叫「書生」。

更厲害的是，基於「書生」的通用視覺開源平臺OpenGVLab將會在春節後全部公開！

通用？視覺？

近幾年，語言模型的發展可謂是相當迅猛，百花齊放。

小到3。54億引數的BERT，大到5300億引數的威震天-圖靈，以及1。6萬億引數的混合模型Switch Transformer，順便還有首次常識問答超越人類的KEAR。

那麼，視覺模型這邊又如何呢？

目前的CV領域主要是影象匹配文字CLIP和文字生成影象DALL·E這種單一模型。

但是NLP方向的各種成績都表明，發展預訓練大模型不僅僅能夠處理多種複雜任務、適用多種場景和模態，而且能夠增加模型的複用率，減少了模型定製化開發的開銷進而也降低了成本。

而且，通用模型也是通往通用人工智慧的必經之路。

和通用語言模型類似，通用視覺模型的出發點和訓練思路也需要事先透過收集海量的無監督資料。然後透過自監督等方式來訓練，得到通用的預訓練模型。最後根據具體的下游任務再將通用預訓練模型遷移到具體任務上去解決具體問題。

不過，從任務角度看，通用視覺模型主要還是解決純視覺任務，也涉及一些視覺語言相關的多模態任務，而通用語言模型主要在解決語言相關的任務。而從模型訓練角度看，兩者的模型結構存在一些差異，具體訓練的監督形式也不一樣。

但是想要實現模型的通用性，很難。

首當其衝的就是，訓練資料不夠用。

訓練一個性能合格的深度學習模型，所需的資料採集量，少則十幾萬，多則千百萬張圖片，比如自動駕駛和人臉識別，對於資料的需求，達到十億級別，但效能仍未飽和。

在現實應用中，AI需要大量業務資料和使用者網際網路行為資料的融合，而企業可以應用的資料則非常有限。

資料都採集不到，就更不用提什麼「高質量」了。

此外，模型對於資料的學習效率又低，無疑又是雪上加霜。

於是，N個任務就需要開發N個高度定製的模型同時，每個模型在訓練的時候又需構建標註資料集進行專項訓練，並持續進行權重和引數最佳化。

時間、人力以及資源的成本直接拉滿。

即便如此，依然有人想要挑戰一番。

2021年11月，上海人工智慧實驗室聯合商湯科技SenseTime、香港中文大學、上海交通大學共同釋出了新一代通用視覺技術體系——「書生」（INTERN）。

論文地址：https：//arxiv。org/abs/2111。08687

通才是如何練成？

作為通用視覺技術體系的「書生」有三個基礎設施模組，分別為：

通用視覺資料系統（GV-Dataset）

通用視覺網路結構（GV-Architecture）

通用視覺評測基準（GV-Benchmark）

這三個基礎模組有什麼作用？

它們就像「百科全書」、「高樓基底」一樣。「書生」通才的道路上學到的海量知識和建模、評測等基礎能力就靠這三個基礎模組了。

具體點講，其中，在通用視覺資料系統中包含了大量的高質量資料集：

1。超大量級精標註資料：除了整合現有開源資料集，還進行了大規模資料影象標註任務，涵蓋了影象分類，目標檢測以及影象分割等任務，資料總量級達到40M。

分類任務資料量級為71M，其中包含9個公開資料集28M，以及自標註資料43M。目標檢測任務資料量級為4M，其中包含3個公開資料集3M，以及自標註資料1M。

2。超大標籤體系：總標籤量級達到119K，幾乎覆蓋了所有現有開源資料集，在此基礎上擴充了大量細粒度標籤。

極大地豐富了影象任務的標籤，提供了更為合理的組織方式，以及可擴充套件的標籤延伸策略。

3。首次提出視界（realm）概念：結合「書生」標籤體系，可以極大提升預訓練模型的效能。

在通用視覺網路結構中，MetaNet是一種自研的模型搜尋網路，它最大的變種包含百億的引數量，是當今最大的視覺網路之一。

這個網路結構結合了視覺卷積和前沿的視覺自關注機制，透過大規模強化學習網路結構搜尋演算法，取得最佳運算元組合，達到模型效率和效用的最大化。

在相同的資源限制的情況下，「書生」的視覺網路獲得在不同視覺任務下更優異的精度。

在獲得超大規模的視覺神經網路以賦能計算機視覺社群的研究的同時，「書生」的網路支援靈活地進行不同規模的調整，以適應不同程度的工業化落地時的運算能力需求，賦能視覺演算法的工業落地。

有了這樣的網路結構之後，就可以對其進行了從「基礎模型-專家-通才」模型的訓練策略，極大地增強這種網路結構的泛化能力。

第三個便是視覺評測基準，它就像是一個「擂臺」，收集了4種類型共26個下游任務。

不僅包括常規分類任務還包括細粒度分類任務，還包括醫療影象等特殊領域的分類任務、行人檢測等熱門檢測任務，擴充套件到分割與深度任務，可以很好地衡量模型的泛化能力。

這一視覺評測基準還引入了百分比樣本（percentage-shot）的設定。

亮點在於，下游任務訓練資料被壓縮的同時，還可以很好地保留原始資料集的長尾分佈等屬性。

「書生」除了這三個基礎設施模組之外，還有四個訓練階段模組。

在「書生」（INTERN）的四個訓練階段中，前三個階段位於該技術鏈條的上游，在模型的表徵通用性上發力。

第一階段，「基礎能力」的培養需要經過一個跨模態的預訓練過程，透過大量的影象-文字對進行通用模型的預訓練，讓其學到廣泛的基礎常識，為後續學習階段打好基礎；

第二階段，培養「專家能力」，即多個專家模型各自學習某一領域的專業知識，讓每一個專家模型高度掌握該領域技能，成為專家；

第三階段，培養「通用能力」，此時的通才模型繼承了大規模多模態的預訓練資訊，也融合了多樣的感知任務的資訊，「書生」在各個技能領域都展現優異水平，並具備快速學會新技能的能力。

透過前三個模組階梯式的學習，「書生」具備了高度的通用性和良好的泛化能力。

當進化到位於下游的第四階段時，系統將具備「遷移能力」，此時「書生」學到的通用知識可以應用在某一個特定領域的不同任務中。

從實驗結果來看，相較於當前最強CV模型CLIP，「書生」在準確率和資料使用效率上均取得了大幅提升。

具體來講，在分類識別、目標檢測、語義分割及深度估計四大任務26個數據集上，「書生」的平均錯誤率分別降低了40。2%、47。3%、34。8%和9。4%。

同時，「書生」只需要1/10的下游資料，就幹翻了CLIP基於完整下游資料的準確度。

書生不是「書呆子」

光學不去練，不會用，還是沒啥本事。

要明確的是，商湯的「書生」可不是一個書呆子。

怎麼講？

首先，它能夠舉一反三。

舉個形象點的栗子，比如讓「書生」識別花的種類，每一類只需要提供2個訓練樣本，識別準確率高達99。7%。

這個花卉資料集由102種英國常見的花組成，每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

它不僅有觸類旁通的能力，而且在自動駕駛、智慧城市、智慧醫療等場景均已經實現了落地應用。

就拿自動駕駛來說吧，要想不成為馬路殺手，一套CV模型需要能夠識別各種物體，包括交通標誌，車道線識別等，還得預測出與障礙物的距離，行人檢測等等。

對於這些任務，單一視覺模型是無法勝任的。

而「書生」技術體系從資料、模型等各個方面出發，對自動駕駛感知模型，尤其是長尾類別和場景非常友好，在小樣本甚至是零樣本的應用場景下表現明顯優於既往模型。

其實，在實際場景應用中，資料都存在長尾分佈的現象，少量類別佔據大多數樣本，而大量類別僅有少量樣本。

在智慧城市中也是同樣的道理，面對很多長尾、碎片化場景就不得不祭出通才「書生」了。

生活中，我們經常會見到城市街道上的井蓋頻頻丟失的問題。

如果CV模型沒有關注城市治理的長尾問題，偷井蓋問題很難得到解決。況且，井蓋也有很多種樣子。

但是，這對於通才「書生」來講都是小case。只要每一類提供2個訓練樣本，問題不就搞定了嗎。

因為它已經在訓練階段被「喂下」大量資料成為通才，只需要看到少量樣本，就具備了舉一反三的能力。

有了「書生」的加持，不僅可以預防井蓋丟失，還能實現事後追責的精細化管理。

此外，智慧製造、智慧醫療等應用中還會存在很多類似的長尾場景，而通用視覺「書生」的推出能夠讓業界以更低的成本獲得擁有處理多種下游任務能力的AI模型。

並以其強大的泛化能力支撐實際場景中大量小資料、零資料等樣本缺失的細分和長尾場景需求。

書生（INTERN）技術體系可以讓AI模型處理多樣化的視覺任務

這些暴力計算下的AI場景需要強大的算力作為支撐，這時候SenseCore商湯AI大裝置正好就派上用場了。

AI大裝置正是透過超強的算力基礎，為人工智慧的研發、創新和應用提供源動力。

正如商湯科技研究院院長王曉剛所提到的那樣：

「書生」通用視覺技術體系是商湯在通用智慧技術發展趨勢下前瞻性佈局的一次嘗試，也是SenseCore商湯AI大裝置背景下的一次新技術路徑探索。

「書生」承載了讓人工智慧參與處理多種複雜任務、適用多種場景和模態、有效進行小資料和非監督學習並最終具備接近人的通用視覺智慧的期盼。

希望這套技術體系能夠幫助業界更好地探索和應用通用視覺AI技術，促進AI規模化落地。

不過，想要成為一個優秀的通用視覺模型，「書生」還有三個挑戰需要解決：

1。模型最佳化速度的提升

對於一個好的預訓練模型，往往需要更大更好的網路結構，以及大規模的資料，這就會導致幾天甚至幾周的模型訓練時間，如何在保持表徵能力的同時，大幅度加速模型的訓練過程，具有非常重大的現實意義。

2。更大範圍內的通用能力仍待探索

書生模型，可以很好地在常見的視覺任務裡達到通用的效果。在跨度較大的領域，比如超分等底層視覺任務，書生模型還有很大的進步空間。

3。大模型到小模型的轉變

將大模型的表徵能力無損失的遷移到可部署到終端裝置上的小模型，對於預訓練模型的推廣有非常大的價值。

One More Thing

要問這個模型好不好做？

研發急得都直「爬樹」！

為了測試模型在zero-shot下的精度如何，書生研發團隊的模型科學家都親自上演了「爬樹」特別節目。透過創造特殊場景，以隨機生成圖片，去考驗模型能力。

（研究需要，大家請勿模仿^_^）

「書生」看到後，歪嘴一笑。

這不就是「爬樹」嘛，置信度0。96給你。

而且有趣的是，「書生」模型還注意到了樹上人眼都很容易忽略的繩子。

可能，這就是「明察秋毫」吧！

未來，「書生」要做的一件事情：

基於「書生」的通用視覺開源平臺OpenGVLab也將在今年年初正式開源，產學研一道共創通用AI生態！

而即將開源的OpenGVLab，正是基於「書生」的通用視覺開源平臺。

其中的網路結構除了商湯自研的MetaNet，還包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以滿足不同場景的應用，賦能計算機視覺。

然而，「書生」的佈局不止於此。

OpenGVLab將與上海人工智慧實驗室此前釋出的OpenMMLab、OpenDILab一道，共同構築開源體系OpenXLab，持續推進通用人工智慧的技術突破和生態構建。

「書生」研發團隊的一位成員調侃道，「隨著書生模型精度越來越高，我們的辦公樓層越來越高。」

開源的「書生」，前景廣闊。

TAG：模型書生視覺通用資料

AI十級“找茬”選手，非這個書生莫屬，節後開源！

相關推薦