裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

智東西(公眾號:zhidxcom)

作者 | 李水青

編輯 | 漠影

7月的第二個週末,在北京市海淀區的金隅智造中心500多平米展廳中,有20多位90後研究員正在展示他們近來的AI研究成果:VR裸手互動、跑在充電寶上的AI模型訓練、自動駕駛3D檢測新演算法、根據組詞創作的AI畫師……現場參觀者很多,分別來自曠視各部門及夥伴公司。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

這一“極客”場景,是計算機視覺龍頭企業曠視科技一年一度的MegTech技術開放日現場。

現場工作人員告訴我們,這是曠視技術人每年最重要的日子,20多個代表過去一年公司最佳AI技術研究的Demo(樣例)從海量專案中脫穎而出,由締造成果的研究員們自己來講演。

很多人都知道,曠視研究院是曠視科技的核心研發根據地,是全球規模領先的計算機視覺研究院。可以說,這一研究員團體代表著中國面向世界的AI最前沿和新鮮的人才面貌。

可以看一組資料:曠視研究院在歷次計算機視覺世界頂級賽事中贏得42項世界冠軍,連續三年獲得世界上最權威的視覺影象理解大賽COCO的多項冠軍。根據招股書,截至2020年9月30日其擁有576項專利權,還參與制訂了近20項人工智慧相關的國家、行業及團體標準,並贏得了90餘個全國和全行業獎項。

即使無法定義中國AI生產力“天花板”,但這個研究院可能是最接近“天花板”的一個團體。

那麼2022年了,前沿AI技術有什麼最新進展?發展到了什麼程度?作為誕生已11年的國產AI代表企業,曠視MegTech技術開放日是我們瞭解這些問題的一個透鏡。

在技術開發日上,曠視聯合創始人、CEO印奇與曠視研究院基礎科研負責人張祥雨、曠視研究院演算法量產負責人周而進、曠視研究院計算攝影負責人範浩強,對這些前沿技術成果背後的探索和理念進行了深入解讀。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

▲曠視聯合創始人、CEO印奇

一、曠研院AI新妙用:裸手玩VR、線稿秒變3D數字人

盛夏的北京雨後轉晴,下午三點多,曠視技術開放日展區參觀的人多了起來。現場展出的AI技術Demo有20多個,涉及產品技術研發、基礎演算法創新、演算法量產等多個方面。智東西來到現場一探究竟,發現了以下多款“黑科技”。

1、裸手玩VR,提前體驗元宇宙

在進門第一個展臺,曠視展出了一款VR裸手互動Demo。扔掉手柄,裸手操作VR該有多酷炫?這個Demo展示了透過相機捕捉手部的運動狀態,實現虛擬世界的複雜互動,可以說是讓人提前體驗了一把元宇宙。

研究員稱,簡單來說,這是基於深度學習對影象進行手部檢測及關鍵點提取,透過對手部姿態的實時三維重建、姿態行為分析,實現互動。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

2、詞語生成3D人物,畫稿變動畫

3D人物也是時興的元宇宙中的一大要素,展臺坐落在裸手玩VR展臺旁邊。

曠視本次展出了讓AI根據幾個詞語生成3D人物的Demo,比如輸入達爾文,AI就按照他的理解在幾分鐘內生成一個3D達爾文形象。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

研究員講解道,過去,文字輸出3D人物往往需耗費數小時甚至數十小時。本次,曠視透過多種體素編碼方法,並利用多尺度的語義判別器,優化了 text2mesh* 生成模型,大幅縮短模型生成的時間,只需幾分鐘即可。

除了詞語能變3D人,平面的手繪人物畫也能變為3D動畫。一位曠視研究員手繪了4張卡通人物的不同側面圖,基於曠視自研的CoNR模型,就能生成活靈活現的卡通動畫人。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

3、開啟小程式,人人都能擁有一個AI畫師

在一款名為MegLab的微信小程式中,智東西與一行人體驗了“薄荷裡AI畫師“。

輸入文字或新增想要二次創作的圖片,就可以自動生成畫作。之所以名為“薄荷裡”,是因為有時候生成的畫作很合理,有時候不合理。這一應用採用對抗神經網路,能大幅降低了人們創作視覺作品的門檻。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

4、AI變智慧教練、美妝顧問

在一個偏行業應用技術研發的展臺區,我們看到AI不僅能文,還能武,充當智慧教練、美妝顧問、零售專員等多種角色。

一個名為“運動猿小剛”的系統可以化身AI教練,分析並判斷人體動作和姿態,幫人們矯正運動動作。還能化身體測員,實現運動員身份識別和認證、正確與違規動作識別、考分記錄到體能資訊回傳等,比如他能識別立定跳遠的過線、助跑等各類違規動作,還能計數。這一產品時基於MegEngine框架,透過AIS演算法生產平臺研發而成。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

5、充電寶能跑的AI訓練

除了AI模型應用,現場曠視研究員們還展示了AI模型訓練的新技術。

在現場,我們看到用一個充電寶,就跑起了一個名為ResNet-18的AI模型微調訓練,平均功率僅為 2。36W。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

現場研究員告訴我們,以往的AI模型訓練,往往需要雲端專用的計算顯示卡(GPU),價格昂貴、能耗很高,這對於AIoT時代的嵌入式裝置並不友好。曠視透過對計算圖的設計和混合精度的訓練策略,結合曠視天元MegEngine開源深度學習框架,令模型訓練脫離昂貴的GPU成為可能。

6、視覺3D檢測新演算法,點中窺物

值得一提的是,現場除了展出了一些和大眾生活息息相關的小發明,曠視還展出了一些視覺AI基礎創新。

比如,自動駕駛3D檢測新演算法BEVDepth,能極大增強深度感知能力,打造助力自動駕駛決策的視覺3D檢測新標杆;基於物體點的半監督檢測演算法 PointDETR,在物體上標一個點即可獲得框的標註結果,可有效解決漏標和多標等問題;目標檢測器AnchorDETR,透過一個錨點就能檢測多個物體,效能全面超越目前主流的DETR模型,該論文已被人工智慧頂級會議AAAI-2022收錄。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

這些AI基礎能力不是在場景化應用中能直接看到的,卻是很多應用型AI創新突破的基石。

很多產業人知道,曠視自創立佈局消費物聯網、城市物聯網、供應鏈物聯網三大塊業務。其創立以來在數億部手機裡落地影象識別、超畫質等AI技術;為百餘座國內城市、十餘個國家和地區提供城市物聯網解決方案……這些成果為曠視打上了安防、智慧手機等標籤。

而在這次技術開放日展臺上,我們看到這家AI企業正在擺脫原有的標籤,為VR/AR、自動駕駛、零售、教育、美業等各行各業的數智化轉型賦能。

曠視自2018年就提出“1+3”戰略,其中的“3”是指三大塊業務,而“1”是指AI生產力平臺Brain++為代表的AI能力。可以看到,其在AI基礎能力上,曠視也正基於Brain++進行拓展。

二、AI基礎研究走向“大統一”,曠視從四方面突破天花板

看完這些前沿視覺AI技術新發明,那麼我們如何以此為參考認識當下視覺AI行業發展的水平呢?

要找準這一問題的時空座標從而找到答案,對很多人來說很難。

曠視研究院基礎科研負責人張祥雨認為,不妨從回顧計算機視覺發展歷程來看。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

▲曠視研究院基礎科研負責人張祥雨

在十年前,2012年“深度學習之父”Hinton和其學生的AlexNet模型提出之後,基於深度學習的神經網路成為AI視覺發展的主要原動力之一。根據神經網路的用途以及構建方式的不同,大體上可以分CNN、Transformer、基於自動化神經網路架構搜尋的模型、以及輕量化模型等等,這些模型都在一定時間內極大地推動了當時AI發展的程序。

可以說,歷史上每一代基礎模型的突破都很大程度上促進了視覺AI的發展。

當時間來到了2022年,張祥雨認為,新的趨勢已經出現——

“大”和“統一”是當今視覺AI基礎研究的新趨勢。

他解釋道,“大”主要是指AI大模型,即:利用大資料、大算力和大引數量,提高模型的表達能力。AI視覺系統通常要面對複雜的應用場景和多種的任務,因此直接途徑就是提高模型本身的表達能力,也就是所謂的“大”。

“統一”是指演算法在底層正走向統一。AI視覺研究分CNNs、VL Models、 Transformers等多個基礎模型領域,以及檢測、分割等多個基礎應用領域,每一領域都衍生出一系列演算法。現在,透過一些特定的最佳化演算法,這些底層演算法能取得相似的效能,從而得到簡單、強大、且通用的系統。

從這一角度,張祥雨解讀了曠視基礎模型科研的重點分為四個主要的方向。

而本次曠視技術開放日展出的的許多成果,也能在這四個方向中找到歸類。

這四個方向如下:

1、通用影象大模型。

曠視主要著眼於構建通用的、統一的、且高效能的影象視覺大模型。

2、影片理解大模型。

曠視主要攻克困擾業界已久的長序列建模問題,找到更高效的影片模型訓練、監督和應用的方法。

3、計算攝影大模型。

曠視主要探索計算攝影大模型研究的新正規化,充分從大資料中找到真實影象的先驗資訊,進而指導生成更高畫質、高質量的影象。

4、自動駕駛感知大模型。

曠視主要著眼於研究簡單、高效、統一、且易於使用的自動駕駛模型的最佳化、訓練和部署方法,促進自動駕駛落地。

那麼在這四大方向,曠視在最近一年有哪些成果呢?

張祥雨對此進行了解讀。

比如,在通用大模型方面

,曠視在今年計算機視覺頂級會議CVPR中,提出了一種基於大Kernel的CNN和MLP設計正規化,發現其能達到視覺轉換器(Vision Transformers)一樣好的效能。

關於通用大模型的另一種成果,曠視稱之為新型的模型規模化。面對傳統增大模型方法邊際效應遞減的問題,曠視今年提出了一種基於可逆、多column神經網路的Scale Up的正規化,透過增加可逆column的數量來擴大化神經網路的引數和計算量。這種方法帶來的額外視訊記憶體消耗非常小。

再來看看備受關注的自動駕駛感知大模型。

在視覺相機感知方面,

今年曠視提出了一種名為BEVDepth的新演算法,這在前面提到了,這種演算法能在不同數量和型號的相機上,獲得精準的深度估計,車輛顛簸、抖動都不會太影響識別精度。BEVDepth在權威的Benchmark NuSenses上,目前是Camera賽道上的第一名。

在鐳射雷達感知方面,

曠視提出了一種新的神經網路架構,叫LargeKernel3D Network,這是在點雲上的一種新型的卷積結構。它可以支援比較稀疏化的點雲建模,以及透過引數共享的方式減少了引數的使用,使得網路更為高效。該模型在NuSenses就是鐳射雷達檢測賽道上也是排名第一。

曠視還提出一個自動駕駛感知的新思路,一個名為PETR系列的新網路,其前期工作發表在今年的ECCV 2022上。這一網路幾乎沒有人工設計的成分,將可能極大地簡化自動駕駛視覺AI系統設計。

此外,曠視還在過去一年提出了第一個真正實現端到端的多目標跟蹤的框架MOTR,能在大資料上實現更好的效能;簡單通用的目標檢測框架YOLOX,GitHub Star已經超過6000個;在今年NTIRE,曠視的NAFNet在視覺超解析度競賽中奪得第一名的方案,等等。

可以看到,沿著“大統一”路徑,曠視正試圖從四個方面突破演算法創新的天花板。

三、演算法量產,曠視要打造不可複製的AI生產力

很多人可能覺得,AI基礎技術創新雖然很多不能直接在應用中看到。但實際上,這卻是AI技術商業化落地的基石。而基礎科研團隊和能力的持續創新,則代表著驅動中國AI走向全球的精神底子。

那麼,作為中國視覺AI技術前沿力量的代表,創立11年的曠視如何打造持續的AI基礎技術創新能力圈?

對此,印奇在本次技術開放日中首次對外談及了“2+1”的AIoT核心技術科研體系,即以“基礎演算法科研”和“規模演算法量產”為兩大核心的AI技術體系,和以“計算攝影學”為核心的“演算法定義硬體”IoT技術體系(包括AI感測器和AI機器人)。“這樣一個‘2+1’的AIoT的科研戰略也是支撐曠視未來不斷走向新的AIoT商業成功的最重要的基石。”

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

▲曠視聯合創始人、CEO印奇

前面我們已經詳細瞭解了曠視的AI基礎科研,關於演算法定義硬體,我們在之前的報道中已有討論(《“卷”了AI圈11年後,曠視印奇終於喊出這句話!》)。

那麼另一大關鍵要素“演算法量產”,這一曠視實現AI基礎研究和AIoT落地的重要途徑,虛實又如何呢?

根據曠視研究院演算法量產負責人員周而進演講,曠視本次推出的自研

演算法生產平臺AIS,是曠視實現演算法量產的主要抓手。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

▲曠視研究院演算法量產負責人周而進

根據介紹,AIS平臺是一個零程式碼自動化演算法生產力工具平臺。有一個比喻可以形象地理解這一平臺,就像孫悟空可以拔出毫毛生出很多猴子一樣,我們可以讓AI去生成AI。

具體來說,在資料處理環節,

AIS平臺能夠給整個資料標註過程提供30倍以上的效率提升;

在模型訓練環節,

AIS平臺有一個強大的推薦系統,能結合客戶需求自動化地為客戶適配模型進行訓練;

在效能分析調優環節,

AIS平臺會為使用者提供一個非常系統及標準化的模型診斷過程,自動化地告知使用者調優建議;當得到一個性能不錯地模型之後,

在硬體推理環節,

AIS平臺則提供標準化的硬體部署工具鏈,實現AIoT閉環。

“我們認為,面對紛繁複雜的演算法落地場景,標準化是我們在演算法生產流程中的核心的優勢,這也是演算法生產平臺AIS為大家提供的能力。”周而進說。

然而,行業場景碎片化、資料生產的複雜性、硬體的多樣化等問題一直是演算法量產的重要挑戰,這也是很多AI方案難以從1到n進行復制的主要原因。

周而進認為,演算法生產過程標準化才是真正有效地解決這樣一個複雜的、碎片化的演算法生產所面臨挑戰的手段。這個標準化包括了資料生產的標準化、演算法模型的標準化和整個推理框架的標準化。

這就有了AIS平臺的應運而生,在曠視技術開放日的最正中展出的,正是這一演算法量化工具;圍繞它陳列的展臺成果,大多是基於它生產而來。周而進說,AIS平臺基於曠視Brain++體系,在曠視自研的深度學習框架MegEngine,資料管理平臺MegData和計算平臺MegCompute的基礎上面,進一步引出的自研的演算法生產平臺。

裸手玩VR、線稿變3D人、充電寶上跑AI…曠視大秀AI技術生產力

可以看到,走過11年,曠視正將演算法生產力從點擴充套件到演算法鏈,至今,正在鍛造一個體系化、規模化演算法生產機器。

這家正在接受資本、市場及國際環境多重檢閱的視覺AI龍頭企業,正試圖打造不可複製的AI生產力。前路依然險阻,行百里者半九十。這是中國AI技術發展的一個縮影,在短短十幾年裡衝在世界前列,本質上是要追求AI生產力水平的不斷強大。

結語:AI落地進入深水區,基礎創新力顯真章

蘋果創始人史蒂夫·喬布斯曾說:“當所有人削減開支的時候,我們反而決定在低迷時繼續投資。主要投資在研發上,發明一些新東西,一旦低潮期過去,我們就已經領先於競爭對手了。”

這句話收錄在《史蒂夫·喬布斯傳》中,也成為解釋蘋果公司持續繁榮幾十年,成為全球市值第一公司的密碼。

AI被認為掀起第四次工業革命的重要技術,很多人都已經在銀行櫃檯、智慧手機、商場零售櫃以及安防、交通等各種場景中感受的AI帶來的真實便利。當下,隨著AI技術落地進入深水區,一方面考驗技術商業化的本領,一方面更加考驗AI企業技術底子的厚度。而有沒有持續投入的定力,是成功締造下一代大科技公司的一個關鍵問題。

這也解釋了為什麼大到阿里雲這樣的雲巨頭今年更加強調“Back to Basic”,以及曠視這樣的視覺AI企業龍頭持續強調AI基礎研究。不過,行百里者半九十,中國科技企業的前路依然充滿挑戰。

TAG: AI曠視演算法模型視覺