曠視技術開放日，我玩跳繩測演算法！

2022-07-16由新智元發表于科技

新智元報道

編輯：好睏桃子

【新智元導讀】

一年一度的MegTech來了！VR裸手寫字、「紙片人」跳舞、研發小姐姐線上試妝等各種Demo全亮相。

萬萬沒想到，之前把小夥伴們拉去煉丹的曠廠又來了！

這次一進門，就給我們來了個「左手畫個龍，右手畫個彩虹」。

看得出來，這位研發小哥哥的手非常靈活。

緊接著，又意猶未盡地看了好幾遍二次元小姐姐跳舞。

順便還圍觀了研發小姐姐線上試妝。

然後出場的是「薄荷裡畫師」。

對，你沒猜錯，就是「不合理」的諧音梗。

來感受一下「朝陽下的中世紀城堡」。

剛剛這些好玩兒的技術，就是曠視在一年一度的技術開放日MegTech 2022上秀出的全新肌肉。

而且，還僅僅是其中的一小部分而已。

試著研究研究先

作為一家正經的AI公司，刷刷頂會，搞搞前沿技術肯定是少不了的。

比如在自動駕駛技術預研方面，曠視研究院就提出了一種全新自動駕駛的純視覺3D感知框架——PETR。

這個PETR框架能同時進行3D目標檢測、BEV（Bird‘s Eye View，鳥瞰圖）分割和3D車道線檢測等多項感知任務。

作為PETR系列的最新研究成果，PETRv2在BEV分割和3D車道線檢測上，全面優於目前主流模型。

並且在沒有使用TTA（Test-Time Augmentation，測試資料增強）的情況下，PETRv2還重新整理了純視覺3D檢測榜單nuScenes的記錄。

目前，相關論文已經被計算機視覺頂級會議ECCV 2022接收，模型程式碼也已開源。

為了進一步加強模型在BEV時的效能，曠視研究院又提出了一個新的3D目標檢測器BEVDepth。

BEVDepth率先定位了影響視覺3D檢測最核心的問題——物體深度估計，繼而創新性地使用了未經標註過的點雲資料作為監督訊號，極大增強網路感知物體深度能力的同時，不影響推理的任何效能。

在nuScenes資料集的3D目標檢測比賽上，BEVDepth取得最優結果，平均精度均值mAP達到了0。503。

有了3D目標檢測，再加上感知、定位、預測、規劃、自主泊車等關鍵技術，曠視研究院在自動駕駛技術預研方面，也有著不小的進展。

在感知方面，曠視研究院憑藉豐富的機器視覺技術積累，在融合感知和視覺感知兩方面均達到了業界領先水平，從而可以有效滿足不同車型的需求。

同時在定位、預測和規劃方面，曠視研究院採用基於深度學習的方案，泛化能力強並且容易維護。

說了這麼多，不如拉出來溜溜吧！

讓我們上高架。

讓我們下高架。

再上高架，再下高架……

不行，已經有畫面感了，趕緊換個場景！

晚上出門吃夜宵，跟個車，等個燈，再拐個彎。

一個字，穩。

到目的地了，但不想自己停車？

輔助倒庫，小case。

側方停車，問題不大。

一個充電寶能做啥？

除了純粹的演算法，曠視近年來也開始「加大力度」搞硬體，同時也不忘結合原本的優勢專案軟體。

於是，曠視特有的co-design，也就是「軟硬協同設計」誕生了。

而在這次的演示中，也準備了這一趴——「又要馬兒跑，又要馬兒不吃草」。（不是

言歸正傳，簡單來講就是在降低功耗的同時，還能保證模型的精度。

尤其是隨著AIoT的不斷髮展，考慮到成本、能耗，以及資料的安全，AI模型也越來越多地從雲端拓展到邊緣端和裝置終端。但由於計算能力和精度等因素限制，嵌入式裝置一般只用於模型推理，難以進行模型訓練。

於是，曠視的研究員們透過對計算圖的設計和混合精度的訓練策略，再結合曠視天元MegEngine開源深度學習框架，使ResNet-18、VGG等模型的微調式訓練可在一顆用於推理的晶片上實現。

以ResNet-18微調為例，訓練時的平均功率僅為2。36W，用一個5V 1A的充電寶就能帶得動。微調訓練該模型消耗的能量也僅有NVIDIA V100顯示卡的1/3左右，與A100同量級。

另外，在車載感知方面，模型對於精度和算力需求也非常高。

比如進行大解析度輸入下的行人、車輛3D感知時，單幀單任務下模型推理部分經常需要200-300GOPS以上的計算量。實車跑多個任務時，整套感知系統可消耗多達幾十個TOPS的算力，因此在一般的嵌入式系統上難以達成實時推理。

曠視研究院提出模型超級壓縮演算法，透過軟硬協同設計進行演算法和硬體聯合最佳化，使得在精度對齊浮點模型的條件下，實現L2級車載感知模型平均速度達到Nvidia NX平臺浮點模型的2倍。此時整套系統的AI計算部分功耗保持在3W左右。

同樣，用一個充電寶就能驅動晶片端的正常工作。

有哪些已經用上了？

最近，跟著直播健身可謂是異常火爆，放眼望去，幾乎全是劉畊宏女孩/男孩。

在這方面，曠視也有一個非常有意思的產品——基於純視覺方案的運動猿小剛。

這名由程式猿開發出的運動猿，可以透過自研模型快速精準的檢測超過30個人體骨骼點，準確描述人體運動過程中的各個動作姿態，並完成高精度的測距、測速和計數。

其中的跳繩產品，可在240次/分鐘的條件下，實現±1誤差的精度。相較普通感測器方案，運動猿小剛可有效判斷違規，準確識別有繩或無繩。

具體表現如何？

小編直接親自上場測試了一波：半分鐘也就跳了100多下吧。

仰臥起坐產品則透過準確的骨骼點模型，支援仰臥起坐過程中的雙手未抱頭、雙腿未屈膝、手肘未觸碰膝蓋等多種違規情況識別，準確記錄運動過程中的真實資料，達到±1的計數要求。

立定跳遠產品透過精確的人體骨骼點模型，可以準確判斷腳部的各項動作，達到±1cm的精度，並可以識別過線、助跑等各類違規動作。

說到視覺，除了這種「只有計算機才能看得到」的以外，還有不少是可以透過肉眼直觀感受到的。

比如，實時的SDR轉HDR技術。

只需在理解場景資訊的基礎上，將畫面中的物體儘可能恢復到它本來的亮度，完成與真實觀感接近的色調對映與高光恢復，同時融合多幀特徵資訊來加強細節，就可以準確還原多彩明亮的世界了。

再比如，模擬專業裝置效果的手機電影模式。

這個模式集合了人像虛化、影片人像留色、影片雙重曝光和影片光斑四種影片特效以及最新研發的電影模式演算法。

其中，影片特效透過影片人像分割演算法、深度資訊以及豐富而有趣的影象處理演算法，可以滿足不同場景和人物的拍攝需求，豐富拍攝體驗。

電影模式演算法則利用單攝深度資訊、對焦主體檢測和多目標跟蹤演算法、影象虛化演算法，實現手機平臺模擬單反大光圈的影片效果，並在此基礎上疊加手動切焦技術，實時實現順滑的焦點變換，模擬出電影鏡頭般的拍攝效果，從而提高影片故事感。

量產演算法，只需「一鍵」

最後，集多年演算法生產經驗於一身的曠視，又打造出了一套一站式MLOps演算法生產平臺。

剛剛我們看到的這些已經落地的應用，有些就是透過AIS演算法生產平臺研發而成。

具體來說，曠視AIS（AI Service）演算法生產平臺，提供了從資料清洗、智慧標註、資料管理、資料質檢、演算法自動生產、模型多維能力評測、pipeline部署等全流程能力，並支援演算法快速生產部署。

就拿模型訓練來說，基於曠視研究院自研的演算法庫以及演算法推薦能力，使用者只需提供訓驗資料、選擇模型訓練目標，AIS演算法生產平臺就能自動自動訓練出表現良好的模型。

目前，平臺已經能夠支援100多種業務模型訓練，2小時即可完成，而且模型產出精度指標遠高於業界平均水平。

在接下來的模型測試中，平臺提供了視覺化的訓練過程，並會統計出模型在不同分佈、不同維度下的表現，幫助快速定位模型的問題，進一步最佳化模型。

最後，利用曠視自研的ADS（Auto Deploy Service）模型部署工具，不僅可以實現模型的自動部署，而且使用者還能將模型一鍵轉換至不同計算平臺，大幅簡化了模型從訓練到部署的流程。

如此一來，就可以高效地實現自動化、零程式碼演算法生產，降低行業演算法生產的技術門檻以及生產成本，大幅提升生產效率。

AI+IoT新時代

今年是曠視成立第十一個年頭，也是MegTech舉辦的第二年。

在曠視技術開放日上，CEO印奇對曠視這十一年來核心主旋律做了總結，那便是AIoT。

他認為，AIoT=AI+IoT+空間。這個樸實無華的等式是當前AIoT產業創新的新正規化。

其中，AI代表不斷演進的演算法能力。

若想讓AI能夠真正規模化落地到場景中，就需要一個硬體載體，即IoT裝置。

所以，AI和IoT兩者相輔相成，又是核心相關的詞。如果AI是大腦，IoT就是軀殼和真正的骨幹。

何為「空間」？簡單講，就是服務於人的應用場景。

當前，AR/VR技術不斷演進，大大提升了虛擬世界的沉浸感。然而，當人們跳脫出那個「元宇宙」的世界，就會發現現實世界並沒有什麼不一樣。

怎樣讓「產業網際網路」能夠在物理世界中定義場景和定義應用才是最重要。

一直以來，AIoT是曠視長期的業務戰略方向和商業戰略方向。

從2015年開始，曠視就提出AIoT是AI的產業化路徑。

目前，曠視在消費物聯網、城市物聯網和供應鏈物聯網三大場景，都形成了軟硬一體化產品和解決方案的能力。

靠什麼支撐？

那麼，曠視AIoT戰略靠什麼核心技術能力來支撐呢？

可以總結為「2+1」數學公式，即（基礎科研+演算法量產）+演算法定義硬體。

具體如下，

一是基礎科研

2022年，視覺AI基礎研究呈現出「大」和「統一」的新趨勢。

「大」是指AI大模型。透過利用大資料、大算力和大引數量，提高模型的表達能力，讓AI模型能夠適用多種任務、多種資料和多種應用場景。

然而，模型越大不一定代表其效能越好，同時大模型還需要消耗更多的算力。

因此，研究不僅需要往「大」的方向努力，更重要的是將大模型的優勢發揮出來。目前，曠視分別在大模型、大演算法、大應用這三方面做了許多研究。

除了「大」，近2年，曠視研究人員還發現許多演算法在底層正在走向統一。

透過使用統一的演算法、模型來表示和建模各種資料、各種任務，我們將可以得到簡單、強大且通用的系統。

基於以上「大」和「統一」這兩大觀點，曠視在通用大模型方面，提出了一種基於大Kernel的CNN和MLP設計正規化。

在自動駕駛感知大模型方面，剛剛提到的BEVDepth，以及關於鐳射雷達感知神經網路架構LargeKernel3D Network都是曠視取得最新成果。

二是演算法量產

在演算法量產上，曠視在過去一年裡是如何做的？

回顧曠視的演算法生產的過程，經歷了從點到線到面演進的過程。在MegTech 2021上，曠視曾展示了其演算法量產星空圖。

透過總結曠視這十年多的經驗，曠視認為演算法生產的主要困難集中在整個生產環節的複雜性上。具體來說：資料生產的複雜性、演算法模型本身的不確定性、硬體平臺多樣性。

因此，需要將演算法生產過程標準化就能夠真正有效地解決這樣一個複雜的、碎片化的演算法生產所面臨挑戰的手段。

就比如剛剛提到曠視自研的演算法生產平臺AIS，讓標準化成為生產流程中的核心優勢。

要知道，演算法量產並不是一個單一的產品，而是對曠視整個AI生產模式理念的革新和生產力的進化。

曠視將，透過AI生產的標準化以及AI生產力平臺，極大地降低演算法生產成本和門檻，讓更多的人可以參與到演算法生產過程中來，從而促進演算法在更多行業裡的落地。

要知道，AIoT是由AI和IoT結合在一起的。在IoT的範疇之下，主要提到的核心理念就叫AI感測器。

三是演算法定義硬體

什麼是演算法定義硬體？

隨著AI、視覺演算法等領域的發展，感測器將不再單獨直接地提供應用價值，這兩者之間需要演算法來作為承上啟下的「橋樑」。

直白講，不是需要用到哪去做一個感測器，而是透過演算法讓這個感測器實現需要的應用。

隨著應用的不斷改變與升級，感測器對演算法提出了越來越多的需求，反之演算法也對感測器到底需要提供什麼樣的資訊和輸入提出了要求，甚至本質性地改造了感測器的形態以及樣式。

計算攝影，便是這兩者結合最顯著的點。

過去，我們拍照必須選擇一個光源好的地方，而現在，演算法和智慧手機結合讓我們也能實現夜晚拍照的效果。

這裡，就不得不提曠視定義了一個「AI畫質」影像技術的概念。

在1080P規格上，曠視「AI畫質」方案已經用透過多種形態軟體得到了應用。對於4K以上級別的，其專業硬體方案已經在一個甚至多個行業內實現了客戶維度上的量產。

今年，曠視公佈了AI定義感測器的這條路的兩個新技術願景。

在畫質的維度上，要走向16K AI極高清的AI畫質這一概念。希望透過AI、感測和顯示這三者一起聯動，實現真正身臨其境的影像體驗。

另外，從IoT角度來講，感測器將將走向更加極致的小型化、低功耗，從而能夠和每個人的日常生活，和每個人自身實現更加深度的結合。

印奇對曠視「2+1」的AIoT核心技術科研體系總結道：

AI一定是曠視一直堅持的核心能力，而IoT是核心載體，即以「基礎演算法科研」和「規模演算法量產」為兩大核心的AI技術體系，和以「計算攝影學」為核心的「演算法定義硬體」IoT技術體系（包括AI感測器和AI機器人）。

這個「2+1」的AIoT科研戰略是曠視堅定走「軟硬結合」道路的有力技術支撐，是支撐曠視未來不斷走向新的AIoT商業成功的最重要的基石。

相較於傳統強企，曠視的核心優勢具體體現在：

一是擁有從軟到硬的全棧能力，其開發的Brain++平臺，包括了自研的深度學習框架MegEngine，覆蓋從AI模型生產到應用各環節。

二是基礎科研有真正的突破，在通用影象大模型、影片理解大模型、計算攝影大模型以及自動駕駛感知大模型取得了不錯的成果。

三是技術和產品走的很近，比如AIS演算法平臺已經產品化SAAS服務，計算攝影千萬級感測器等。

可以看出，在AIoT時代，曠視已具備了先發之勢。

過去三十年，網際網路對虛擬世界進行了極大改造。

面向未來，曠視期待透過AI和IoT結合，讓物理世界變得更加美好。

TAG：曠視演算法 AI 模型 AIoT

曠視技術開放日，我玩跳繩測演算法！

相關推薦