元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

魚羊 蕭簫 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

前腳Facebook改名Meta,後腳微軟也在會議軟體上搞出XR新花樣。

這波元宇宙熱度燒得太旺,箇中真假虛實著實讓人難以辨別。

而就在這個時候,國內也有一個新訊息曝出:

釘釘已正式成立音影片事業部,還下設釘釘蜂鳴鳥音訊實驗室,由技術大拿馮津偉直接負責。

這個時間節點,瞄準的又是國際大廠紛紛打上“元宇宙”標籤的線上會議場景,釘釘此舉立即引得這樣一種說法甚囂塵上:

釘釘這個新實驗室的研發目標,指向的就是元宇宙。

啊?這意思,我以後不會要在元宇宙裡遲到了吧。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

箇中真相,是有必要進一步搞清楚。

話不多說,我們立即著手聯絡了新聞中提到的新實驗室一號位——聲學大拿馮津偉博士。

來,真假虛實,我們一問究竟。

實驗室為什麼在釘釘?

馮津偉博士首先向我們確認,釘釘確實單獨成立了音影片事業部,並且下設音訊實驗室,網羅各路博士研究員的那種。

這加碼音影片業務的意圖明明白白。不過在更靠近業務側的釘釘設立一個研究型實驗室,到底有些出人意料。

核心的問題就是:釘釘成立這個 “實驗室”,具體是要研究什麼?關注哪個方向的前沿技術?

圍繞這一點,馮津偉博士向我們透露了他和團隊的幾個“小目標”:

其一,針對線上會議場景的最大痛難點,將對應的前沿音訊技術論文演算法,在釘釘進行落地,提升音影片產品體驗與競爭力。

例如,用目前常見的會議軟體在高鐵上、地鐵中緊急開會,往往會出現訊號極不穩定,說話人卡頓、掉線的情況。

現在,蜂鳴鳥音訊實驗室正在針對這種情況設計“高鐵模式”音訊方案,從聲學原理、訊號處理到軟硬體產品全流程進行技術研發,力圖真正解決線上會議網路不穩定的問題,包括採用電腦自帶的麥克風等通用收音硬體的情況。

其二,透過釘釘,把經過驗證的成熟技術開放給行業夥伴。

例如研發獨立音影片模組,把釘釘音影片會議的產品技術、AI能力等封裝成一個硬體化的SDK,硬體可以接上模組,實現裝置的智慧化升級;

其三,進行“下一代音影片形態研究”,如XR。

如此看來,這個“蜂鳴鳥實驗室”的研究路徑,其實已經很明確:既有研究成果——轉化為產品結果——向行業開放——深化研究。

而這也就是為什麼,釘釘會請來馮津偉坐鎮新實驗室:

這位負責人本科、碩士分別畢業於南京大學無線電物理專業、聲學研究所,還是南洋理工大學電子訊號處理碩士、弗吉尼亞理工大學聲學博士。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

加入阿里巴巴前,馮津偉曾在公認的全球影片會議裝置“黃埔軍校”——寶利通(Polycom)擔任首席工程師。以他為核心貢獻者的團隊,成功研發了世界上首臺音影片會議行業的智慧攝像機。

可以說,他在聲學和訊號處理方面的雙重背景,使其在世界音訊研究領域備受關注。

2017年加入達摩院之後,馮津偉博士也繼續著聲學與訊號處理方面的研究。並且不僅是學術研究,事實上從2017年起,馮津偉就已經負責起阿里內部音訊與聲學相關演算法的結合應用。

最經典的落地案例,就是支援釘釘F1音影片一體機的打造,將語音3A演算法(主要負責音訊降噪和增益)應用到智慧硬體中。

除此之外,達摩院的會議轉寫“聽悟”專案、遠端教育的“專遞課堂”專案、釘釘音影片一體機“F2”專案……背後也均有馮津偉團隊音訊技術方案的身影。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

結合兩方面的資訊,釘釘成立“實驗室”這一看上去不合常情的舉措,也就有了更為明確的解釋:

相比達摩院更側重於基礎理論型研究,蜂鳴鳥音訊實驗室主打應用型研究——研究方向與釘釘音影片的場景結合更為緊密。

馮津偉博士表示,這其實也是雲釘一體給釘釘帶來的更深入的價值——從橫向支援到走進來專項做業務。

“因為釘釘這個獨特的商業環境,每一項技術都直接能被使用者感知到,所以蜂鳴鳥音訊實驗室的風格會在技術的理想主義和現實主義之間。我們的定位是研究‘領先半步到一步’的技術,既具有領先性,又能落地。”馮津偉這樣解釋。

並且具體到團隊本身,研究基礎早已具備,實驗室成立亦能加速技術的聚攏和落地。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

說到這裡,最關鍵的問題也可以展開解答了:

這個時間節點,明確提出瞄準“下一代音影片形態研究”,還和產品結合如此緊密,釘釘莫非真的如外界所猜測,要在微軟Meta之後,加速衝向元宇宙了?

做領先半步到一步的技術

馮津偉博士的答案很明確:否。

他指出,XR是蜂鳴鳥音訊實驗室的一個研究方向,但實驗室的核心目標還是圍繞音訊的基礎能力建設與創新,最優先要做的,還是改善釘釘音影片的軟硬體體驗。

甚至歸納起來時,釘釘蜂鳴鳥音訊實驗室成立的真實原因,比想象中要更加樸素——

無論是從自身業務角度、還是從整個行業來看,音訊都是一塊必須要補的技術“短板”。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

在馮津偉看來,站在行業角度,音訊技術在會議場景下其實還有很大的發展空間。甚至“音訊技術研發的優先順序應該大於影片技術”。

他引用了音影片行業的一句名言:

No video, people talk; no audio, people walk。(即使沒有影片,人們還能在會議中聊天;但沒有音訊的話,人們就只能散會了)

而包括弱網場景、3D音訊、個性化降噪在內的音訊技術,其實更是下一代互動技術(如跟元宇宙緊密結合的XR)的核心體驗要點。

但目前的現狀卻是,像微軟、Meta這樣的大型網際網路公司,在影片技術上已經有不少儲備。相比之下,大部分會議軟體在音訊技術上,投入都相對較少,整體也還沒有太大的動作。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

一個最常見的場景就是開會,我們在開影片會議時,如果用的是手機、電腦自帶的麥克風,就會發現稍遠一點距離就聽不清了;有幾個人爭論,AI速記軟體就傻傻分不清楚了,一堆看不懂的文字紀要出來了;如果會議室混響很大,別說AI速記軟體,迴音的影響下,人也是聽不清了。

這是音訊研究上最基礎的拾音問題。無論是影片會議,還是語音識別,除非對著麥克風說話,都會面臨這項難題。

實際上,遠場拾音一直是業界的難點與痛點,挑戰來自在閉空間中的混響、噪聲、回波,其中去混響曾被美國工程院列為“當代未解決的十大工程問題之一”,學術界和工業界已經研究了幾十年,目前仍沒有完美的解決方案。

所以,蜂鳴鳥音訊實驗室接下來重點要做的,就是在更基礎的音訊技術上進行突破,並從這個角度出發,改變釘釘、釘釘合作夥伴直至產業的現狀。

背後的具體技術路線,也已經可以從團隊研發儲備中推測出來。

比如針對前文中遠場拾音的麥克風陣列技術,這一技術主要負責聲音訊號的定位和提取。光是去年一年,馮津偉帶領的團隊就在INTER-SPEECH等國際音訊頂會上,主導發表了系列論文6篇,均與自研的“指向性差分麥克風陣列”技術有關。

這項研究首次將麥克風聲學特性和差分波束理論的優勢進行結合,明顯改善了語音低頻拾音的魯棒性,將差分波束在低頻段的白噪聲增益明顯提升,並將遠場拾音的語音識別準確率提升至行業TOP 1,比第二名高出7%~9%。

另外,以差分陣列為載體,馮津偉團隊還和相關團隊合作,提出了業界首個利用差分陣列計算空間方位資訊,用於角色分離的技術框架。也積極參與了業界首個基於指向性麥克風陣列的大規模遠場語音開源資料集建設。

還有語音3A演算法。

馮津偉團隊會將達摩院Fullband 3A快速在釘釘落地,這項演算法對會議拾音的3個核心能力做了深度最佳化:

最佳化主講增益(AGC)。實測3米以外10dBFS的聲音可增益至22dBFS,距離主機5米的地方講話,對方依然可以聽得很清楚。

最佳化回聲消除(AEC)。能有效消除99%由揚聲器外放聲音經空間傳播後產生的回聲,人聲失真控制在3%以內;實現房間自適應,可以智慧檢測房間混響,實現雙講透明。

最佳化噪聲抑制(ANS)。能夠抑制特定的噪聲,比如壓制主講人旁邊的人聲和會議室常見的空調、滑鼠、鍵盤、翻書等噪音,確保傳遞出的聲音更純淨。

這一演算法目前已經應用在釘釘F1影片會議一體機,以及合作伙伴羅技的產品上。藉助這一演算法,相關產品在音訊質量主觀盲測MOS等得分,遠超同段位影片會議裝置。可以說是同類產品中的價效比之選。

……

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

技術儲備顯然已經就位,思路亦清晰明朗。從這個角度來說,釘釘加碼音影片技術這一舉動,似乎也值得被重新評估。

返璞方能歸真

無疑,元宇宙是當下最火科技熱詞,而釘釘的會議場景,又恰恰是巨頭們紛紛看好的元宇宙應用陣地。

技術、場景對口,又背靠阿里這樣的大集團,乘概念之勢提前搶佔生態位,聽上去倒也是業內的常規操作。

但或許,恰恰是在概念滿天飛之時,才更應該冷靜思考,什麼才是現有技術能直觀改變使用者體驗之處,什麼才是行業最急需的技術進步。

釘釘單純加碼音影片,又著重選擇了音訊這個更不容易被“看”到的賽道,看似逆潮流,但反過來說,焉不是一種對自身定位的明確,一種技術底氣的體現。

元宇宙爆火,釘釘新音訊實驗室浮出水面,真實意圖令人意外

說到這裡,吃瓜已畢:釘釘確實加碼了音影片,但進軍元宇宙——還不到這份上。

話說回來,雖然不是直指元宇宙,但正如前文所說,音訊等技術同樣是保障元宇宙互動體驗的基礎。釘釘音影片將開放建生態作為重點,或許反而能在元宇宙的未來風向裡站穩自己的生態位。

而且,馮津偉也強調,有了音訊實驗室的中間環節,釘釘接下來與達摩院語音、影片、視覺、XR等相關實驗室的合作將會更深入,畢竟同為研究人員,更有共同話題嘛(手動狗頭)。

不過,釘釘的選擇,卻也引發了新一層思考:

跟風熱度,而缺少對行業本質的洞察,恐怕會在愈發擁擠的賽道之中,偏離自身的航向。

stop doing list,未為不可。

你覺得呢?

One More Thing

最後的最後,馮津偉博士還向我們透露了一個訊息:

釘釘蜂鳴鳥音訊實驗室啟動階段,人才需求旺盛。

感興趣的小夥伴可以投起來了。

TAG: 音訊音影片馮津偉實驗室技術