啟英泰倫何雲鵬：降低AI語音應用門檻與合作伙伴共享開放生態

2022-08-02由愛集微APP 發表于科技

集微網訊息近年來，隨著網際網路、5G和Wi-Fi等技術的快速發展，智慧家居行業已經從最初的“單點智慧”走向“情景智慧”。此外，隨著智慧語音方案的日益成熟，語音互動的市場需求不斷開啟，智慧車載、智慧穿戴、智慧照明等領域潛力也在快速釋放。

作為國內離線語音AI晶片領域的“先行者”，自成立至今的近7年間，啟英泰倫每一代產品的推出都將智慧語音推向了新的高度。如今，啟英泰倫又推出了第三代智慧語音AI晶片，全面覆蓋高效能、低成本端側語音和端雲融合語音等應用。為了進一步瞭解這款晶片，集微網採訪到啟英泰倫創始人兼CEO何雲鵬，雙方圍繞公司第三代智慧語音晶片、智慧語音行業及公司發展等內容進行了一次深入交流。

1、當前，智慧語音在場景應用中的挑戰主要有哪些？

如果與影象識別相比，語音識別在算力上的要求顯然低很多。然而，在實際應用中，算力只是一方面，智慧語音在演算法上的要求是非常高的。因為在實際場景中，不僅要聽得清楚，還需聽得明白。

就聽得清楚而言，智慧語音面臨的挑戰主要源於場景的複雜性。在其應用場景中，往往充斥著各種噪聲，包括穩態的噪聲和非穩態的噪聲。比如，在家居場景，廚房廚電的煙氣噪聲常常高達七八十分貝，此外，還有電視、破壁機、掃地機器人的聲音，多人議論的聲音等。在會場環境中，周圍的聲音往往非常嘈雜，還會有高音喇叭的聲音等。從上述例子可以感受到，噪聲場景是極其複雜的。

聽得清楚主要與環境因素關聯，而聽得明白又是另一重挑戰。中國地域遼闊，存在許多不同語系，各地方言更是數不勝數。再加上每個人的聲音、口音，以及表達方式差異甚大，想要聽明白這麼複雜的語音內容，其中的困難可想而知。從發展時間上看，智慧語音的應用不過十多年，而人類進化則至少歷經幾十萬年，可見這是一個極具挑戰的事業。

然而，在實際應用中，使用者對智慧語音的要求極高，對於一個能聽會說的裝置，常以機器人，甚至超人的標準對待。在人耳也不易聽清的嘈雜環境中，會希望語音裝置能聽清；人耳很難同時聽懂兩個以上人說話，但要求語音裝置能聽懂。此外，很少有人能聽懂各地的方言口音，但各地方的人會要求裝置聽得懂該地方言，甚至土話。

2、第三代智慧語音晶片在哪些方面進行了迭代升級？

第三代智慧語音晶片是啟英泰倫歷經三年潛心研發後推出的。相較上一代產品，這款晶片創下“算力更高、高度整合和演算法新高”的“三高”記錄，全面覆蓋高效能、低成本端側語音和端雲融合語音等應用。

啟英泰倫智慧語音晶片從第一代發展至第三代，可以看到清晰的傳承與進化脈絡。第一代BNPU實現的是端側語音識別，是行業首款整合神經網路處理器的語音AI晶片，也是離線語音產業應用興起的標誌。第二代系列晶片CI1102/CI1103及CI1122晶片則集成了第二代BNPU，不僅實現了離線語音識別功能，還能實現離線聲紋識別和命令詞自學習等個性化的功能。

與上一代產品相比，第三代BNPU作了大量技術迭代。除繼承第二代的語音識別、聲紋識別外，還支援了基於深度學習的降噪技術（深度降噪），人聲分離技術（深度分離），命令詞自學習2。0版本技術，以及行業首次突破性的離線NLP技術。

從晶片算力方面看，第三代13系列晶片內建BNPU 3。0和支援DSP指令擴充套件的RISC CPU兩大核心，主頻高達240MHz，並具有640KB系統SRAM。

特別值得關注的是第三代智慧語音晶片對端側NLP的支援。此前，業界普遍認為只有雲端才能實現NLP，而啟英泰倫最新的技術已經可以採用端側智慧語音晶片實現NLP，將語音處理放在端側，既保障了使用者的體驗感，又能降低雲端搭建和運營成本，降低網路頻寬消耗，也能提升使用者使用的安全性。

3、與雲端語音處理相比，離線語音的優勢體現在哪裡？

在智慧語音識別發展的早期階段，由於對算力的要求較高，基本都是透過雲端進行智慧語音識別處理。客觀來看，雲端處理有一些天然的優勢，比如自帶內容及服務、模型可快速迭代、資料收集和訓練便捷等等。

不過，隨著智慧語音技術不斷髮展和應用的不斷拓展，雲端處理在響應可靠性、隱私保護、成本等方面的弊端逐步暴露出來。

由於雲端語音傳輸、處理的過程鏈條較長，網路傳輸、伺服器的響應、以及終端和雲端的協議互動等都需要時間，一旦遇到網路延時、伺服器擁塞等情況就會出現響應遲鈍、甚至無響應等問題。

雲端語音需要上傳終端採集到的使用者環境中的聲音訊號，訊號可能包括使用者的聲紋，以及個人及家庭成員的私密資訊，可能會被惡意擷取、洩露，個人或家庭隱私被洩露的風險很高。

從經濟的角度看，雲端語音還存在成本較高，資源浪費嚴重問題。雲端語音需要後臺不間斷的執行大量伺服器來做語音處理，伺服器的購置、後續的硬體更換和軟體運維、人力費用和電費場地費等都非常昂貴，這個對於企業來講是很大的一筆費用。

雖然，在智慧語音識別發展早期，主流方式是透過雲端進行智慧語音識別處理。然而，啟英泰倫卻另闢蹊徑，率先選擇了離線語音AI晶片的方向。這一選擇的出發點是基於對使用者真實需求的深入思考。首先，離線語音是不依賴網路和雲中心的真智慧，既能給使用者帶來即時的靈敏響應，也能更好地保護使用者的隱私。此外，出於對使用者權益的考量，離線語音能確保使用者擁有完整的、自主的智慧裝置使用權和控制權。最後，除使用者體驗外，還需考慮更廣泛的使用者的成本承受能力，不僅是讓使用者體驗更好，也能用得起。

4、啟英泰倫生態建設上有怎樣的目標和計劃？

啟英泰倫很早便定下了“3 Make”的目標，即讓裝置更智慧、讓應用真方便、讓AI更便宜。為了降低智慧語音的應用門檻，啟英泰倫於2017年便開始建設語音AI開發平臺，2018年底正式推出，2019年則完全向全行業開放。

目前，啟英泰倫的語音AI開發平臺已迭代至3。0版本。即便從未做過語音應用開發的人，只需透過平臺的引導，也能輕鬆進行語音開發，可以無程式碼做語音開發，低程式碼做應用開發。除平臺全面對外開放外，啟英泰倫還會透過代理商、方案商的體系推動其生態的發展，在每個行業、領域發展相應的方案商，共同構建智慧語音生態。

此外，啟英泰倫也與學界達成良好的合作關係，推動在中學、大學的AI教育，老師和學生都可以使用啟英泰倫的晶片平臺開發各種應用。目前，使用啟英泰倫的語音AI開發平臺學習和開發的學員已超過10萬名。

5、啟英泰倫的願景是什麼？

啟英泰倫的終極目標是打造跨裝置、跨時空，使用者專屬、終身守護的守護精靈。

總體而言，這一目標可以劃分為三個階段，第一步是讓人機互動更自然，更具普適性；然後透過更多的資料，讓機器更理解人、更主動地為人類服務；最終目標是打造專屬的守護精靈，它將是使用者全方位的生活管家、健康安全衛士、百科知識導師和給與心靈陪伴的知己朋友。

為了更快地實現自身目標，啟英泰倫正加強生態建設，提升應用開發平臺，和合作夥伴們一切推動生態建設，努力降低AI語音應用的門檻。

TAG：語音智慧啟英泰倫晶片 AI

啟英泰倫何雲鵬：降低AI語音應用門檻 與合作伙伴共享開放生態

相關推薦

啟英泰倫何雲鵬：降低AI語音應用門檻與合作伙伴共享開放生態