為什麼這幾年語音助手突然就好用了？原來背後有這麼多秘密|首席未來官

2021-11-28由王煜全發表于科技

“小愛同學，開啟空調”“小度小度，放首歌來聽”，不知道你有沒有發現，幾年前還是噱頭的語音助手，不知不覺中已是很多人生活中離不開的“人”。

瞭解科技趨勢的人這時候會說“這是因為技術進步了”，但你如果再追問“怎麼進步了？”，兩三個回合後就會停留在“人工智慧”四個字上。

你想知道人工智慧究竟為語音助手帶來了哪些變化嗎？今天我們特意為你梳理了其中的關鍵技術進步，看完你就能成為那個知道技術變化底層邏輯的人。

如果你也是走在科技前沿趨勢上的先行者，也歡迎在文末掃描加入前哨科技特訓營，更多科技前沿動態、未來趨勢變化都在特訓營中等你發現。

1.語音助手背後的關鍵技術

機器要能和人透過聲音進行交流最重的就是三個環節，聽得懂、能理解、會反饋，過去很長一段時間語音助手功能不全就是困在了第一步“聽得懂”上。

這在學術界叫作“語音識別”（Automatic Speech Recognition），本質是把我們說的話變成機器可以理解的內容，通常為了研究方便就會轉換為文字。

這簡簡單單的一段介紹背後其實是從1950年以來好幾代人，橫跨數學、聲音、統計、計算機以及腦科學的接力探索，如今語音識別在實驗室環境下準確率已達到98%以上，超過人類95%左右的正確率。

2.僵化的模式識別時期

最早的語音識別技術於1952年誕生於大名鼎鼎的貝爾實驗室，Davis等人研製出了全世界首個能區分10個英文數字的實驗系統，而後Denes等人在英國開發了首個計算機語音識別系統，直到1970年語音識別都只能識別少量單個詞彙。

因為這段時間人們採用的都是模板匹配的方法，錄製一個單詞後總結這個單詞語音的特點，然後建立一套模板，程式就把收到的語音和這些模板比對，滿足了要求就返回相應的結果。

這套方法在識別同一個人說的不連續單個字詞是有效的，但遇到詞彙較多或者連續發音就會失效。

3.統計模型為適應語音的變化提供了出路

現實生活中我們的發音其實隨時都有變化，一句“你好”隨著你狀態不同、心情不一也會有變化，遇到比較疲憊的時候還會有長長的尾音。

為了適應現實，研究者把統計學中有名的“隱馬爾科夫鏈”引入了語音識別中，借鑑了前一個階段統計語音特徵的方法，把人的語言拆解成比詞語還要基本的音素，就拿英語為例，用50個因素可以囊括完所有的發音型別，雖然每個人會有不同，但不同人發出的同一句話將音素組合在一起規律是一致的。

電腦根據統計模型“猜測”的過程

這一階段讓語音識別從簡單的特徵轉換成了詞語的發音規律，更重要的是形成了早期的語音識別模式，這時要做語音識別需要建立聲學模型、語音模型和發音詞典為基礎，識別一分鐘工作一整年，一句話成功識別的背後是大量人力的結果。

語音識別的早期模式

4.深度神經網路帶動語音識別突飛猛進

上一個階段語音識別的本質是人工將語音切片成音素，在教會機器這些片段重新拼接後是什麼樣子，但是語音畢竟是連續的，人工切片不但成本高昂，對細小的變化也難以做到精確。

這時深度學習網路的誕生讓研究人員看到了新的希望，最開始引入了深度學習、卷積演算法等，讓研究者不再需要將語音先切片為因素，透過標註每段是什麼單詞的方式，深度神經網路在多輪迭代後自行總結規律。

最終隨著影象識別整體被運用到語音識別上，語音識別變成了一個將語音影象與文字內容對應的過程，誕生了今天“端到端”的識別方法。

波形圖和內容的對應

這時語音識別就是隻要有語音檔案和它對應的文字內容，只要樣本夠多，電腦在多輪迭代後就能自己找到不同詞語在各種發音模式下的規律，看到波形圖就能知道你說了什麼，目前語音識別的正確率已經超過人類，理論上可以達到98%。

波形圖和內容的對應

5.融入我們生活的語音助手

據Juniper Research統計，目前有數十億語音助手在使用中，2023年有望達到80億。

隨著語音識別技術的不斷髮展，語音助手已經成為今天的主要互動方式之一，而這件事實現其實已經過了十年，下面就來看看這十年都有哪些標誌性事件吧。

2010年：Siri成為蘋果手機標配

2010年，隨著深度學習演算法引入語音識別，識別正確率大幅提升，Apple看到了其中的潛力，果斷將當時的獨立App Siri收購，作為手機的語音助手整合到了每款產品中，為語音識別技術的鋪開提供了助力，也在很多方面都為語音助手產業設定了標準。

2011年：Google推出語音搜尋

Google將語音識別整合到Chrome瀏覽器中，支援透過語音調用搜索引擎，帶動了人與網際網路互動打開了新的視窗。

2013年：微軟推出CORTANA語音助手

2013年，微軟經過多年沉澱，推出了Cortana語音助手，借用了旗下第一人稱射擊遊戲《光環》中的人工智慧助手形象，引起了一輪關注，也帶動了面向消費者的語音識別市場正式成為巨頭們爭奪的重點，此後Amazon推出了語音助手ECHO，成為使用最廣泛的語音助手之一。

2018年：Google Assistant演示與真人對話

2018年，Google演示的一段Google Assistant與真人對話的錄音引爆了輿論，讓很多人認為真正的人工智慧已經離我們非常近了，這一時期語音識別已經邁入大規模運用階段，成功融入我們的生活，未來更多的研究將放到技術改進和自然語言處理中。

我們還整理了一份"2021語義理解與分析企業排行清單"，辛苦你點下“贊”和“在看”，點選頂部的“進入公眾號”，在對話方塊裡傳送“科技”二字，你就會獲得這份清單。

注意：回覆“科技”只能獲得當天的清單，全套《科技產業研究清單》會在科技特訓營裡分享，並持續滾動更新、掃描全球科技前沿。

2021年，前哨科技特訓營推出了一系列趨勢投資課程，幫助學員們站在時代前沿，領先別人五年看到未來。最重要的是，在充滿不確定性和各種挑戰的未來，做出最正確的選擇，成為時代的贏家。

點選以下連結，閱讀課程回顧。

全球科技趨勢

全球科技產業掃描

判斷科技企業未來

【科技特訓營】全新的會員制線上書院模式，全年50次“線上直播課程+私享群互動”，你隨時可以加入、我持續保持更新！一起互動，伴隨成長！讓我們為未來五年做好準備，一起探討把握機遇，決勝未來！

【回放地址】

TAG：語音識別助手特訓營 Google

為什麼這幾年語音助手突然就好用了？原來背後有這麼多秘密|首席未來官

相關推薦