為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

“小愛同學,開啟空調”“小度小度,放首歌來聽”,不知道你有沒有發現,幾年前還是噱頭的語音助手,不知不覺中已是很多人生活中離不開的“人”。

為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

瞭解科技趨勢的人這時候會說“這是因為技術進步了”,但你如果再追問“怎麼進步了?”,兩三個回合後就會停留在“人工智慧”四個字上。

你想知道人工智慧究竟為語音助手帶來了哪些變化嗎?今天我們特意為你梳理了其中的關鍵技術進步,看完你就能成為那個知道技術變化底層邏輯的人。

如果你也是走在科技前沿趨勢上的先行者,也歡迎在文末掃描加入前哨科技特訓營,更多科技前沿動態、未來趨勢變化都在特訓營中等你發現。

1.語音助手背後的關鍵技術

機器要能和人透過聲音進行交流最重的就是三個環節,聽得懂、能理解、會反饋,過去很長一段時間語音助手功能不全就是困在了第一步“聽得懂”上。

這在學術界叫作“語音識別”(Automatic Speech Recognition),本質是把我們說的話變成機器可以理解的內容,通常為了研究方便就會轉換為文字。

這簡簡單單的一段介紹背後其實是從1950年以來好幾代人,橫跨數學、聲音、統計、計算機以及腦科學的接力探索,如今語音識別在實驗室環境下準確率已達到98%以上,超過人類95%左右的正確率。

2.僵化的模式識別時期

最早的語音識別技術於1952年誕生於大名鼎鼎的貝爾實驗室,Davis等人研製出了全世界首個能區分10個英文數字的實驗系統,而後Denes等人在英國開發了首個計算機語音識別系統,直到1970年語音識別都只能識別少量單個詞彙。

因為這段時間人們採用的都是模板匹配的方法,錄製一個單詞後總結這個單詞語音的特點,然後建立一套模板,程式就把收到的語音和這些模板比對,滿足了要求就返回相應的結果。

這套方法在識別同一個人說的不連續單個字詞是有效的,但遇到詞彙較多或者連續發音就會失效。

3.統計模型為適應語音的變化提供了出路

現實生活中我們的發音其實隨時都有變化,一句“你好”隨著你狀態不同、心情不一也會有變化,遇到比較疲憊的時候還會有長長的尾音。

為了適應現實,研究者把統計學中有名的“隱馬爾科夫鏈”引入了語音識別中,借鑑了前一個階段統計語音特徵的方法,把人的語言拆解成比詞語還要基本的音素,就拿英語為例,用50個因素可以囊括完所有的發音型別,雖然每個人會有不同,但不同人發出的同一句話將音素組合在一起規律是一致的。

為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

電腦根據統計模型“猜測”的過程

這一階段讓語音識別從簡單的特徵轉換成了詞語的發音規律,更重要的是形成了早期的語音識別模式,這時要做語音識別需要建立聲學模型、語音模型和發音詞典為基礎,識別一分鐘工作一整年,一句話成功識別的背後是大量人力的結果。

為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

語音識別的早期模式

4.深度神經網路帶動語音識別突飛猛進

上一個階段語音識別的本質是人工將語音切片成音素,在教會機器這些片段重新拼接後是什麼樣子,但是語音畢竟是連續的,人工切片不但成本高昂,對細小的變化也難以做到精確。

這時深度學習網路的誕生讓研究人員看到了新的希望,最開始引入了深度學習、卷積演算法等,讓研究者不再需要將語音先切片為因素,透過標註每段是什麼單詞的方式,深度神經網路在多輪迭代後自行總結規律。

最終隨著影象識別整體被運用到語音識別上,語音識別變成了一個將語音影象與文字內容對應的過程,誕生了今天“端到端”的識別方法。

波形圖和內容的對應

這時語音識別就是隻要有語音檔案和它對應的文字內容,只要樣本夠多,電腦在多輪迭代後就能自己找到不同詞語在各種發音模式下的規律,看到波形圖就能知道你說了什麼,目前語音識別的正確率已經超過人類,理論上可以達到98%。

為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

波形圖和內容的對應

5.融入我們生活的語音助手

據Juniper Research統計,目前有數十億語音助手在使用中,2023年有望達到80億。

隨著語音識別技術的不斷髮展,語音助手已經成為今天的主要互動方式之一,而這件事實現其實已經過了十年,下面就來看看這十年都有哪些標誌性事件吧。

2010年:Siri成為蘋果手機標配

2010年,隨著深度學習演算法引入語音識別,識別正確率大幅提升,Apple看到了其中的潛力,果斷將當時的獨立App Siri收購,作為手機的語音助手整合到了每款產品中,為語音識別技術的鋪開提供了助力,也在很多方面都為語音助手產業設定了標準。

2011年:Google推出語音搜尋

Google將語音識別整合到Chrome瀏覽器中,支援透過語音調用搜索引擎,帶動了人與網際網路互動打開了新的視窗。

2013年:微軟推出CORTANA語音助手

2013年,微軟經過多年沉澱,推出了Cortana語音助手,借用了旗下第一人稱射擊遊戲《光環》中的人工智慧助手形象,引起了一輪關注,也帶動了面向消費者的語音識別市場正式成為巨頭們爭奪的重點,此後Amazon推出了語音助手ECHO,成為使用最廣泛的語音助手之一。

2018年:Google Assistant演示與真人對話

2018年,Google演示的一段Google Assistant與真人對話的錄音引爆了輿論,讓很多人認為真正的人工智慧已經離我們非常近了,這一時期語音識別已經邁入大規模運用階段,成功融入我們的生活,未來更多的研究將放到技術改進和自然語言處理中。

我們還整理了一份"2021語義理解與分析企業排行清單",辛苦你點下“贊”和“在看”,點選頂部的“進入公眾號”,在對話方塊裡傳送“科技”二字,你就會獲得這份清單。

注意:回覆“科技”只能獲得當天的清單,全套《科技產業研究清單》會在科技特訓營裡分享,並持續滾動更新、掃描全球科技前沿。

2021年,前哨科技特訓營推出了一系列趨勢投資課程,幫助學員們站在時代前沿,領先別人五年看到未來。最重要的是,在充滿不確定性和各種挑戰的未來,做出最正確的選擇,成為時代的贏家。

點選以下連結,閱讀課程回顧。

全球科技趨勢

全球科技產業掃描

判斷科技企業未來

為什麼這幾年語音助手突然就好用了?原來背後有這麼多秘密|首席未來官

【科技特訓營】全新的會員制線上書院模式,全年50次“線上直播課程+私享群互動”,你隨時可以加入、我持續保持更新!一起互動,伴隨成長!讓我們為未來五年做好準備,一起探討把握機遇,決勝未來!

【回放地址】

TAG: 語音識別助手特訓營Google