等了十年,PC 端能用的語音輸入方案來了

從 XP 時代開始,我幻想用語音轉文字。後來,手機提前實現了這功能,電腦端的語音錄入卻一直沒進展。

為了能在 PC 上用語音打字,我從 2013 折騰到 2022,經歷了各種硬體和軟體,終於找到最適合 PC 端的語音輸入方案。

訊飛 + 小麥克風

2013 年,訊飛推出 PC 版輸入法。我以為 PC 語音輸入的時代已經來臨,買了個十幾塊的小麥克風,嘗試語音轉文字。

可測試結果卻讓人大跌眼鏡,語音識別準確率異常的低。即便我把麥放在嘴邊,依然無法錄清楚,超過 80% 內容識別錯誤。

過低的識別率,讓我懷疑是麥克風的收音出了問題,要想語音打字就需要換個好點的話筒。但囊中羞澀,只能暫停嘗試。

訊飛 + Blue Yeti

過了幾年,經濟寬裕點後,下單網紅錄音話筒 Blue Yeti,幻想著 4 位數的話筒能帶來完美的收音識別效果。

等了十年,PC 端能用的語音輸入方案來了

但事實卻是

再度被打擊

對 Blue Yeti 的收音測試中,再次發現大量雜音,收貨當天就直接退貨。

十幾元的麥克風和一千元的話筒收音效果差不多,語音輸入的識別率也都超低。這讓我猜測,語音輸入識別率低與硬體無關,而是 PC 端的語音輸入方案尚未成熟,是軟體方面導致的問題。

就這樣,我再次暫停了 PC 上的語音輸入嘗試。

外接音效卡 + 動圈話筒

之後,用了 5 年的音箱出現問題,我升級了音響,並順勢添置了外接音效卡,視聽體驗大幅提升。玩著玩著,突然想起我的語音輸入夢,決定再嘗試一次。

有了外接音效卡,麥克風的選擇多了許多,可以連線卡儂線介面的話筒了。

麥克風分為兩類:電容麥、動圈麥。

電容麥收音好,但比較嬌貴,怕潮怕摔,不能用桌面話筒架,適合用懸臂掛在空中,每次用完之後需要收起來。動圈麥的靈敏度和還原度都低於電容麥,存放和使用沒什麼要求,費用也會低些。

電容麥克風太麻煩,就選了簡單的動圈麥 - 舒伯樂 PRO248S。

選好話筒後,又配了麥克風支架和卡儂線,連上原本的外接音效卡,搞定語音輸出的硬體配置。

等了十年,PC 端能用的語音輸入方案來了

輸入法之爭

音訊硬體搞定後,開始折騰語音輸入法。

雖然訊飛在語音輸入領域的牌子最響,但是訊飛 PC 輸入法並不受重視,長年不更新。所以,我嘗試了其他輸入法的語音功能。測試中,搜狗的語音識別功能並不比訊飛弱,缺點也只有無法設定語音輸入快捷鍵,整體體驗上佳。於是,語音輸入法切換成了搜狗。

然而,有次備份系統設定,我發現搜狗詞庫高達 27 萬條,其中 99% 的內容是垃圾詞條,即使偶爾輸入過一次的內容也被輸入法記錄。更可怕的是,這次詞庫無法從雲端刪除,

只要你輸入過一次,搜狗就永遠記住了

這哪裡是輸入法,根本是

鍵盤記錄器

國內其他輸入法在這點上也都半斤八兩,為了不被鍵盤記錄器惦記,我只能切換為開源的小狼毫輸入法。

語音輸入則轉用開源的Quick Cut,使用阿里雲、騰訊雲的商用語音介面,識別率比免費的搜狗和訊飛都高。

等了十年,PC 端能用的語音輸入方案來了

Quick Cut 的缺點:語音輸入時,要一直按大寫鍵,不適合長語音錄入;觸發鍵無法更改,大寫鍵與我的常用指令碼衝突了。因此,長時間的語音輸入只能藉助手機上的飛書妙記來完成轉錄。

最終方案:微軟語音輸入

面對 Quick Cut 的長語音輸入難題時,@李樂 推薦了微軟語音輸入-使用語音鍵入來說話,而不是在電腦上鍵入。

微軟自帶的語音輸入,快捷鍵 Win + H。3 塊錢的麥克風,距離 50 釐米,很低的聲音讀出來了。

測試後,發現微軟語音輸入確實是好用,甚至好用到有點恐怖。測試中,我臨時有事,走到另外一個房間和家人說話,回來後發現剛剛的對話也被微軟語音輸入正確識別。

等了十年,PC 端能用的語音輸入方案來了

微軟語音輸入非常敏感,距離遠、聲音低也能識別。這樣我不用為語音輸入而特意移動話筒,可以繼續把話筒放在不遮擋視野的遠角。

「語音鍵入功能在此應用上受限制」在 Notepad++ 和微信都出現了,Visual Studio Code 沒出現,但實際上這提示對語音輸入並沒造成影響,平常可以忽略這個提示。

雖然微軟語音輸入的識別率只有 85%,不如阿里雲方案的 95%,可系統自帶的優勢太明顯,微軟語音輸入體驗感非常順滑。

啟動快捷鍵Win + H,語音識別立即會啟動。如果中途沒說話,應用會自動暫停,並對前面的輸入進行整理,插入合適的標點符號。停止超過一分鐘,語音識別才會暫停,等待再次啟動。換言之,微軟語音輸入能一鍵完成長語音錄入。

之前的麥克風放著放著就壞了,所以我沒測 @李樂 說的低價麥克風的語音輸入效果。不過,微軟輸入的軟體最佳化非常好,按照目前效果推測,用便宜的麥克風也能實現完美的收音效果。綜合來說,微軟語音輸入是當前最完美也是相容性最高的語音輸入方案。

總結與展望

語音輸入的 3 種方案:

文章輸入:微軟語音輸入 + 外接音效卡 + 動圈話筒,相容性最高,使用方便,但精度一般,用於文章草稿階段。

一句話輸入:Quick Cut + 外接音效卡 + 動圈話筒,一句話識別精度最高,適合聊天時使用。

語音轉錄:飛書妙記 + 手機,錄音轉文字,長語音的識別率超高。

與 2018 年相比,2022 年的語音輸入方案已經完善了許多。硬體已經不再是問題了,便宜的話筒也能達到語音輸入標準。語音識別進步明顯,在 AI 技術的加持下,短句識別率從 90% 上升到 95%,長句識別率則從 50% 上升到 70%,標點符號均能正確插入。

目前語音輸入演算法在提升最後 10% 的準確率,期待早日達到「口述與鍵盤輸入完全一致」的一天。

TAG: 語音輸入語音麥克風話筒微軟