AI對話更像人類，NVIDIA打造高模擬語音合成模型

2021-09-02由十輪網科技發表于科技

NVIDIA正打造更強大智慧的AI語音對話模型，並於INTERSPEECH 2021大會展示成果；這些模型有助銀行和零售商自動語音客服，也能讓電玩遊戲或書籍角色更生動，並即時為數字分身加上合成語音。

原本的自動電話語音和已經發展數十年的GPS導航系統都只能發出生硬的機器合成聲音，AI卻讓智慧手機和智慧音箱虛擬助理呈現逼真語調。不過AI合成的聲音和日常對話及媒體聽到的真實人聲還是有差，原因在於人類說話時帶有複雜的節奏、音調和音色，很難以AI重現。

因此NVIDIA研究人員正在打造高品質、可控制的語音合成模型與工具，能捕捉人類說話聲的豐富細節，又不會聽起來人工感很重。不僅如此，表達性語言合成只是NVIDIA Research團隊對話式AI研究之一，這領域還包括自然語言處理、自動語音識別、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過NVIDIA NeMo工具元件成為開放原始碼，可在NGC容器及其他軟體中心取得，並經最佳化調整，能在NVIDIA GPU高效執行。

使用NeMo易用API和訓練好的模型，協助研究人員開發和自訂用於文字轉語音、自然語言處理及即時自動語音識別的模型。許多模型已在NVIDIA DGX系統使用超過十萬小時開源資料集完成訓練，開發人員可按照需要的應用場景，在NVIDIA Tensor核心GPU以混合精度運算微調任何模型。

另外，NVIDIA NeMo還藉由NGC提供Mozilla Common Voice訓練的模型，Mozilla Common Voice資料庫有76種語言、近1。4萬小時群眾外包語音資料。這項由NVIDIA支援的專案企圖以全球最大規模的開放資料語音資料庫，讓更多人接觸語音技術。

NVIDIA強調，此AI模型不只可用於配音，文字轉語音的功能還能用在遊戲、協助聲音功能或語言功能障礙者，或幫助使用者用自己的聲音翻譯不同語言；甚至還能重現歌手錶演，不僅可配合歌曲旋律，還能配合表達人聲背後的情感。

（首圖來源：NVIDIA）

TAG： NVIDIA 語音 AI 模型 Nemo

AI對話更像人類，NVIDIA打造高模擬語音合成模型

相關推薦