AI對話更像人類,NVIDIA打造高模擬語音合成模型

AI對話更像人類,NVIDIA打造高模擬語音合成模型

NVIDIA正打造更強大智慧的AI語音對話模型,並於INTERSPEECH 2021大會展示成果;這些模型有助銀行和零售商自動語音客服,也能讓電玩遊戲或書籍角色更生動,並即時為數字分身加上合成語音。

原本的自動電話語音和已經發展數十年的GPS導航系統都只能發出生硬的機器合成聲音,AI卻讓智慧手機和智慧音箱虛擬助理呈現逼真語調。不過AI合成的聲音和日常對話及媒體聽到的真實人聲還是有差,原因在於人類說話時帶有複雜的節奏、音調和音色,很難以AI重現。

因此NVIDIA研究人員正在打造高品質、可控制的語音合成模型與工具,能捕捉人類說話聲的豐富細節,又不會聽起來人工感很重。不僅如此,表達性語言合成只是NVIDIA Research團隊對話式AI研究之一,這領域還包括自然語言處理、自動語音識別、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過NVIDIA NeMo工具元件成為開放原始碼,可在NGC容器及其他軟體中心取得,並經最佳化調整,能在NVIDIA GPU高效執行。

使用NeMo易用API和訓練好的模型,協助研究人員開發和自訂用於文字轉語音、自然語言處理及即時自動語音識別的模型。許多模型已在NVIDIA DGX系統使用超過十萬小時開源資料集完成訓練,開發人員可按照需要的應用場景,在NVIDIA Tensor核心GPU以混合精度運算微調任何模型。

另外,NVIDIA NeMo還藉由NGC提供Mozilla Common Voice訓練的模型,Mozilla Common Voice資料庫有76種語言、近1。4萬小時群眾外包語音資料。這項由NVIDIA支援的專案企圖以全球最大規模的開放資料語音資料庫,讓更多人接觸語音技術。

NVIDIA強調,此AI模型不只可用於配音,文字轉語音的功能還能用在遊戲、協助聲音功能或語言功能障礙者,或幫助使用者用自己的聲音翻譯不同語言;甚至還能重現歌手錶演,不僅可配合歌曲旋律,還能配合表達人聲背後的情感。

(首圖來源:NVIDIA)

TAG: NVIDIA語音AI模型Nemo