中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

機器之心原創

作者:蛋醬

有了騰訊 3D 手語數智人主播「聆語」的精彩解說,即使是身處「無聲世界」的群體也能實時感受冰雪賽事的每一份激情。

「中國首金!」

「你永遠可以相信中國短道速滑!」

2 月 5 日晚上的首都體育館,在短道速滑混合團體 2000 米接力決賽中,中國隊擊敗對手,奪得中國首金。

和萬千觀眾共同見證這一重要時刻的,還有騰訊 3D 手語數智人主播「聆語」,並用手語傳遞了這份喜悅:「最後一個彎道!武大靖率先衝出彎道,透過終點!」

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

在央影片多場賽事中,騰訊 3D 手語數智人「聆語」作為「AI 手語翻譯官」,提供了手語解說服務,讓處於無聲世界中的特殊人群也能「聽」到中國舉辦冰雪賽事的盛況,進一步提升了聽障人士的觀看體驗。

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

「聆語」解說短道速滑男子 1000 米決賽,任子威奪金。

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

自由式滑雪女子大跳臺決賽,中國選手谷愛凌奪得金牌。

我們為什麼需要 AI 手語數智人主播?

在很多體育賽事中,敏銳、專業、生動、準確的賽事解說可以稱得上是觀賽過程的「靈魂」所在。但是對於聽障人士來說,如果沒有實時的手語解說服務,他們很難和其他觀眾一樣充分感受到比賽現場的這份激情。

在本次北京冬奧會的觀眾中,有一位來自武漢的聽障人士。他表示,自己一直對冰雪賽事很關注,但在觀看比賽時,最擔心的地方就是「主持人語速較快,很容易錯過一些內容」。

「如果體育賽事能夠藉助 AI 手語翻譯及時傳遞動態,我的觀賽體驗也會大大提升。」

根據第二次全國殘疾人抽樣調查結果,中國有聽障人士 2780 萬人。手語是聽障人士之間相互交流思想、獲取外界資訊的語言。目前許多新聞資訊、文娛節目中都缺少手語翻譯,手語主持人「明顯供不應求」,這為聽障人士接收資訊帶來了不小的阻礙。

目前,大眾對冰雪賽事的關注熱情創下新高,這對大型賽事電視觀賽體驗提出了更高的要求,其中也包括對手語解說服務需求的提升。AI 手語數智人主播迎來了更加廣闊的應用場景。

AI 手語數智人主播可以透過建立健聽人語言體系、逼真的畫面語言、連貫自然的動作和新詞熱詞快速適配,提升 AI 手語表達的可懂度。

2022 年 2 月,騰訊 3D 手語數智人「聆語」在央影片 APP 落地,「聆語」也迎來了自己的第一份工作:央影片 AI 手語翻譯官。

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

騰訊 3D 手語數智人「聆語」由騰訊雲小微聯合 PCG AI 等技術團隊共同打造,整合多模態互動技術、3D 數字人建模、機器翻譯、語音識別和自然語言理解等技術,讓「聆語」的手語表達能力接近真人。騰訊自主研發了一套視覺化動作編輯平臺,為更專業的手語老師提供了友好的工具平臺,可以讓手語老師高效率的對全量手語動作進行精修。

截至目前,騰訊 3D 手語數智人「聆語」詞彙和語句覆蓋量超過 160 萬,並針對體育賽事做了大量定向最佳化,手語可懂度 90% 以上,技術水準行業領先。

騰訊團隊表示,他們希望為聽障人士打造手語數智人,透過自身積累的 AI 技術,打造一款可懂度高的數智人,用技術為聽障人士提供便利,這也是騰訊一直強調「科技向善」的理念。

打造 3D 手語數智人「聆語」有何挑戰?

正如命名「聆語」所示,騰訊這款 3D 手語數智人是聽障人士真正可懂的手語數字人。相比於其他的數智人,騰訊的手語數智人在技術上具備多項優勢。

對於觀眾來說,如果數字人在表達時出現神態和動作僵硬不自然的問題,那麼觀感就會大打折扣。

在外觀方面,「聆語」依託騰訊領先的 3D 重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉等技術,生成了高度還原真人髮膚、動作自然生動的數字人。

笑意盈盈、一襲清爽藍色套裝的「聆語」最初亮相,就顯著提升了手語播報的真實感與親切感:

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

更具挑戰性的是,與一般的口頭表達相比,手語是一套視覺語言,存在語序、表情和口型呈現等諸多問題,更不用說在表達過程中手勢切換的流暢連貫性了。這些問題都要求 AI 手語主播需要具備較高的手語表達能力和精準連貫的手語呈現能力。

如何讓「聆語」像專業的手語主持人一樣,實時、精準地傳遞解說內容,有效提高手語表達可懂度?

在手語動作方面,為了讓「聆語」實現流暢的互動,騰訊團隊的程式設計師們啃起了《國家通用手語詞典》,並讓「聆語」在上崗之前也認真學習了《國家通用手語詞典》的規範。

經過漫長的手語調研、手語顧問團隊建設,團隊開發出了一套手語翻譯系統。在手語解說時,「聆語」首先透過健聽人語言與聽障者手語的機器翻譯能力,將健聽人語言內容低延遲生成高準確率的手語語言表徵。示例如下:

輸入:他是我的手語老師

預處理:他 是 我 的 手語 老師

翻譯:他 我 手語 老師 是

隨後,「聆語」基於騰訊多模態端到端生成模型,進行聯合建模及預測生成高準確率的動作、表情、唇動等序列,實現自然專業、易懂度高的手語效果。得益於騰訊雲小微和PCG AI 在語音技術領域的長期積累,「聆語」的 AI 手語可懂度達到了90%以上。

賽場手語翻譯的難點,包括要透過 ASR 技術,將比賽解說的語音從賽場現場的複雜環境聲音中分離出來進行精準的識別,然後再將識別出來的文字資訊進行智慧摘要,使手語翻譯能夠和主持人語速達到匹配。接下來,將手語翻譯生成手語影片,保證每個動作準確的同時,也要實現動作與動作之間的精準銜接。

在資訊準確率方面,「聆語」還可以快速學習時下的新詞熱詞,快速完成各種行業、業務場景和相關知識的學習,提升翻譯準確性。

比如 17 歲小將蘇翊鳴被稱為「小栓子」,再比如谷愛凌,需要「首字母 + 唇形」才能定義成特殊的詞。藉助騰訊的大資料技術能力,「聆語」能夠做到快速及時地掌握熱詞,並進行手語詞彙補充。

此外,「聆語」更貼合業務,產品落地能力更強。騰訊團隊綜合運用 3D 數字人建模、機器翻譯、多模態數字人生成、遷移學習、實時面部動作生成及驅動等多項 AI 技術,加深其感知理解,「聆語」支援業務場景更加豐富,業務資料積累量也更大。

AI 手語合成主播未來可期

隨著 AI 互動智慧的技術發展和應用落地,數智人已經成為很多行業的數字員工,輔助人類提供更加高效、精準的服務。

在新聞傳媒領域,在 2021 年 10 月,廣電總局在《廣播電視和網路視聽「十四五」科技發展規劃》中也首次明確指出,要推動虛擬主播、動畫手語廣泛應用於新聞播報、天氣預報、綜藝科教等節目生產,創新節目形態,提高製播效率和智慧化水平。

一直以來,騰訊雲小微始終致力於推動 AI 互動智慧領域的技術發展和產業應用落地。此前,騰訊雲小微聯合 PCG AI 等技術力量,打造了多個數智人方案,為大眾提供客服、導覽、講解等多樣化服務,涉及金融、傳媒政務、家居、教育、展會、交通等眾多領域。

中國隊奪金幕後的“AI手語翻譯官”:初次上崗,手語可懂度超90%

未來,來自騰訊技術團隊的「聆語」還將在更多場景提供服務,幫助聽障人士和正常人一樣瞭解、交流新聞時事,助力實現更好的無障礙資訊傳播環境。

TAG: 手語聆語數智人AI騰訊