火山引擎在機器翻譯多媒體領域的實踐和探索

技術變革帶來了無限機遇,也帶來了更多的挑戰。作為服務於位元組跳動等大規模企業的機器翻譯團隊,火山翻譯不斷在翻譯的各個領域進行探索。如今處於短影片的風口,火山翻譯如何做到乘風而上?

近日,在第十七屆全國機器翻譯大會(CCMT 2021)上,來自位元組跳動火山翻譯團隊的產品經理劉堅就這一話題做了分享。以下是劉堅演講全文:

火山引擎在機器翻譯多媒體領域的實踐和探索

火山引擎在機器翻譯多媒體領域的實踐和探索

火山引擎是位元組跳動面向企業的一個智慧科技品牌,就是大家俗稱的 to B——我們面向的是企業使用者。位元組內部也有很多類似的服務是對外開放的。火山翻譯是火山引擎的核心中臺能力之一,是由我們機器翻譯和自然語言處理部門研發的。

我們有幾大矩陣產品,產品列表包括同傳相關的直播翻譯服務、大會服務,通用翻譯的 API 和 SDK,影片翻譯。能力上包含了文字、語音、影象、語種識別、互動式翻譯和私有部署。到目前為止,火山翻譯從事翻譯工作已經有幾年時間,但真正對外服務只有一年多。此前,火山翻譯都是在內部為位元組提供每天上億次的各種場景的翻譯需求,翻譯技術已經得到了驗證。

火山引擎在機器翻譯多媒體領域的實踐和探索

大家知道位元組跳動,可能都是因為抖音這種app。多媒體內容的確也是公司關注的重點。我們首要的工作除了文字翻譯以外,就是要解決公司內部多媒體內容的翻譯。

第一個擺在我們面前的就是影片翻譯的需求。影片裡面一共有兩部分需要被翻譯。第一種是影片裡面可能存在的一些圖片內容,或者是一些硬字幕(即內嵌字幕:嵌入影片畫面與影片畫面融為一體的字幕),它們其實相當於影象,我們需要對它們進行識別和翻譯。

火山引擎在機器翻譯多媒體領域的實踐和探索

抖音的深度使用者都知道,抖音影片裡會有很多貼紙,如果要翻譯它們,我們就需要用一個圖片翻譯的引擎,先借助OCR識別,再進行翻譯。

以目前ppt上的圖片(我桌上的日曆)為例。我隨手一拍,然後用我們的圖片翻譯引擎去翻譯。它的特點是能還原一個區域內的顏色。大家可以看到日曆頂部的顏色得以保留,下面文字的位置也基本做到了保持原樣,這樣的方式應用在影片翻譯中,就可以有比較好的翻譯效果。

語音翻譯的問題比較複雜。影片中人的講話往往有口音,或者有背景噪音,或者是翻譯之後的語言風格不符合預期。我們不能直接把機器跑出來的結果傳給觀眾,這樣可能會讓觀眾費解或產生誤解。我們開發了一個平臺,透過這個平臺可以讓譯者把原來的很多修改工作去透過 AI迅速完成,從而節約時間。

影片翻譯技術在行業內有不少應用,我們著重講一講在直播這個領域的翻譯。

直播有一個比較重要的特點是速度非常快,那麼,我們如何在這麼短的時間之內做到對直播進行翻譯,而且保證翻譯質量可控呢?

目前業界有一些產品,提供的字幕是逐字同步ASR的結果,然後再翻譯。在這種情況下, 往往會有個問題 :它提交給翻譯的API結果會是一個字或者詞,這個時候翻譯出來的結果都是基於字和詞處理出來的,如果對於長篇幅的內容進行實時翻譯,斷句效果不好的話、翻譯質量會很差,無法真正實現對直播內容的同傳翻譯。如果使用者是透過譯文來理解會議內容的話,難度就會很高,看懂直播的話就更難了。

所以我們自己開發了一個影院式 AI 字幕的解決方式。原理是這樣的:我們在線上收到一個直播流之後,先把這個直播流進行快取,再對聲音和畫面進行拆解,並識別聲音。我們形成對應字幕,字幕支援人工進行修改。字幕整句整句地出現在螢幕上,和看電影的效果一樣。在說第一個字的時候,這句話就完整出現了。然後,等這句話全部說完時這個字幕才會消失。

大家可以看一下我們的效果。這是我們在抖音上為日本藝術家村上隆做的直播首秀。

火山引擎在機器翻譯多媒體領域的實踐和探索

下一個是我們一位同學模仿的主播帶貨場景。

火山引擎在機器翻譯多媒體領域的實踐和探索

這種翻譯方式有一個好處:因為字幕是一句句出的,所以我們可以針對一句的內容進行配音,用機器去合成。這樣,直播翻譯的效果就比較好。目前這個技術已經在公司內部的產品上面進行規模化應用,它可以大大提升不同國家之間跨語言的理解和溝通。

最後介紹一下我們的另外一款智慧翻譯產品。

在大會場景下,大家都會遇到看字幕的問題。之前的方案就是在螢幕下方有一個字幕條。這個方案或多或少會有一些問題:其一,如果英國人參加中文會議,他想聽到的語言應該是英語;但如果是日本人或者法國人 ,那麼英語可能不是你最理想的選擇。這時候如何能夠生成定製化的字幕?其二,如果在比較大的會場,坐在後排的人其實可能是看不見字幕的。那這個問題怎麼解決?所以我們做了一款 AR 智慧翻譯眼鏡(在我們展臺可以體驗)。

火山引擎在機器翻譯多媒體領域的實踐和探索

我們開發這麼多的應用,本質上還是為了解決好“機器翻譯演算法跟行業應用之間的最後一公里”的問題。

智慧翻譯眼鏡還在不斷最佳化,現在已經能實現語音翻譯、會議接入以及圖片翻譯等功能。比如看書、看選單或者是看路標,都可以用這個眼鏡去翻譯。我們也在探索更多場景,比如最近我們就發現了一個比較有意思的場景:聽障人士也可以用這款眼鏡來獲取更多資訊。

最後,歡迎大家跟我們一起探討更多想法與發現,可以透過關注公眾號“火山翻譯”聯絡到我們,也可以搜尋“火山翻譯”進入我們的官網,來體驗我們的翻譯效果。

TAG: 翻譯字幕我們直播影片