【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

2018年黃國平博士在QCon全球軟體開發大會上

編者按:近日,黃國平博士論文《致謝》刷屏。文中,黃國平回顧了自己走出小山坳,與命運抗爭的故事。全文波瀾不驚,卻能直擊人心,堪稱現代版《送東陽馬生序》。有網友評論說,“他活成了這個世界的一束光”,是無數“寒門學子”的希望。但於黃博士而言,故事只是過往的一部分,技術成果才是評述一位專家的最好佐證。2018 年 10 月,黃國平在的 QCon 全球軟體開發大會(上海)上分享了《人機互動式機器翻譯研究及應用》,從行業談到技術,再從技術具象為應用,全程乾貨十足,值得收藏細讀。我們特別將演講內容整理出來,以饗讀者。

以下是演講的核心內容。

在今天的話,機器翻譯已經是人工智慧當中一個非常古老的方向了,但是我在前面加了“人機互動式”這 5 個字,或許大家會有些奇怪,為什麼要加這個字首?好,在接下來的演講當中,我將一一揭曉。

我是黃國平,來自騰訊 AI Lab,博士是在中國科學院自動化研究所,我的研究方向就是機器翻譯,然後學位論文也是人機互動式機器翻譯研究與實現,進了騰訊後的這一段時間,基本上還是延續了博士期間的一些工作。

今天我主要是在這裡分享這麼幾個方面,首先我會先簡單並且快速地過一下機器翻譯現狀。然後我們討論一下人機互動式機器翻譯相關的行業技術應用,以及我們在做人工智慧落地方面的一些思考,因為在這個過程當中我們遇到很多問題,然後我們又想了一些辦法來一一克服。

我做報告的目的,也並不一定是為了讓大家聽了就能夠去下一套很好的機器翻譯系統,而是看我們解決問題的這些思路,看是否能夠為大家日常的工作當中提供一些借鑑,那樣的話我就覺得很值了。

機器翻譯現狀簡介

我相信大家在閱讀文獻的時候,或者去查詢資料的時候,或多或少都會用到機器翻譯,比如說比較出名的也是比較早的谷歌翻譯,然後有百度翻譯。後面也出現了很多機器翻譯產品,比如搜狗,還有騰訊翻譯君。我把所有這些截圖再放在一起的話,大家也覺得左右兩邊應該是概括得比較準確的,就是說“藕花深處田田葉,葉上初生並蒂蓮”。大家都像雙雙胞胎兄弟似的,好像也看不出來什麼區別。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

在這種情況下,大家好像就是說這個領域是古老的,但也是比較喧囂的。其實除了在這些新聞 PR 稿中經常看到的公司之外,機器翻譯研究的背後,技術的進步是有很多人在幕後做非常辛苦的工作的。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

比如說在這些單位裡面,中科院自動化所、中科院計算所、清華大學、東北大學、哈爾濱工業大學、南京大學等等,他們有的研究機器翻譯至少都快 30 年了。

當然也有一些新生的,像蘇州大學,然後還包括現在更多的商業公司,投入資源和人力到這個問題上來。

我們當然是比較開心了,畢竟大家都開始關注起這個行業。

技術發展到現在,我就不在這裡去科普傳統的經典的那種機器翻譯模型長什麼樣子,我就直接到目前比較通用的,比如說以神經網路為基礎的翻譯框架當中來。目前深度學習當中一個主流的框架就是端到端。概括來講的話,就是“編碼器 - 解碼器”結構,然後在編碼器端我們一般喜歡用 RNN 或者 CNN,將原文句子編碼成一個上下文向量,然後在解碼端當中根據上下文向量來生成目標端的句子,這是一個最樸實的一個機器翻譯模型。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

但是翻譯模型會有很多問題,比如說我每生成的每一個詞,它依賴的上下文向上是一樣的。舉個例子,比如我在生成 secret 的時候,結果發現“成功”或者是“秘訣”或者其他單詞對他貢獻是一樣的。

當然這裡面順帶著一個問題,如果是句子比較長的話,尤其是生成目標端很長,到最後發現會出現一個效果叫梯度消失,然後或者是長距離依賴,導致最後生成的句子翻譯質量並不好。

這個時候大家很快提出注意力模型這個東西,它的一個根本出發點就是當我要預測下一個詞的時候,我要結合已經生成的詞,還有源端我去選擇當前比如說原裝哪些詞對下一個詞預測影響最深?

比如說在這個例子當中的話,我們人也能很容易想到,在這個時候我要預測下一個詞,比如說下一個詞可能是翻譯成 secret,好,源端的對下一個詞貢獻最大的應該是秘訣,而不是其他的東西。注意力模型也能比較順利的,抓到重點,這樣在翻譯比較長的句子的時候效果也很不錯。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

其實在過去一兩年的時間,就是普通的 RNN 或者是 CNN,主要是 RNN 結構結合注意力模型,是線上機器翻譯系統的一個主流。

但是情況很快就發生了變化,我們都知道谷歌發表了一篇比較有名的論文叫 Attention is all you need,也就是所謂的 Transformer 框架。於是,從去年 5 月份開始,很多線上系統就逐漸切換到以 Transformer 為基礎的機器翻譯系統。

其實到目前為止,在絕大多數的情況下,效果最好的還是基於 Transformer 模型的機器翻譯系統,不管是在評測還是實際產品當中。

當然相比前面RNN 加註意力模型,Transformer 也有他自身的問題。首先,Transformer 引數量肯定是增大了很多倍。好多大學裡面的課題組做 Transformer 實驗的時候,遇上那種規模比較大的資料集就跑不動了。這當然不是我們願意看到的。

但是呢,目前從效果上來講,它確實是最好的原理,很簡單,就是相比以前我們基於 RNN 或者是 CNN 的方法,在這裡面都去掉了,重點引入了三個東西。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

第一個比較顯著的就是綠色方框的位置編碼,因為在以前都看不到這個東西。

位置編碼的話就是我們在原文端或者是在目標端,進行 Encoding 的時候是會把位置考慮進去的,然後加上位置編碼之後就流入 Multi-Head 申請。

可以看到,Attention 的話它本質上計算的是原文端到目標端的貢獻。Multi-Head 它主要計算的是源端到源端的貢獻,也就是所謂的 self 的通訊。比如說在編碼的時候,它會對源端的資訊,相互去計算詞與詞之間的關係。生成目標端的時候,同時它會掃描已經翻譯的部分和原端的部分來生成翻譯。

這裡我們應該有個直觀的印象,也就是說 transformer 的話效果確實是最好的,但是它需要的算力的話也是比較驚人的。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

這裡面我特別需要提及的是,整個訓練過程與訓練其他的任務也差不多,比如說用於 CV 的任務,它的整體流程與深度學習其他任務都很相似,目前一比較遺憾的是在計算損失這一步。

對於機器翻譯來講,真正的最佳化目標是自動譯文與參考譯文的相似度,但是目前我們並沒有達到這一步,我們目前計算損失函式的話主要是去計算困惑度,其實困惑度與機器翻譯的質量並不是那麼嚴格的正相關關係。

這裡面原因自然有模型的問題,但是也有機器翻譯方嗯這個問題本身的挑戰。比如說我們在機器翻譯當中經常會遇到這些奇奇怪怪的現象,首先是歧義和未知現象,因為不管我們訓練的語料規模有多大,這些情況都不可能完全給包含在裡面。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

比如說萬一哪一天南京市長真的叫江大橋了,那個時候估計我們需要用規則去幹預一下,但是一個例子能干預,兩個例子也能干預,但是每天發生這些新的語言現象,我們真的是無能為力。

第二個問題就是說翻譯並不僅僅是字串的轉換。不管用什麼機器學習模型,他學到的更多的還是字面轉換的,這個時候就會出很多問題了。這兩天在網上出了一個例子,“一行行行行行,一行不行行行不行”?。這個時候機器翻譯就只能啟動自殺程式了吧?

第三個問題就是說翻譯的解本身就是不唯一的。我們很難去衡量它真正的翻譯質量與我們計算出來結果相關性到底有多大。當然說翻譯的解不唯一,這也是人工翻譯需要面臨的問題。

經過剛才的介紹,我始終在強調一個觀點,也就是說目前的機器翻譯技術雖然說取得了一個很大的進步,但是在很多嚴肅場合,比如醫療、金融、法律,這些需要非常高質量的情況下,目前的全自動的機器翻譯還無能為力,在很多時候還是需要引入人工翻譯的。

翻譯需求與人工翻譯行業

然後我們來簡單看一下,在嚴肅場合我們到底需要透過什麼樣的方法去來解決翻譯需求。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

這裡其實有一個專門的行業,人工翻譯行業。這個圖示明瞭全球各個國家人工翻譯行業佔整個產業的產值,我們大家可以看到一個很觸目驚心的事實,就是,歐洲和北美洲加起來超過了全球翻譯市場總量的 90%,然後整個亞洲佔比百分之九點幾的樣子。

這是前年的資料,全球的人工翻譯產值是 400 億美刀好,我們基本上能夠測算出來,我們國內人工翻譯的產值其實並不高,也就大概是 300 億人民幣的樣子。從這個角度來講,翻譯需求好像並不是一個太重要的需求,但是這個需求就是從市場產值來看比較小,但其實這個需求卻不容忽視。

大家都總結說翻譯是屬於非剛需非標準化的一種服務。但是翻譯又與我們無處不在,比如說我們好多時候比如說出國旅遊,然後需要查一些資料,經常焦頭爛額,我們去看英文的理解速度肯定是明顯慢於看我們母語文字的,就是說這個時候有很多翻譯需求其實不產生商業價值,但是它又很重要。我一直在想這大概是為什麼這麼多網際網路公司願意投入這麼多人力物力來做這個事情。

然後收回到人工翻譯行業的話,它有一個很有趣的現象,這也是我為什麼願意把我的主要精力花在人機互動機器翻譯上,因為人機互動機器翻譯主要強調的是人機結合。這個行業有一個很重要的現象,叫獨角獸不獨,充分多樣性。多樣性到啥程度?前 10% 的翻譯服務公司加起來的市場份額不超過 15%。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

你想這放在咱們網際網路行業,這是無法想象的,因為我們一般網際網路行業的話講究的是贏者通吃,可能第一家就佔到 80%。它這個呢,前 100 家都不能都佔到都不到 15%,所以說大家可以發現這裡面有個有趣的現象,而且這個行業它屬於我們更願意把它看作是一個傳統行業。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

這些玩家比如說這些排名順序,市場份額一般是相對比較穩定的,也就是說很難看到一次比較劇烈的抖動。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

這個行業還有一個特點就是需求以筆譯為主。大家看到的同傳,不管是同傳翻譯機也好,還是那種會場展示,其實更多是屬於展示的需要,你從剛性來講的話主要還是筆譯。

我這裡有個非正式的數字,就是口譯(包括了傳和同傳)這兩個加起來的話,不超過整個市場份額的 15%,也就是說筆譯是超過 80% 的。

當然說在這個切入過程當中到目前而言,機譯的份額還是比較小的,也就是說機器翻譯想從現金流上去切的話還是很難的,目前大家可以看到機器翻譯一般是免費的,也就是說機器翻譯的商業化落地一直是比較難的事情,但是這個情況也在很快發生變化。

另外不得不提的一個現象就是這個行業很分散,分散到什麼程度,10 人以內的團隊佔絕大多數,這是全球的統計資料,這個不是隻是咱們國內行業的問題,他們是很多時候是需要專業工具的,但是他們又無力支付正版。

總結一下,前面介紹現狀和人工翻譯行業,我主要是想引出這個人機互動式機器翻譯技術到底是為了解決什麼問題,然後接下來我們才能聊什麼是人機互動式機器翻譯技術。

人機互動式機器翻譯技術

我們團隊投入到人機互動式機器翻譯技術的原因,主要是在目光可及的範圍內,全自動輸出的翻譯結果還無法保證譯文質量。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

當然說大家也知道目前深度學習模型的魯棒性還是一個很大的問題。雖然說哪怕是識別率已經很高的人臉識別,說實話效果比機器翻譯的效果好多了,但是我們還需要去想很多辦法去確保它的魯棒性,然後在機器翻譯的話就更明顯了。有可能在與訓練語調相關的這些句子的翻譯表現的效果很好,但是我一旦給一個奇怪一點的句子,或者是有時候多一個標點,少一個標點,他直接翻譯質量就急速下降,這個時候就在很多嚴肅場景的話,機器翻譯的能力還是比較微弱的。

這個時候我們期待這樣一種機器翻譯,你不是說機器翻譯模型很牛嗎?那好,你機器翻譯能否與人去完成協作,目標是提高人工翻譯的生產效率,比如說以前我一天完成的量,現在我 20 分鐘就能完成。要達到這個目的也並不是不可能,但是需要改造我們底層的機器翻譯模型,比如說需要讓模型適應這三個要求。

第一,接收使用者提供的譯文干預。

第二,及時學習使用者的修改反饋。

第三,在人機互動過程當中,你機器翻譯能否實時提供翻譯的輔助資訊。

好多時候人工翻譯這個行業是相當苦的,大家可以想象所有文字工作都是有一個共性的,都很枯燥,一直坐在那個地方,這種面臨一些很難的問題,好你如果能適當的提供一些更多更有用的輔助資訊的話,這個翻譯系統也是比較實用的翻譯系統。

那問題來了,既然提到人機互動,好,我們需要去找一個人機互動正規化,所謂正規化的話我是這麼理解的,就是說在人工翻譯流程當中,我們怎麼能怎麼讓機器翻譯充分地發揮作用?

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

你想想一提到就是說在人工翻譯過程當中怎麼用機器翻譯的話,大家肯定想到第一點可能就是我直接去改機器翻譯結果。是的,然後也有這麼一個標準的方法,它叫譯後編輯,但是它有一個要求就是說被修改的機器翻譯結果得是質量非常好的。你想,如果一個句子質量比較差,我們改的也很崩潰是吧?

我們主要是講這兩個東西,一個是翻譯輸入法,然後還有就是互動式機器翻譯。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

我們基於這個技術,在不同的情況下給人工譯員推薦不同的工具來使用。在這種人機互動正規化的情況下,機器翻譯的作用就不只是提供一個自動譯文,然後對譯文不負責任,他要完成的事情其實是可以簡單概括為以下幾點。

第一,盡力根據人工的反饋來生成更好的整句翻譯,也就是說當人工已經給了一些提示之後,你能不能給一個質量明顯更好的整個句子。

第二,如果第一步辦不到的話,你能不能提供質量比較好的翻譯片段?這個時候人工翻譯如果直接採用的話,那也能減少很多工作量是吧?

第三,說連靠譜的片段都提供不了的時候,是否能夠幫助人工翻譯去提高生產效率?

要完成上面三個點的話,其實還是需要底層一些看不見的技術,比如說線上學習技術、語義理解以及快速解碼,這裡快速解碼在人機互動當中特別重要。因為你想我們按了一個鍵,然後等了半天他卡得出不來結果,肯定不行。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

接下來我們簡單看一下剛才提到的譯後編輯。透過 Quality Estimation 來判定我目前提供的自動譯文質量比較好的時候,就可以直接推給人工翻譯,讓他來改,這是比較理想的情況,85% 以上這一步是達不到的,也就是說是推薦不出來譯文。

然後接下來我們就需要用互動式機器翻譯,所謂互動式機器翻譯,也就是說人工輸入一部分,然後機器結合輸入的這部分重新生成譯文,反覆交付。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

不管是譯後編輯還是互動式機器翻譯,它有一個前提,就是說自動譯文的質量還可以,我們還有修改價值,還值得我們去閱讀理解。

但是我們知道翻譯這類工作屬於文字工作,如果我們給一個垃圾,然後給人工譯員,你去理解我這個垃圾,然後你再把它改好吧,這個時候他肯定是不幹的是吧?然後這個時候我們就在想我們是否能找到一種互動方法?使用者在不閱讀機器翻譯自動譯文的情況下,還能夠提高翻譯效率。

我們想來想去,最後想到的方法就是翻譯輸入法。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

人機互動式機器翻譯應用

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

我們前面講了這麼多技術,如何去構建一套人機互動方案系統來滿足當前業務的需求呢?我簡單總結一下的話,就是說為了供應這個系統,首先是要有明確的需求,所謂需求就是語種、領域、用途、業務系統的介面等;其次要有語料準備;還有一個大頭就是如何整合可用的 State-of-the-art 的技術,比如說輸入法、術語抽取、翻譯片段挖掘等;還要有一個除錯 GPU 叢集,部署上線並接待。看起來很簡單,這其實裡面很多坑。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

然後難點在哪裡?

首先就是對自動譯文質量過高的期望。在很多時候業務部門他覺得機器翻譯不是已經被宣傳的很神奇了,好你就給我自動翻譯出來。這個時候但是我們自己部署的系統並不一定能達到要求。

第二個就是我們習慣用開源系統,但是開源系統裡面的坑是遠比計劃的還多。

第三個就是如何甄別並且整合最新的技術,因為我們知道目前在人工智慧領域有很多論文,但是說實話 10 篇論文當中能找出一篇能夠整合到業務系統,那就已經很成功了,這個時候如何高效率的來甄別這些成果是個問題。

然後最後一個挑戰就是說如何拉通目標場景技術鏈條。人機互動式機器翻譯它技術鏈條實在太長了,涉及到就是一直到輸入法,然後還有一些比較傳統的統計,機器翻譯的技術都要用到,還包括像約束解碼這些東西,這裡面會有很多那種比較艱鉅的事情需要做。

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

最後和你分享下在整個過程當中,我的一些思考,我相信大家能形成一些共鳴。

人工智慧落地的一些思考

【人物】黃國平:我的技術成果是我們的| qcon全球軟體開發大會

首先就是說我們在招人的時候,到底該選用什麼樣的人,比如說是選“調參大師”還是“論文機器”,或者是“程式碼工匠”。其實是在一個團隊當中,這些人我們都是需要的。但是怎麼去調和他們相互之間的那種鴻溝,怎麼加強交流,這是個問題。

第二個就是資料鴻溝與工程壁壘,因為好多時候如果公司大了一點的話,就會有部門牆之類的東西,這個時候怎麼把資料與我們的演算法進行打通就是個問題。

另外就是在設計產品的時候,我們經常叫人工智慧,那好我們到底是在設計“人工智慧產品”,還是僅僅是“用人工智慧的產品”,這兩個東西是有區別的。有些時候,為了真的從根子上解決使用者體驗的問題,我們可能需要去設計人工智慧產品,而不是用人工智慧的產品。

我的分享就到這裡,謝謝大家。

線下會議VIP可報名

現開放限量線上直播觀看名額

國家發展和改革委員會

能源研究所能源可持續發展研究中心主任

康豔兵線下講座

TAG: 機器翻譯翻譯我們人機互動這個