堪比活字印刷術,文字智慧處理技術創造出“數字白領”

“當你覺得這份工作非常枯燥,工作時覺得自己像個機器人,那這個工作其實就適合機器人完成。”近日,達觀資料CEO陳運文在接受南方都市報記者專訪時,分享了他對智慧辦公機器人未來發展的看法。他表示,達觀資料今天所做的事,就是要幫助格子間裡的白領完成繁瑣重複的工作,把人類從枯燥的工作中解放出來。

在科技高速發展的今天,計算機已經學會自動收集資料撰寫報告、根據材料自動撰寫公文、自動錄入財務報單等工作,而人類員工只需在稽核無誤後輕點滑鼠,繁瑣重複的工作便輕鬆完成了,這些看似科幻的圖景已出現在現實生活中。

達觀資料便是一家專注智慧文字處理技術和智慧辦公機器人服務的公司,是國內文字資料智慧化處理領域的第一家國家級專精特新“小巨人”企業。該公司打造的“數字員工”已經走進銀行、海關、政務部門等多個機構與行業,協助人工完成業務流程自動化,提高企業效率與智慧化水平。

陳運文告訴南都記者,技術發展會代替很多的工作崗位,但同時也創造了新的工作崗位,而技術的發展最終是要將人類從繁複的工作中解放出來。

堪比活字印刷術,文字智慧處理技術創造出“數字白領”

達觀資料CEO陳運文

當你工作時覺得自己像個機器人,這個工作就適合機器人

南都:

在國內,文字處理

技術

主要應用場景和技術門檻在哪裡?

陳運文

百度、搜狗、阿里巴巴、騰訊等網際網路巨頭的應用比較早,也比較全面的應用了文字處理技術。比如搜尋引擎,底層核心技術就是文字處理技術,在搜尋引擎輸入文字,文字處理技術在後臺理解輸入文字的意思,並從海量資料中將相關內容找出來。

我們認為文字處理技術在TO B企業服務界的價值更高,但TO B領域的文字處理技術難度和門檻也更高。文字處理技術的難點有兩個方面。其一,文字非常抽象與凝練,短短几個文字就能表達非常豐富的含義,計算機解讀高度凝練的中文語言,難度是非常大;其二,語言文字處理是人類的高階認知,機器人要掌握行業的“知識圖譜”,具備專業的閱讀能力才能夠閱讀專業的文件資料,這些技術門檻使得文字的自動化處理和應用存在很多難點。

不過,文字自動化處理的應用場景非常廣闊。文字資料的處理普遍存在於每天的工作中,而智慧化的文字資料處理技術可以大幅提升人類日常文字辦公的效率,為很多行業帶來顛覆性創新。雖然非常難,但非常有價值,所以我們下決心把它做好。

南都:

每天,我們的工作生活都產生海量的資料,其中有大量的無用資訊,達觀資料如何完成價值提取?如何開拓場景應用?

陳運文:

首先要讓機器人閱讀大量人類寫作的文字資料,訓練它的語言模型。“讀書破萬卷,下筆如有神”,這句話對智慧機器人也適用,在計算機看來,大量的文件資料其實是以文字形式承載的資料,系統會從大量資料提煉出語言模型,語言模型構建完成後,就可以訓練機器人完成日常工作。

讀和寫是人類日常重要的操作,我們分別訓練了不同的語言模型,去完成讀和寫的工作,在很多行業裡面得到了應用。比如幫助銀行完成信貸審查的工作,幫助航運物流企業處理訂單,完成貨運訂倉工作,自動化完成海關的進出口報關工作。

而在文字創作領域,我們開發了AI機器人,透過學習人類寫作的大量文件資料,總結寫作方式,完成相應的工作。如政務辦公需要寫作公文,而公文寫作有非常嚴格的規範,字型、字號、段落等都有嚴格標準,機器人學習大量優質的公文後,就可以自動起草公文或報告。目前,我們的系統已經在很多地方發揮作用,在稅務局、人社局、公安局、食品藥監局等,完成審批、核驗、制證等工作,完成原來依靠大量人工才能完成的工作,提升政府的行政效率。

南都:

目前,達觀智慧辦公機器人主要應用到哪些場景?

陳運文:

主要有三類場景,第一類場景是大量的重複性工作。如財務工作,工作人員要理髮票,並將發票內所有詳細資訊錄入到系統中。再如海關報關工作,每個商品都要填報關單,工作量非常大,而且繁瑣重複,這些量大繁瑣的工作就適合機器人完成。

第二類對準確率要求非常高的工作,常見於金融行業。銀行、證券、基金、保險等領域對文字資料的準確率要求非常高,由人來處理這些事務非常辛苦,所以,我們可以將複核等工作交給機器人做。另外,政務公文對準確率要求也非常高,姓名、職級、順序不能搞錯,公文的段落篇章都有嚴格的規範,機器人也可以完成稿件的複核或政府公文的複核工作。

第三類是跨系統的工作。在辦公過程中,我們常常要在 A系統查詢資料,B系統核驗,再到C系統下載相關文件等,需要同時使用多個系統。智慧辦公機器人可以自動到各個系統完成資料的查驗、讀取、分析、錄入等工作,提升需要橫跨多系統的工作的效率。

我們有個常見的評判標準,當你覺得這份工作非常枯燥,工作時覺得自己像個機器人,那這個工作其實就適合機器人完成,這是這些場景的共性所在。

人工智慧技術

需要新突破

,把情感做到比較好的模擬水平

南都:

利用智慧辦公機器人參與到具體的工作中,一旦出現差錯,這種權責如何界定呢?

陳運文:

所有人工智慧系統落地過程中,都會面臨此類問題,我們的解決方法是把1%的最終決策工作交給人來做,把99%的前期的處理工作交給計算機來做。可以把計算機看做助手,幫助人類完成繁瑣的前期工作,最終的決定由人來做,如此可以把權和責劃分清楚。

南都:

我注意到,達觀資料的智慧辦公機器人能自動閱讀,也能自動寫作,這樣的創作如果對比人類的創作水平,能達到什麼樣的水平?

陳運文:

我們把自動寫作分成兩類,一類是套路性寫作,一類是自由式寫作。套路性寫作是工作中遇到的比較多的型別,如工作彙報、企業月度或季度總結、會議紀要等。套路性寫作的特點是題材相對固定,格式規範有相對明確的套路,而且有過往大量的文章資料參考,因為有大量資料的規律可循,所以我們的機器人在套路性寫作方面可以達到和日常辦事人員完全一致的寫作水平。

而自由式寫作,僅讓計算機來寫,很難達到人類可以認可的水平。所以我們採用啟發式的寫作方式,這種方式能夠讓機器人達到比較高的創作水平。具體方法是,機器人先寫100字,如果這100字和人類要求的寫作風格匹配,就讓機器人沿著100字續寫。如果這100存在細節問題或者偏離主題,人類可以在100字的基礎上修改,修改後讓計算機沿著改好的內容再續寫100字,人類再針對寫出來的100字修改,改完以後再寫,這是人類寫作和計算機寫作相互互動的過程。換句話說,機器人的寫作方式和小學或者初中生的寫作方式不一樣,機器人是人機充分結合的寫作方式。

我們的技術已經在小說寫作領域得到了初步應用,主要在稿件潤色方面發揮作用。就目前而言,小說梗概由人類作家來完成,但故事梗概完成之後,要填充很多細節,這些細節的填充是由機器人完成的。

南都:

在您看來,制約機器人的感性創作的因素是什麼

陳運文:

機器人很難突破過往的寫作框架,也很難像人類一樣寫得出彩生動。因為這需要把人類的情感注入到文字中,而情感是一件很難標準化的東西,比如我們看一句話,有人有點感動,有人非常感動。我們今天講,所有的文字處理技術都需要大量的資料建模工作,資料建模的工作第一步是建立標準,然後量化,然後開發數學模型完成建模工作。但情感恰恰難以量化分析,不能建立標準,就很難用一套自動化的方式完成這項工作。所以,我認為需要想出更好的方法突破現有的人工智慧技術框架,才能夠把情感做到比較好的模擬水平。

“數字白領”將有長足發展,但

機器人

難以取代

創造性工作

南都:

技術到底給人類帶來什麼?

自動化

對於藍領工人

而言

,或從事產業鏈下游工作的人,技術對他們來說是很殘酷的,因為他們面臨著被取代。

“數字員工”似乎也在搶奪白領的工作機會。

陳運文:

其實今天我們覺得一些很殘忍的事情,如果到未來50年再回頭來看,會發現只是稀鬆平常的事情。我經常舉一個例子,在家庭洗衣機發明之前,無論美國,還是歐洲都有大量專門洗衣服的洗衣工廠,很多富裕家庭不洗衣服,而是把髒衣服交給洗衣工廠,芝加哥的洗衣工廠最多有2000多個女工。在洗衣機發明並被日本人輕量化和批次生產後,那個時候大家也有同樣的顧慮,洗衣女工要何去何從?但在今天看來,這些話題不值一提。

我們相信,技術發展會代替很多的工作崗位,但同時也創造了新的工作崗位,技術發展會將人類從重複的工作中解放出來,這是非常人道的事情。我們不希望人們就像《摩登時代》裡所演出的那樣,工人們每天在流水線上擰螺絲。今天我們做的工作,就是希望能夠代替格子間裡的白領完成繁瑣重複的工作,把人類從這些枯燥的工作當中解放出來。

南都:

試問,未來的哪些業務場景是智慧辦公機器人難以取代的?

陳運文:

我們的技術對自由式和創造性的寫作,或者說創造性的文字資料處理工作涉足不多。我們人類非常聰明,有創造性,只有沒有任何創造力的工作,每天像機器人一樣重複機械、有規律的工作需要得到變革。人類智慧的結晶,一定的是充滿創造、充滿情感、充滿想象的,這是智慧機器人難以取代的。

南都:

在數字經濟時代,您如何看待智慧辦公機器人的未來發展前景?

陳運文:

我們看到,全球數字化的競爭愈演愈烈,如果企業率先採用新技術,就可以迅速降低企業成本。類似技術在北美地區發展得非常迅速,有很多“數字白領”的金融企業得到了長足的發展。我們作為中國的科技企業,也需要儘早地突破智慧辦公領域的技術壁壘,把這些技術應用到更廣闊的場景裡去。

在中國,以文字資料處理為業的相關人士,初步統計超過了4000萬人,包括600萬的公務員和3000多萬的白領,市場非常廣闊。而且,新一代年輕勞動力短缺,讓人類陷入繁瑣重複機械化的工作沒有價值,我們應該把人解放出來做真正有創造性、前瞻性的工作,重複的工作應該讓機器人去完成。無論從市場需求的角度,還是從現實的勞動力市場情況的角度來看,都非常有前景。

南都:

達觀資料近期完成了

5.8

億元的

C

輪融資,公司未來的發展規劃是怎樣的?戰略目標是怎樣的?

陳運文:

作為中國在文字資料智慧化處理領域的第一家國家級專精特新“小巨人”企業,我們希望能夠扛起文字資料智慧化處理的大旗,向學術界的專家教授們請教前沿技術,向產業應用界的專家學習專業知識,把文字智慧處理系統開發好,能夠落地應用,為整個社會更高效率的運轉貢獻我們自己的力量,這是我們的目標。

南都:

中文世界的專業術語非常多,讓機器人理解這些文字的投入會不會非常大?

陳運文:

在以前,每個領域需要非常漫長的積累,才能夠建立幾個語言模型,而在大資料時代,獲取語料資料的難度和門檻低了很多。在過去的6年多的發展過程中,我們已經積累了超過200多億字的語料資料,一個人一輩子都看不完,但機器人可以對200億字的資料反覆的從頭到尾閱讀、分析、建模,對文字提煉和建模的效率比以前要高很多。

我認為,大資料時代能夠讓智慧技術的推進速度提升很多,資料智慧就是有多少資料就有多少智慧,今天的計算機能完成很多文字處理工作,也有賴於積累的大量資料,並且對它做反覆的建模。現在是資料爆炸的時代,我們相信未來能夠攻克很多技術難關。

南都:

貴公司將文字

智慧

處理技術類比活字印刷術,您是如何看待二者的相似之處?

陳運文:

活字印刷術是宋代畢昇發明的技術,無論是活字印刷,還是雕版印刷,都是文字處理的新技術。新技術帶來意想不到的應用價值,印刷術中國普及後,中國社會的繁榮、經濟的發達、文化藝術的昌盛,都在明清時期進入高峰。四大名著之所以出現在明清,也是因為印刷術讓小說廣泛傳播有了非常好的技術基礎。

所以,我們認為,文字智慧化處理技術和宋代活字印刷術類似,表面上只是文字處理領域的科技創新,但我們相信透過科技創新的力量,能夠推動下游行業的變革和發展,帶動深遠的行業變革。我們今天做的事情,就是難而有意義的事情。文字語義理解因為高度抽象,是人工智慧領域中技術難度最高的領域,被微軟創始人比爾·蓋茨稱為“人工智慧皇冠上的明珠”。我們希望能夠把這件事情做好,做成行業的標杆。

採寫:南都記者 程洋 實習生 白紅國

TAG: 機器人工作陳運文寫作技術