中科大王傑教授：基於表示學習的知識圖譜推理技術

2022-02-11由雷峰網發表于科技

作者 | 維克多

編輯 | 青暮

知識圖譜蘊含豐富的人類先驗知識，具有重要的學術價值和廣泛的應用前景。知識圖譜推理作為知識圖譜領域的核心技術，能夠極大地擴充套件現有知識的邊界，有力地輔助人類進行智慧決策。

2021年12月17日，中國科學技術大學教授，博士生導師，國家優青王傑在 CNCC 2021 “知識為意，圖譜為形——基於圖機器學習的知識推理”專題論壇上做了《基於表示學習的知識圖譜推理技術——從簡單推理到複雜推理》的報告。

在報告中，王傑結合知識圖譜近年來的研究趨勢與應用場景，聚焦從單一圖譜推理到聯合外部資訊推理、從結構化輸入到自然語言輸入的層次遞進的推理場景，介紹基於表示學習的知識圖譜推理方向取得的進展。最後，王傑展望了知識圖譜推理技術未來發展所面臨的若干挑戰和機遇。

例如，他提到：“當前廣泛使用的資料集無法準確地反映真實場景模型，現在的模型測試時基本採用封閉世界假設，不符合真實應用場景，會導致本該正確的結果被判斷為錯誤……現有知識圖譜只涉及文字資訊，未來的發展趨勢是擴充套件到多模態資訊。多模態知識圖譜依賴於多種模態資料的收集，其中關鍵問題是……”

以下是演講全文，AI科技評論做了有刪改的整理：

今天的演講題目是《基於表示學習的知識圖譜推理技術——從簡單推理到複雜推理》，分為背景介紹、簡單推理、複雜推理、未來展望等四個部分。

知識圖譜的本質是大規模的語義網路知識庫，表示對客觀世界實體的描述。如上圖左下角人物知識圖所示，每一個節點代表一個人物，邊代表人物之間的關係。而在計算機中，知識圖譜以三元組的形式儲存，包含頭實體、關係、尾實體。

我們總希望得到大型的知識圖譜，因為在規模效應的作用下，會給應用效果帶來質變。知識圖譜可以分為兩類，一類是通用知識圖譜，面向通用領域的百科知識庫，另一類是領域知識圖譜，面向特定領域的行業知識庫。

通用知識圖譜覆蓋面較廣，但所包含的知識層級體系較淺、粒度較粗、精度不高，領域知識圖譜則相反，其覆蓋面較窄，只面向某個特定領域，包含的知識深度和精度往往有更高的標準和質量。

知識圖譜最早可以追溯到60年代的專家系統，當時主要是依靠專家知識，透過人工進行構建，所以成本較高。經過多年發展，知識圖譜逐漸轉向自動化構建，1998年提出的語義網路和2006年提出的連結資料是“自動化”發展的關鍵節點。

2012年，谷歌釋出知識圖譜，並將其應用到搜尋引擎當中。這時knowledge graph詞彙第一次被明確提出。目前，谷歌、百度等構建的知識圖譜已經包含超千億級別的三元組，其背後所依賴的是大資料驅動下的自動知識獲取技術。

知識圖譜屬於典型的交叉技術領域，包含眾多的技術要素：儲存、查詢、構建、獲取、推理、融合、問答、分析等等幾個方面。在眾多要素中，推理是核心的技術和任務。

一方面，知識圖譜的儲存、查詢、構建與獲取，不僅僅是為了能夠描述客觀世界、總結人類先驗知識，更重要是為知識圖譜推理服務。

另一方面，知識圖譜中的技術和任務都包含深度語義理解。例如融合技術中，需要利用推理技術對齊不同知識圖譜的實體；問答技術中需要推理技術拓展問句的語義；分析技術中需要推理技術幫助進一步挖掘圖資料中的資訊。

因此，凡包含深度語義理解的任務都涉及推理的過程。而知識圖譜的推理目標是利用知識圖譜中已經存在的關係或事實推斷未知的關係和事實。換句話說，就是由已知的一個或者幾個判斷，推斷另一個未知的判斷。

知識圖譜的推理有兩種形式：基於規則的推理、基於表示學習的推理。基於規則的推理是指基於本體邏輯的演繹推理，例如若A屬於B，B屬於C，則A屬於C。這種推理雖然可解釋性強，精度高，但需要事先寫清楚規則，所以在實際應用中不夠靈活。當涉及大規模資料時，可以使用統計方法總結歸納出規則，這也稱為歸納式的推理。

基於表示學習的推理需要將實體以及實體之間的關係對映到向量空間，然後透過向量空間的操作進行建模邏輯關係。這種方式易於捕獲隱含的資訊，但卻丟失了可解釋性。

列舉一個基於表示學習的推理的工作原理。上圖中存在兩個三元組：；。將其對映到向量空間之後會發現，中國與北京這兩個向量之間的差值，接近美國與華盛頓之間的差值。

然後定義一個函式，希望三元組對映到向量空間之後，頭實體+關係的向量表示儘可能接近尾實體的向量表示。如上圖中的f（h，r，t）函式，既可以是Loss函式也可以是打分函式。

打分函式某種程度上是三元組為真的置信度，如上圖右下角的例子所示，根據打分值（置信度）確定“英國的首都是倫敦”。

進一步，根據輸入，基於表示學習的知識圖譜推理分為簡單推理和複雜推理兩類。簡單推理類似連結預測，根據知識圖譜中已有實體和關係推理兩個給定實體的關係，其難點在於理解已有實體和關係的語義。

複雜推理相對於簡單推理，其輸入更加複雜。根據輸入的不同，難點分別在於：

建模關係間的語義結構，給定實體關係未在訓練模型中出現過。

建模複雜的結構化問題，包含若干個一階邏輯。

建模非結構化問題，輸入資料包含人類口頭語等。

簡單推理最新進展

直觀理解簡單推理，例如有一個頭實體和一個尾實體，然後希望補齊與之對應關係，從而最大可能讓三元組成立。

還是以人物知識圖譜為例，已知（訓練資料）“蔣英的丈夫是錢學森，蔣英的父親是蔣百里”，請問錢學森和蔣百里之間是什麼關係？為了較好解決這一連結預測問題，需要對知識圖譜中實體之間的關鍵性質進行建模。

方式有三：語義近似、語義分層、語義融合。例如老虎是哺乳動物，老虎和獅子

語義相近

，就可以推理出獅子是哺乳動物；獅子屬於貓科動物，貓科動物屬於哺乳動物，根據

語義分層現象

可以推理出獅子是哺乳動物；

語義融合

是指結合知識圖譜以及非知識圖譜的非結構化文字描述，從而捕捉實體的潛在語義。

語義近似

對於語義近似，目前的經典方法是“基於張量分解的知識圖譜嵌入模型”，例如CP、RESCAL、ComplEx等等，此類方法的共同點是三元組為真的機率由內積定義。其存在的問題由上（右）圖所示，在向量空間中相近語義的實體具有不相近的表示。

基於上述缺點，我們提出

“面向張量分解的知識圖譜嵌入模型的正則項”

，其思想在於讓語義相近的實體表示內積儘可能的大，距離儘可能的小。如上（左）圖所示，除了希望尾實體的向量儘可能落在黃色的虛線上，也希望尾實體的向量表示儘可能地落在橢圓（紅色區域）裡。

如何做到？新增基於對偶距離模型的正則項，用向量差的2範數表示原始內積。將“2範數”展開之後，會發現這一表達式也包含了原始內積，以及後面兩項2範數的平方。最後會得到對偶誘導正則項：由原來的內積+頭實體2範數+尾實體2範數。

透過實驗發現，“對偶誘導正則項”能夠有效促使相近語義實體具有相近表示，也可以顯著提升現有模型的推理效能。此外，它的優點還在於給出了張量核2-範數的一個上界以及矩陣分解問題中跡範數正則的張量推廣。

語義分層

語義分層是廣泛存在的，例如“棕櫚樹是樹”，“北京位於中國”。其中樹是更高層級，棕櫚樹是更低層級；中國是更高層級，北京是更低層級。如果按語義對實體進行分類，可以分為不同語義層級的實體，例如“哺乳動物”和“狗”，“移動”和“奔跑”；相同語義層級的實體，“玫瑰”和“牡丹”，“貨車”和“客車”。

現有建模語義層級有兩個傳統工作，利用外部層級資訊輔助建模，在一些特定的資料集裡，實體和關係本身是帶有層級資訊的。這種方法可以幫助理解實體的語義，但是並不能很好地區分不同層級的實體，最關鍵的是，並不是所有的資料集中都有額外的分層資訊。

還有一類方法主要考慮關係的語義層級，也就是將一個關係抽象成若干不同層級的子關係的複合，從而達到對語義層級的建模，但是這類方法需要對關係表示進行額外的聚類操作，其缺點在於無法全自動地從知識圖譜中學到具有層級性質的語義資訊。

為了建模知識圖譜的語義層級，可以將語義層級建模成樹結構，如上（左）圖所示，樹結構中節點的深度，能夠反映層級資訊：越靠近根節點的節點，具有越高的層級；而具有相同深度的不同節點，具有相同的層級。

進一步，可以用極座標建模樹結構。極座標由兩部分組成，半徑座標反映點到原點的距離；角座標可以用來區分同心圓上的不同位置。因此可以將點到原點的距離視作到根節點的距離，半徑座標和角座標就可以分別對應不同層級和相同層級的實體。總而言之，將實體對映到極座標系中，利用極座標建模語義層級，可以利用模長（ Modulus）和角度（ Phase）兩部分進行建模。

為了建模不同實體之間的關係，不同實體模長之間的關係可以建模成伸縮變換，也就是頭實體的模長乘以關係變換（r）得到尾實體的模長，然後將角度之間的關係建模為旋轉變化，也即頭實體的角度根據不同的關係旋轉不同的角度後得到尾實體的角度。此類建模方式可以定義為上（右）圖中的距離函式。

經過實驗，此類方法能夠有效區分實體的語義層級。例如上圖的幾個例子，“CS與AI不同層級”、“ask與inquire相同層級”、“D與C不同層級”都能更清晰地進行分割。此外，頭尾實體層級相同，實驗證明可以利用角度進行區分。而在單步推理測試資料集上，此類方法已經在推理效能上顯著超越其他方法，也被同行評價為“基於幾何的方法中表現最佳的模型”。

語義融合

語義融合需要將圖譜與文字描述進行結合，既涉及結構化資料也涉及非結構化資料，目前該領域還在探索。現有的趨勢是從知識嵌入向知識注入發展，前者是指傳統的KGE模型，僅從結構化的知識圖譜中獲得知識，體量龐大的文字資料不能被充分利用。

而知識注入指KGE模型與預訓練模型協同訓練，能夠有效處理非結構化的資料。但缺陷在於，會由於預訓練模型巨大的傳輸量而帶來高額的計算成本，甚至成本太大而無法協同訓練。

為了解決此問題，我們提出

Hetero- Learner

：融合異質知識的高效率學習器，將圖譜結構和文字描述嵌入成向量，並進行向量的有機拼接。經過實驗表明，僅以同類模型 KEPLER3。6%的引數量取得 Wikidata5M上的SOTA結果。

為了進一步提升效能，受人類認知推理的啟發，我們提出

Hetero- Reasoner

。該模型方法“模擬”人類，首先根據推理物件的含義以及推理物件之間的聯絡做出判斷和推理（（對應Knowledge Learner）），然後從現象中歸納抽象的邏輯規則來輔助推理（對應Rule Miner），最後會回憶和反芻已有的知識來加強對推理和判斷的信心（對應Knowledge Distiller）。整體而言，該模型包括異質學習器、規則挖掘器和知識蒸餾器三個模組，能有效地結合有結構的知識圖譜資料和無結構的文字資料進行推理。

最終，在最近一次KDD CUP 2021 大規模知識圖譜比賽的“Link Prediction”賽道榮獲第三名，成為前三名中唯一一支成員均來自高校的隊伍。

複雜推理最新進展

複雜推理主要集中在歸納式推理、多步推理、自然語言查詢三方面的工作。

歸納式的推理和簡單推理有類似之處，都是進行連結預測的任務，但是歸納式推理測試資料集的實體和訓練資料集的實體不重合，因此難點在於如何將訓練資料集的知識遷移或泛化至測試資料集。

歸納式推理的核心在於學習關係的語義結構。例如上圖左邊（紅樓夢）和右邊的知識圖譜中的人物並不重合。但兩者關係確實存在一些共同的特點。例如兩者都符合母親、父親、丈夫關係模式，都可以將其提取與應用。

此類建模方式的經典方法是基於規則學習的歸納式推理，這是在知識圖譜統計、歸納常出現的關係結構。

我們設計了另一種歸納模式，即首先將原始圖譜的關係變為節點，然後生成新的圖譜，其中關係和關係之間的邊代表兩個相鄰關係的連線模式。然後用圖神經網路訓練以關係為節點的圖，從而找到相關特性。

如上圖所示，此方法在歸納推理效能上顯著超其他方法，相對於現有的方法提升都在5個點甚至10個點左右。

多步推理

複雜結構化問題的輸入對應的複雜推理形式是多步推理。例如，對於查詢任務“列出安徽省內為211但非985高校的校長”，對於這一任務，可以透過傳統構建計算圖方法進行解決，但會遇到結構多樣、與或非邏輯運算等問題，從而帶來非常高的計算複雜度。

再舉例子：在知識圖譜中推理得到中國東部省份的高校，隨著推理步驟的進行，實體的數目會從中國節點開始，呈指數級上升。為了解決這一問題，我們提出基於表示學習的方法，在適當的向量空間進行推理。

基於表示學習的多步推理有兩個關鍵的步驟。第一，定義向量空間，第二，在向量空間中定義推理操作。

具體而言，首先將實體和實體的集合對映到向量空間，實體用幾何圖形或者機率分佈進行表示，然後在向量空間中透過相似度比較得到答案，從而避免巨大的計算開銷；之後，將推理操作定義為實體集合之間的變換，例如“與”對應實體集合的交；“或”對應實體集合的並；“非”對應實體集合的補。

因此，在基於表示學習的多步推理模型中，給定問題結構，透過邏輯操作得到最終問題表示，然後透過實體表示和問題表示之間的距離，得到最終問題的答案。

一般而言，問題答案是實體的集合，問題表示本質上是實體集合的表示。所以如何表示問題的集合就變得非常重要。傳統方法是使用“盒子”表示查詢，它雖然可以進行邏輯運算，但難以建模“非”關係。

我們提出

ConeE

，二維錐（Cone）構成的向量空間。將實體定義為幅角為0，將集合定義為幅角不為0。由於錐體具有封閉性，所以容易進行“與或非”操作。目前，此項工作在多跳推理效能上顯著超越其他方法。

自然語言查詢

自然語言查詢的難點在建模非結構化問題，其任務針對給定的自然語言問題作為輸入（區別於結構化查詢），透過知識圖譜多跳推理的方式給出答案。但隨著問題跳數增加，候選實體數量呈指數增長。現有的GNN方法透過子圖裁剪以降低候選實體數量但犧牲了正確答案的召回率。

為此，受人類認知理論啟發，我們提出兩階段方法。第一階段對應系統1（無意識、直覺的、快思考），快速篩選，透過query-answer語義匹配打分；第二階段對應系統2（有意識、邏輯的、慢思考），透過貝葉斯網路，基於推理路徑的打分。

在問題“John Derek 參演電影的編輯有哪些？”中，運用我們設計方法的結果如所示，留下的實體相對而言數量比較少，而且置信度較高。進一步實驗表明，我們的方法在多跳資料集上效能顯著超越之前的SOTA方法。

未來展望

在知識圖譜上進行推理，除了基於表示學習的方法之外，還有一種基於規則的方法。雖然基於表示學習相比規則推理的方法，可以更好地建模知識圖譜中的潛在語義資訊，但在真實的應用場景中，規則推理往往更受歡迎。原因是：它的精度高，可解釋性強。因此，接下來，學術界的目標應該是使表示學習推理模型在真實場景下的效能與規則推理模型媲美。

另一方面，學術界模型評測應更加全面高效，以指導模型的設計使之更契合真實場景的需求。下面我從資料集和評測指標兩方面進行討論。

首先，當前廣泛使用的資料集無法準確地反映真實場景模型，現有的模型測試時基本採用封閉世界假設，即不在知識圖譜中的三元組都是錯誤的，這顯然不符合真實應用場景，因此會導致本該正確的結果被判斷為錯誤。所以，如何用“候選資料集”的效能客觀反映模型效能，需要進一步探索。

再者，當前廣泛使用的評測指標無法全面評估模型的優劣。例如，測試集中正確三元組的排名越高，模型在這些評測指標上的表現就越好。然而，這是不全面的。此外，在封閉世界假設下，一些本應效能較好的模型在這些指標下也可能會有較差的表現。

現有知識圖譜只涉及文字資訊，未來發展趨勢是擴充套件到多模態資訊。多模態知識圖譜的構建，依賴於多種模態資料的收集，其中關鍵問題是：如何進行不同模態資料之間的對齊。此外，也需要高效能的資料庫，幫助儲存多模態資料，目前這方面國內已經有企業開始攻關。

知識圖譜和預訓練語言模型的結合也是接下來的發展趨勢。預訓練語言模型已經比較成熟，但在涉及特定領域的知識或者常識時，表現並不令人滿意。如何利用知識圖譜增強預訓練語言模型，或者怎樣用預訓練語言模型幫助更好地在知識圖譜上進行推理，也是接下來需要重點關注的方向。

最後，知識圖譜與對話場景的結合也是我所期待的。用時序知識圖譜表示對話狀態，相比傳統鍵值對的結構，可以更完整地跟蹤表示對話的狀態以及變化。

推薦閱讀

論智三易，串聯通訊，貫通邊緣，演進認知，匯於機器：聽五位IEEE Fellow暢談AI未來 | GAIR 2021

2021-12-25

CNCC 2021重磅啟幕：與John Hopcroft、孫凝暉等數十位頂級學者，共饗計算機年度盛會

2021-12-17

工程院院士孫凝暉：計算機系統的演進規律，從求極致到求通用｜CNCC 2021

2021-12-23

TAG：推理圖譜知識實體語義

中科大王傑教授：基於表示學習的知識圖譜推理技術

相關推薦