知識圖譜的自動構建

摘要：知識圖譜的構建方法，主要包含 4大類：邏輯建模，隱含空間分析，人機交互，本體模型。對於推薦系統中的核心元素：用戶、場景和 ITEM，利用知識圖譜自動構建技術，實時獲取互聯網海量信息並更新推薦知識庫，通過用戶興趣跟蹤、產品關聯發掘、動態場景分析等方法提供更智能的推薦服務，涉及到用戶跟蹤，涉及產品動態變化等。

本文根據 吳信東 ( IEEE & AAAS Fellow，明略科技首席科學家) 教授在 2019知識圖譜前沿技術論壇 的分享內容，編輯整理而成，發佈於 DataFunTalk ，編輯整理： 王吉東 。

注：歡迎轉載，轉載請在留言區內留言。

導讀： 知識圖譜的構建包括邏輯建模、隱含空間分析、人機交互和本體模型支撐等多種方法。我們將分析各種構建方法的問題和挑戰，指出自動構建的要素和應用場景。

—— 背景——

知識圖譜是明略科技的核心技術。知識圖譜的自動構建和數據挖掘有一定的關聯，自動構建知識圖譜和手動構建不是一個概念。明略科技的新產品正在做到：專家在臺上講話，後臺圖譜系統可自動同步構建知識圖譜。

提到知識工程的發展，首先是 80年代蓬勃發展的專家系統，隨後逐步發展至90年代的萬維網知識庫。 90年代的萬維網1.0，以信息收集爲主；後面加入人工因素，即人和信息一起，此時進入萬維網2.0階段。

"知識圖譜" 這一概念是2006年由谷歌提出，谷歌出於搜索引擎需要而提出這樣的名詞，其技術核心類似於60年代提出的語義網絡。

吳信東教授於 2014提出 "HACE定理"，指出大數據始於異構 ( Heterogeneous )、自治 ( Autonomous ) 的多源海量數據，旨在尋求探索複雜 ( Complex )、演化 ( Evolving ) 的數據關聯和方法，這是對大數據本質特徵的提煉。

大數據在實現的過程中分爲 3層結構：最底層是數據平臺 ( Big Data Mining Platform )，做數據的收集、整合、加工等；中間的一層是應用領域，涉及到語義、專業領域知識等方面；最外層是大數據分析實現的算法，涉及到機器學習、數據挖掘等。

從大數據 ( BigData ) 到大知識 ( BigKE )，體現的是基於數據的知識提煉過程。" 大" 知識的特點除了量大，更主要的是 "質量沒有保證"；我們的目標是，在浩瀚無邊的知識海洋中，如何針對當前問題找到相關的知識進行問題求解，實現 "量 -> 質 -> 序" 的過渡。

基於大數據的特點，實現大數據到大知識的跳躍，這一過程中經歷了信息檢索的不斷完善和分析；從知識圖譜構建的角度來看，這一過程經歷了人工構建 -羣體構建-自動構建這樣的技術路線。詳見下圖。

本文將着重講解 " 自動構建"。自動構建的過程中，如果數據是結構化的 ( 例如圖表數據 )，已知屬性名稱、屬性間的層次結構等，構建知識圖譜相對較爲容易；如果缺乏以上信息，則只能通過文本信息等非結構化數據中提煉知識構建知識圖譜，技術上將面臨很多挑戰。

結構化數據通常具有良好的佈局結構，因此識別和抽取比較容易，可針對特定格式編寫模板進行抽取，抽取準確率也比較高。早在知識圖譜技術大受追捧之前的上個世紀 90年代，國內便開始了 " 從關係型描述數據庫生成語義網絡的方法" 研究工作。

非結構化數據上的知識圖譜研究，主要集中非結構化文本數據處理上。由於自然語言表達的多樣性、靈活性，實體和關係在文本中一般找不到明確的標識，這使得從中抽取實體和識別語義關係非常困難。

下面以一個實例來描述非結構化數據知識圖譜的構建過程。文本數據來源於百度百科，介紹秦始皇的生平事蹟。原文如下：

基於以上文本，初步構建知識圖譜如下：

上述圖譜抽取的信息不是十分完全，但是大體上能夠涵蓋和秦始皇相關的各種各樣的人物以及各種各樣的關係。

——構建方法——

這一部分會主要介紹現有的常見的知識圖譜的構建方法。

知識圖譜的構建方法，主要包含 4大類：邏輯建模，隱含空間分析，人機交互，本體模型。

1. 邏輯建模

上一部分提到的 " 秦始皇" 的實例，就是根據邏輯建模提煉生成的。

將名詞和關係進行抽取，如果涉及到事件，將會涉及到條件概率、先驗概率等。

在邏輯建模中，邏輯 +概率作爲可能世界的概率度量；對邏輯進行概率化，並利用知識庫中的每一條關係三元組對可能世界概率進行約束。

邏輯建模中會涉及到邏輯變量和規則推理等方面的模型，其代表模型是馬爾可夫邏輯網模型。將馬爾可夫邏輯網看作一個構造馬爾可夫網的模板，它維護一個基於一階邏輯的規則庫，並對每一個邏輯規則附上了權重，以此對可能的世界進行軟約束。其概率模型爲：

其中，g(x)=1 表示該實例化的規則爲真，反之爲假；F 爲 Markov 網中所有謂詞規則的集合，Gf _i 是利用所有原子事實去實例化規則 f _i 後的集合。

然而邏輯建模的缺陷也很明顯：隨着知識圖譜的規模爆發性地增長，即使利用馬爾可夫毯 ( Markov Blanket ) 等局部依賴假設，對知識圖譜中所有知識實例進行建模也是不可行的。

2. 隱含空間分析

第二種知識圖譜構建方法是隱含空間分析。有時候一句簡單的語句的背後會包含一些隱含的邏輯關係，例如：吳信東 ( 首席科學家 ) 給吳明輝 ( 董事長 ) 打電話。這一句簡單的語句，背後會隱含各種各樣的關係，例如：首席科學家應該做哪些事；和董事長應該討論的內容等。目前隱含空間分析主要尚處於研究階段，應用還不是很廣泛。

距離模型

隱含空間分析的基本模型是距離模型，代表方法是結構表示 ( StructuredEmbedding，SE )：對於一個三元組 ( h, r, t )，SE 將頭實體向量和尾實體向量通過關係的兩個矩陣投影到關係的對應空間中，然後在該空間中計算兩投影向量的距離。 SE 模型的損失函數使用的是 L1 範數：

由於 SE 模型對頭、尾實體使用兩個不同的矩陣進行投影，協同性較差，因此往往無法精確刻畫兩實體與關係之間的語義聯繫。由此提出了隱變量模型：

隱變量模型 ( LatentFactorModel，簡稱 LFM )

LFM 模型提出基於關係的雙線性變換，刻畫實體和關係的二階聯繫，其評分函數爲：

其中，M _r ∈R ^dxd 爲關係 r 對應的雙線性變換矩陣。

LFM 模型通過簡單有效的方法刻畫了實體和關係的語義聯繫，協同性較好，計算複雜度低。如何具體描述和刻畫這個隱含的空間，會涉及到係數問題，於是引出張量神經模型：

張量神經模型 ( neuraltensornetwork，簡稱 NTN )

基本思想：用雙線性張量取代傳統神經網絡中的線性變換層，在不同維度下將頭、尾實體向量聯繫起來。

然而， NTN 模型計算複雜度非常高，需要大量三元組樣例才能得到成分學習，因而在大規模稀疏知識圖譜上的效果較差。由此引出矩陣分解模型：

矩陣分解模型

矩陣分解模型的代表方法是 RASACL 模型。

知識庫三元組構成一個大的張量 X，如果三元組 ( h, r, t ) 存在，則 X _hrt =1，否則爲0。張量分解 ( 矩陣分解 ) 旨在將每個三元組 ( h, r, t ) 對應的張量值 X _hrt 分解爲實體和關係表示，使得 X _hrt 儘量地接近於 l _h M _r l _t 。這種模型的缺陷是：時間複雜度和空間複雜度較高，且在大規模數據集上效率低、可擴展性差。

翻譯模型

翻譯模型的代表方法是 TransE 模型。對於每個三元組 ( h, r, t )，將關係 r 的向量 l _r 看作頭實體向量 l _h 和尾實體向量 l _t 的平移。

TransE 模型的參數較少，計算複雜度低，能直接建立實體和關係之間的複雜語義聯繫，但是在處理複雜關係時性能顯著降低。

3. 人機交互

人機交互 ( Human-Computer Interaction, HCI )：是指人與計算機之間使用某種對話語言，以一定的交互方式，爲完成確定任務的人與計算機之間的信息交換過程。常見的方式就是：存在一個系統，什麼都不懂，不斷地向用戶問問題；隨着用戶對問題的回答，系統逐步將圖譜建立起來。

SIKT ( structured interactive knowledge transfer program ) 是吳教授最早採用人機交互方式構建知識圖譜的代表性工作之一，早期稱之爲 "推理網絡"，主要包括以下特色：

結構化人機交互知識庫構建。
基於 "rule schema + rule body" 的知識表示形式。
程序通過交互接口指導學科專家自頂向下輸入領域知識。
生成的知識庫加上來自 KEShell 的預定義推理引擎構成最終的可執行程序。

人機交互的另一種方法，也是吳教授的項目課題，是 IAKO ( Interactive Acquisition of Knowledge Objects )，即半結構化的知識圖譜構建。

利用面向對象編程的優勢，IAKO 基於知識對象 ( Knowledge Object ) 的表示方法，提出了一個 面向對象的交互 知識構建系統。
IAKO 能夠從0開始，通過領域專家交互方式生成一套完整的知識庫，且進行知識和規則校驗，以保障知識庫的可執行性。
基於知識對象的知識表示方式可以將規則融入對象中，達到 SIKT 中一組 "rule schema + rule body" 的知識表示能力。
IAKO 能夠使得領域專家構建 便攜的 和 可重用的 知識庫。

人機交互的一種最新方法，是吳教授任職明略科技後同明略科技董事長吳明輝一起提出的一種模型，叫做 " HAO 模型"，該模型有效地融合了 Human Intelligence (HI)、Artificial Intelligence (AI)、Organizational Intelligence 這三種 "智慧"，在以人爲本、人機協同的基礎上，加入了面向行業應用、具體細分領域的 Organizational Intelligence。下圖就是面向行業構建的知識圖譜框架。

數據感知 -> 人機交互 -> 行動

在明略科技所涉及的公安領域，知識圖譜是巨大的：在一個具體的公安數據分析系統裏，有 16億個節點，40億條邊，140億個事件，這樣一個7度搜索可能需要40億7次方的計算量，巨大到不可承受，因此可以看出這類知識圖譜的構建中人工干預的必要性。

4. 本體模型支撐

本體模型，主要指：後臺有一定的知識儲備作爲支撐。

系統後臺存在一個知識庫作爲本體的支撐，根據輸入語言的特徵、關鍵詞等去匹配後臺的知識庫。這裏會涉及到較多的機器學習模型。

人工構建

人工構建本體模型支撐，由大量的領域專家相互協作構建本體，用以支撐前臺做文本分析；代表方法包括循環獲取法、七步法等。

Cyc 循環獲取法

Ontology Development 101 ( 七步法 )

七步法的缺點是：主觀性太強，且比較隨意，缺少科學管理和評價機制。

半自動構建

半自動構建本體，利用相關領域內的專業詞典、敘詞表等專家知識，從中抽取感興趣的概念和關係，構建需要的本體。

缺點：複用本體中的概念和關係，帶來了不同本體匹配的問題。

自動構建

自動構建本體，指的是利用知識獲取技術、機器學習技術以及統計技術等從數據資源中自動獲取本體知識。

主要涉及到兩種方法：一種是基於語言規則的方法，另一種是基於統計分析的機器學習方法。

基於語言規則的方法，主要指基於語義模式，從自然域文本構建本體，通過對自然域文本的分析，提取候選關係並將其映射到語義表示中，實現本體的構建。

如上圖所示，其基本框架爲：

使用模式編輯器構造語義模式
選擇自然域文本
從自然域文本中提取領域本體

其優點是：以非分類學關係豐富了淺層本體，一個動詞可以表示兩個或多個概念之間的關係。然而，這種方法不會發現新的關係，只是發現已知關係實例；而且本體構建的效果依賴於語義模式，因而需事先構建較完備的語義模式。

基於統計分析的機器學習方法，主要是基於數據聚類和模式樹挖掘，進行結構化的本體構建。

對用於構建每個組的本體書類似文檔進行分組
使用模式樹挖掘從部分本體樹構建集成本體

這種方法主要有兩個主要模塊：

文檔聚類：使用檢索關鍵字的關係矩陣通過潛在語義分析 ( LSA ) 和 K-means 方法來聚類文檔。
本體構建：通過形式概念分析和本體集成構建每組文檔的本體。

統計機器學習方法可適用於範圍更廣的領域，可構建的本體傾向於更好地描述概念間的關係，結構也更加複雜；然而這種方法缺乏必要的語義邏輯基礎，抽取概念關係鬆散且可信度無法得到很好的保證。

——圖譜自動構建要素——

1. 總體設計框架

總體架構的兩個核心要素，一個要素是後臺的領域知識庫，另一個要素是強化學習配合人機交互。

步驟一： 數據自動獲取

通過使用較爲流行的網絡數據獲取工具，如： Scrapy，Jspider，Larbin 等獲取多源異構數據。

步驟二：三元組自動抽取

結合自然語言處理工具和領域知識庫，初步識別和抽取文本中的三元組信息。

構建要素一：領域知識庫

在圖譜自動構建過程中，由領域專家 ( HI ) 和專業組織 ( OI ) 提供的領域知識庫能夠有效提高實體、關係的識別和抽取精度。

步驟三： 自動糾錯和自主學習

結合 HAO 智能模型和強化學習方法，通過人機交互接口對代表性錯誤三元組進行人工糾正，並以此對強化學習模型進行訓練和提高，實現自動糾錯和自主學習。

構建要素二：強化學習+人機交互

爲保證圖譜構建質量，需要通過人機交互接口對錯誤信息進行人工糾正，並以此作爲種子案例，通過強化學習加強模型的識別精度和魯棒性。

——應用場景——

應用場景一：網絡行爲動態分析

通過網絡爬蟲獲取最新的網絡信息數據，運用知識圖譜自動構建技術，動態更新和擴充現有知識庫，爲網絡行爲分析提供知識支撐。包括：

輿情監測
熱點跟蹤
用戶情感傾向分析
用戶設計網絡影響力分析

這一部分也是明略科技涉及業務比較多的方面，涉及品牌分析，爲大客戶做廣告設計，推薦廣告佈局，並做廣告監測，以及品牌效應分析；這一部分的後臺就是基於知識圖譜的基礎上做輿情分析、熱點跟蹤等。

應用場景二：智能 Q&A

通過人機交互 +知識圖譜自動構建，設計更智能的知識問答系統。

人機交互：人與機器進行工作互補，共同完成問答場景。
知識圖譜自動構建：動態更新和擴充問答知識庫，響應最新的網絡知識。

明略科技今年的戰略發展之一就是智能 Q&A 產品，類似於科大訊飛的相關產品，前臺問答的同時，後臺同步構建知識圖譜。

應用場景三：智能推薦

對於推薦系統中的核心元素：用戶、場景和 ITEM，利用知識圖譜自動構建技術，實時獲取互聯網海量信息並更新推薦知識庫，通過用戶興趣跟蹤、產品關聯發掘、動態場景分析等方法提供更智能的推薦服務，涉及到用戶跟蹤，涉及產品動態變化等。

今天的分享就到這裏，謝謝大家。

——參考資料——

[1] WuX, et al. Data mining with big data, IEEE TKDE, 2014, 26(1): 97-107.

[2] WuX, et al. Knowledge Engineering with Big D ata, IEEE IntelligentSystems,2015,30(5):46-55.

[3] 趙軍等 . 知識圖譜 [M]. 高等教育出版社 , 2018.

[4] 吳信東 , 張奠成 . 從關係型描述數據庫生成語義網絡的方法 , 科學通報 ,1990:1674-1676.

[5] Fahiem Bacchus. Representing and reasoning with probabilistic knowledge, The MITPress, 1990.

[6] Nils J Nilsson. Probabilistic logic, Artificial Intelligence, 1986, 28(1): 71-87.

[7] Matthew Richardson, Pedro Domingos .Markov logic networks, Machine Learning, 2006, 62(1-2): 107-136.

[8] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases, in Proceedings ofAAAI 2011, 2011:301-306.

[9] Sutskever I, Tenenbaum J B, Salakhutdinov R, et al. Modelling Relational Data using Bayesian Clustered TensorFactorization[C], in Proceedings of NIPS 2009:1821-1828.

[10] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C], inProceedings of NIPS 2012:3167-3175.

[11] Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks forknowledge base completion, in Proceedings of NIPS 2013:926-934.

[12] Nickel M, Tresp V, Kriegel H. A three-way model for collective learning on multi-relational data, inProceedings of ICML 2011:809–816.

[13] Cai H Y, Zheng V W, Chang K. A Comprehensive Survey of Graph Embedding: Problems,Techniques and Applications. IEEE Transactions on Knowledge and DataEngineering, 2018. 3(9): 1616-1637.

[14] Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relationalData, in Proceedings of NIPS 2013:2787-2795.

[15] Wu X. SIKT: a structured interactive knowledge transfer program, InternationalConference on Industrial & Engineering Applications of ArtificialIntelligence & Expert Systems,1995:787-795.

[16] Wu X. KEShell :a "rule skeleton + rule body" -based knowledge engineering shell,Applications of Artificial Intelligence IX, 1991:632-639.

[17] Xu L , Wu X . Interactive Acquisition of Knowledge Objects, In Proceedings ofIEEE Knowledgeand Data Engineering Exchange Workshop, 1997:97-105.

[18] Minghui Wu and Xindong Wu, On Big Wisdom, Knowledgeand Information Systems , 2019, 58(1): 1-8.

[19] Swartout B, Patil R, Knight K, et al .Toward distributed use of large-scale ontologies. In: Proc. of the 10thWorkshop on Knowledge Acquisition for Knowledge-Based Systems, 1996:138-148.

[20] Noy NF, McGuinness DL. Ontology development 101: A guide to creating your firstontology. 2001.

https://doi.org/10.1016/j.artmed.2004.01.014

[21] Suryanto H, Compton P. Discovery of ontologies from knowledge bases, ACM InternationalConference on Knowledge Capture, 2001.

[22] Dahab M Y , Hassan H A , Rafea A . TextOntoEx : Automatic ontology constructionfrom natural English text[J]. Expert Systems With Applications, 2008,34(2):1474-1480.

[23] Yu Y T , Hsu C C . A structured ontology construction by using data clustering andpattern tree mining, International Conference on Machine Learning andCybernetics, ICMLC 2011.

分享嘉賓

▬

吳信東

明略科技 | 首席科學家

吳信東，明略科技集團首席科學家，教育部長江學者，IEEE Fellow、AAAS Fellow。因爲在數據挖掘及其應用領域的先驅性貢獻 ( "for pioneering contributions to data mining and applications" )，2012年獲 IEEE 計算機學會技術進步獎。 KAIS ( Knowledge and Information Systems ) 主編和 TKDD ( ACM Transactions on Knowledge Discovery from Data ) 的聯合主編，也是數據挖掘國際會議 ICDM ( IEEE International Conference on Data Mining ) 的創辦人和指導委員會主席。 2005年1月至2008年12月，擔任《IEEE Transactions on Knowledge and Data Engineering》(TKDE)兩屆主編。 2014年獲 IEEE ICDM 十年最有影響力論文獎，他指導的博士生2014年獲中國計算機學會優秀博士學位論文獎。

——END——

文章推薦：

人機對話關鍵技術及挑戰

基於知識圖譜的問答在美團智能交互場景中的應用和演進

DataFun：

專注於大數據、人工智能領域的知識分享平臺。

一個「在看」，一段時光！ :point_down: