CCKS-2017行業知識圖譜構建與應用-上篇
許久未更新,感謝各位仍然關注PlantData知識圖譜實戰的朋友,在過去的兩個月時間粉絲數一直在不斷增長,並且公眾號也開通了留言功能。
為了回饋各位的厚愛,特奉獻上這篇摘錄自CCKS-2017(成都),王昊奮、胡芳槐演講PPT《行業知識圖譜構建與應用》的文章。
這篇同樣是乾貨滿滿,毫不誇張的說應該是行業知識圖譜實戰領域目前看到的最有價值的PPT。話不多說,我們一起來看下PPT中的內容。
本次Tutorial主要包括以下三方面內容:
- 行業知識圖譜概述,包括行業圖譜簡介,行業知識圖譜的應用及挑戰,以及行業知識圖譜生命周期管理。
- 行業知識圖譜關鍵技術,包括行業知識圖譜生命周期中各過程的相關技術、現有可用的工具,以及各過程中的最佳實踐及相關組件。
- 行業知識圖譜應用實戰,以金融證券行業應用為例,演示知識圖譜從知識建模、知識抽取到行業應用的全過程。
目標聽眾與我們公眾號的粉絲群體一致:
- 知識圖譜學習者,對知識圖譜在行業應用感興趣的技術人員。
- 各行業應用中想引入知識圖譜相關技術的知識及數據管理人員,尤其是有行業知識庫構建及上層問答搜索等需求的。
- 希望了解知識圖譜如何在行業中應用的管理決策者。
這篇文章通讀完大致需要60分鐘時間,不過這些時間都是值得的,因為你將可以:
- 了解行業知識圖譜相關概念及其在行業中的現有應用,理解其給行業應用帶來的價值。
- 理解知識圖譜在行業中應用的相關挑戰與生命周期,理解生命周期各過程的基本目標及相關組件。
- 對行業知識圖譜應用相關的技術進行熟悉,了解有哪些現有的工具可以使用和相關注意事項、以及一些行業應用的最佳實踐。
我們假定閱讀本Tutorial的聽眾具備如下基礎知識:
RDF:資源描述框架
OWL: RDF Schema 的擴展SPARQL:RDF查詢語言
第一節 行業知識圖譜簡介
「Things not strings」
眾所周知,知識圖譜是Google於2012年提出,用來優化搜索結果。
經過多年的發展,知識圖譜在人工智慧的許多行業都擁有了成熟落地的應用。
按照知識圖譜的覆蓋面來看,主要分為通用知識圖譜與行業知識圖譜。
1.1 通用知識圖譜
Google所提出的知識圖譜即為通用知識圖譜,他是面向全領域的。通用知識圖譜主要應用於面向互聯網的搜索、推薦、問答等業務場景。由於它強調的是廣度,因而更多的是強調實體,很難生成完整的全局性本體層的統一管理。
通用知識圖譜一些常見的項目如下:
1.2 行業知識圖譜
號稱「矽谷最神秘科技公司」的Palantir是行業知識圖譜領域的典型代表,其軟體允許客戶對大量的敏感數據進行語義關聯分析,以防止欺詐,確保數據安全等。
行業知識圖譜相對通用知識圖譜擁有如下特性:
- 面向特定領域的知識圖譜。
- 用戶目標對象需要考慮行業中各種級別的人員,不同人員對應的操作和業務場景不同,因而需要一定的深度與完備性。
- 行業知識圖譜對準確度要求非常高,通常用於輔助各種複雜的分析應用或決策支持。
- 有嚴格與豐富的數據模式,行業知識圖譜中的實體通常屬性比較多且具有行業意義。
行業數據的特點包括:
- 數據來源多:內部數據、互聯網數據、第三方數據。
- 數據類型多:包含結構化、半結構化、非結構化數據,且後兩者越來越多。
- 數據模式無法預先確定:模式在數據出現之後才能確定;數據模式隨數據增長不斷演變。
- 數據量大:在大數據背景下,行業應用的數據的數量通常都以億級別計算,存在通常在TB、PB級別甚至更多。
行業知識圖譜已經在以下很多領域有了很好的應用,在後面我們會以金融證券領域為例,詳細展開介紹。
下面這張圖是部分知名的行業知識圖譜項目
通過上面的介紹我們已經大致了解通用知識圖譜和行業知識圖譜的區別,這裡簡單總結一下:
當然通用知識圖譜與行業知識圖譜並不是相互對立,而是相互補充的一個關係,利用通用知識圖譜的廣度結合行業知識圖譜的深度,可以形成更加完善的知識圖譜。
通用知識圖譜中的知識,可以作為行業知識圖譜構建的基礎;而構建的行業知識圖譜,再融合到通用知識圖譜中。
因此兩者是相輔相成,結合使用的。
第二節 行業知識圖譜應用
介紹完行業知識圖譜的基本知識後,我們來看下行業知識圖譜都有哪些應用。
首先看金融領域,目前金融證券領域應用主要側重於兩個方面,一個是企業知識圖譜,另一個是金融交易知識圖譜。
2.1 企業知識圖譜
企業數據包括:企業基礎數據、投資關係、任職關係、企業專利數據、企業招投標數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據。
利用知識圖譜融合以上企業數據,我們做了企業知識圖譜,並在企業知識圖譜之上利用圖譜的特性,針對金融業務場景研發了一系列的圖譜應用。
以下6大功能為我們當前已投入使用的企業知識圖譜應用。
2.1.1 企業風險評估
基於企業的基礎信息、投資關係、訴訟、失信等多維度關聯數據,利用圖計算等方法構建科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。
2.1.2 企業社交圖譜查詢
基於投資、任職、專利、招投標、涉訴關係以目標企業為核心向外層層擴散,形成一個網路關係圖,直觀立體展現企業關聯。
2.1.3 企業最終控制人查詢
基於股權投資關係尋找持股比例最大的股東,最終追溯至自然人或國有資產管理部門。
2.1.4 企業之間路徑發現
在基於股權、任職、專利、招投標、涉訴等關係形成的網路關係中,查詢企業之間的最短關係路徑,衡量企業之間的聯繫密切度。
2.1.5 初創企業融資發展歷程
基於企業知識圖譜中的投融資事件發生的時間順序,記錄企業的融資發展歷程。
2.1.6 上市企業智能問答
用戶可以通過輸入自然語言問題,系統直接給出用戶想要的答案。
2.2 金融交易知識圖譜
金融交易知識圖譜在企業知識圖譜之上,增加交易客戶數據、客戶之間的關係數據以及交易行為數據等,利用圖挖掘技術,包括很多業務相關的規則,來分析實體與實體之間的關聯關係,最終形成金融領域的交易知識圖譜。
有了這樣一個交易知識圖譜之後,可以支持如下的應用(這塊普惠金融的李文哲之前有篇文章有過相似介紹)。
2.2.1 輔助信貸審核
基於知識圖譜數據的統一查詢,全面掌握客戶信息;避免由於系統、數據等孤立造成的信息不一致造成信用重複使用、信息不完整等問題。
2.2.2 反欺詐(1)
不一致性驗證可以用來判斷一個借款人的欺詐風險,類似交叉驗證。比如借款人A和借款人B填寫的是同一個公司電話,但借款人A填寫的公司和借款人B填寫的公司完全不一樣,這就成了一個風險點,需要審核人員格外的注意。
2.2.3 反欺詐(2)
組團進行欺詐的成員會用虛假的身份去申請貸款,但部分信息是共享的。如下圖可以看出貸款人A、B和C之間沒有直接的關係,但通過知識圖譜可以很容易的看出這三者之間都共享著某一部分信息,存在一定的組團騙貸風險。
2.2.4 其它應用場景
異常分析(異常交易、異常客戶)
失聯客戶管理
精準營銷
智能投研
智能公告
……
2.3 醫療知識圖譜
知識圖譜與醫療數據的結合形成醫療知識圖譜,醫療數據包括:醫療專業知識、醫療文獻、醫療常識、電子病歷大數據、醫案、現有醫療資源、疾病庫、指南與規範。
行業內比較知名的應用和項目如下
2.3.1 中醫藥知識平台
中醫藥知識平台(http://www.tcmkb.cn)是一個針對中醫藥知識體系系統梳理、建模和展示的平台,它以圖形可視化方式展示核心概念之間的關係,輔助中醫專家釐清學術發展脈絡,瀏覽中醫知識,發現知識點之間的聯繫。
其優勢在於與閱讀文獻等手段相比,可大幅度節約知識檢索獲取時間。
2.3.2 Watson輔助診斷與治療
IBM 的 Watson 機器人已經在醫院裡輔助醫生對病人進行醫療診斷。安德森癌症中心聯合IBM Watson開展終結癌症的任務,其底層核心就是用了知識圖譜相關技術。
2.3.3 Open PHACTS 新藥物發現
在歐盟,Open PHACTS重大聯合攻關項目,這一面向藥物研發的開放數據訪問平台開發,其核心技術就是採用語義技術為有關研究人員提供高效的數據訪問技術環境的支持。
2.4 圖情資源知識圖譜
通過行業知識圖譜結合圖書情報資源,包括圖書館分類學體系、特定方向的知識體系、圖書、期刊、論文、專利、報刊、百科數據、行業網站等數據,構建圖情資源知識圖譜,可以幫助圖情領域在文獻信息檢索和文獻信息資源管理推薦等方面,提供新的思路。
以下為我們在圖情資源知識圖譜之上的一些應用案例。
2.4.1 知識導航與資源展示
使用知識圖譜中的知識體系進行知識導航,引導用戶學習知識體系,以及通過實體鏈接所關聯的資源。
2.4.2 知識點推薦與搜索
2.4.3 圖情資源統計
2.5 其他行業應用
知識圖譜在許多其他行業也有應用,這裡篇幅有限,我們僅列出方向及應用點。
- 農業
- 識別作物危害
- 政府行業
- 政府大數據管理
- 客服系統
- 基於知識圖譜的智能客服系統
- ……
第三節 知識圖譜應用挑戰
從資料庫時代發展到大數據時代,企業希望融合使用全量數據,在融合使用的過程中會遇到非常多的挑戰,首先我們看下從DB(DataBase)到BD(BigData)到底會有哪些不一樣的地方?
這個圖在我們公眾號前幾期分享中有介紹過,無論是從數據規模、數據類型、數據模式還是處理方法,資料庫時代與大數據時代均存在非常大的差異性,大數據時代,沒有一種通用的處理方法可以解決所有問題。因此我們結合PlantData平台在許多行業應用中的實戰經驗,總結了以下5點企業全量數據應用中會面臨到的挑戰。
一) 多源異構數據難以融合
企業包括不僅內部的數據,還有從第三方接入的數據以及互聯網公開數據,甚至是採購的數據,這些數據很多,可能描述同一個事物有很多的數據源,它們分散在不同的地方,怎麼去把它們融合起來?這是我們面臨的第一個挑戰。
二)數據模式動態變遷困難
大數據時代,數據模式是在不斷變化的場景下,因此迫切需要一種可自由擴展的數據模式,而傳統的資料庫定義好資料庫表結構和業務邏輯之後,修改起來成本非常高。第二個挑戰在於如何簡便的進行數據模式的動態變遷。
三)非結構化數據計算機難以理解
非結構化的數據最重要的部分就是文本數據,對於文本數據如何處理,傳統的方式主要是基於字元串的檢索,對文本中豐富信息的使用率非常低,因此第三個挑戰在於怎麼對非結構化的數據去進行有效的應用?
四)數據使用專業程度過高
傳統數據在使用的時候需要專業的程序員去編寫程序去進行查詢使用,普通的應用分析人員很難對數據去進行探索,第四個挑戰在於需要有一種快速的方式去對數據進行探索和使用。
五)分散的數據難以統一消費利用
在傳統的資料庫時代,構建的不同系統使用方式不一樣,數據集成的時候會非常混亂,我們更多的期待把這些分散的數據融合起來,形成一個統一的消費利用的入口,工作人員可以從統一的入口進行數據的消費。
針對以上五個挑戰,我們的解決方案是:基於行業知識圖譜進行數據融合使用。
首先從最底層開始,針對挑戰1,使用知識圖譜(本體)對各種類型的數據進行抽象建模,基於可動態變化的「概念—實體—屬性—關係」數據模型,實現各類數據的統一建模。
針對挑戰2,使用可支持數據模式動態變化的知識圖譜的數據存儲,實現對大數據及數據模式動態變化的支持。
針對挑戰3:利用信息抽取、實體鏈接相關的技術,對非結構化及半結構化數據進行抽取和轉換,形成知識圖譜形式的知識,以及和知識圖譜裡面的結構化的知識進行鏈接。
最後針對挑戰4、5:在知識融合的基礎上,基於語義檢索、智能問答、圖計算、推理、可視化等技術,提供統一的數據檢索、分析和利用平台。
第四節 行業知識圖譜生命周期
從行業知識圖譜的全生命周期來看,可以分為知識建模,知識獲取,知識融合,知識融合,知識存儲,知識計算和知識應用6個部分。
4.1 知識建模
知識建模即建立知識圖譜的數據模式,行業知識圖譜的數據模式對整個知識圖譜的結構進行定義,因此需要保證可靠性。
通常採用兩種方法:一種是自頂向下的方法,專家手工編輯形成數據模式;另一種是自底向上的方法,基於行業現有的標準進行轉換或者從現有的高質量行業數據源(如業務系統資料庫表)中進行映射。
其中的關鍵技術與難點包括:
- 如何保證多人在線協同編輯,並且實時更新;
- 能夠支持導入集成使用現有的(結構化)知識;
- 支持大數據量;
- 能夠支撐時間、時序等複雜知識表達;
- 可以與自動演算法進行結合,避免全人工操作
建模完成後,需要往裡面填充相應的知識,這就需要用到知識獲取。
4.2 知識獲取
從不同來源、不同結構的數據中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識獲取。
上圖中的三類數據基本涵蓋了我們目前所需要處理的所有數據類型,針對不同種類的數據,我們利用不同的技術進行提取。
- 從結構化資料庫中獲取知識:D2R
- 難點:複雜表數據的處理
- 從鏈接數據中獲取知識:圖映射
- 難點:數據對齊
- 從半結構化(網站)數據中獲取知識:使用包裝器
- 難點:方便的包裝器定義方法,包裝器自動生成、更新與維護
- 從文本中獲取知識:信息抽取
- 難點:結果的準確率與覆蓋率
4.3 知識融合
已經從不同的數據源把不同結構的數據提取知識之後,接下來要做的是把它們融合成一個統一的知識圖譜,這時候需要用到知識融合的技術。
知識融合主要分為數據模式層融合和數據層融合,分別用的技術如下:
a) 數據模式層融合
- 概念合併
- 概念上下位關係合併
- 概念的屬性定義合併
b) 數據層融合
- 實體合併
- 實體屬性融合
- 衝突檢測與解決
由於行業知識圖譜的數據模式通常採用自頂向下和自底向上結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在數據層的融合。
舉幾個知識融合工具的例子:一體化醫學語言系統(Unified Medical Language System,UMLS),它提供了一種位於生物醫學領域詞表之間的映射結構,方便不同術語系統之間能夠彼此轉換。
另一個例子是Dbpedia知識圖譜,依託於維基百科,通過實體鏈接實現不同語言實體間的映射。
還有http://zhishi.me,它主要利用識別sameAs關係,將分散在中文三大百科網站(中文維基百科、互動百科和百度百科)中的知識進行融合。
Google在收購了大型知識庫Freebase後,對於其眾包形式的信息擴展速度仍不滿意,因此創建了名為Knowledge Vault的全球最大知識庫,通過特定演算法自動搜集整編互聯網信息,再將其融入整體資料庫中。
截至2014年,Knowledge Vault的入庫信息已達16億條,其中2.71億條內容為「事實」(真實性在90%以上)。
Knowledge Vault能夠建立歷史和社會的模型。
以上簡單介紹了目前國內外在知識融合方面的一些項目的基本情況,總結一下知識融合中的關鍵技術與難點,包括四點:
- 實現不同來源、不同形態數據的融合
- 海量數據的高效融合
- 新增知識的實時融合
- 多語言的融合
4.4 知識存儲
接下來要介紹的是知識存儲,圖譜的數據存儲既需要完成基本的數據存儲,同時也要能支持上層的知識推理、知識快速查詢、圖實時計算等應用,因此需要存儲以下信息:
- 三元組知識的存儲
- 事件信息的存儲
- 時態信息的存儲
- 使用知識圖譜組織的數據的存儲
其關鍵技術和難點就在於:
- 大規模三元組數據的存儲
- 知識圖譜組織的大數據的存儲
- 事件與時態信息的存儲
- 快速推理與圖計算的支持
4.5 知識計算
知識計算主要是在知識圖譜中知識和數據的基礎上,通過各種演算法,發現其中顯式的或隱含的知識、模式或規則等,知識計算的範疇非常大,這裡主要講三個方面:
- 圖挖掘計算:基於圖論的相關演算法,實現對圖譜的探索和挖掘。
- 本體推理:使用本體推理進行新知識發現或衝突檢測。
- 基於規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。
知識計算涉及到的技術非常多,每一項都需要專門去研究,而且已經有很多研究成果,此處我們先列出關鍵技術和難點,在下一篇文章中詳細介紹:
- 圖挖掘計算
- 大規模圖演算法的效率
- 本體推理與規則推理
- 大數據量下的快速推理
- 對於增量知識和規則的快速載入
4.6 知識應用
基於知識圖譜融合的海量知識和數據,結合上一步的知識計算相關技術,知識圖譜可以產生大量的智能應用,比如我們之前提到的企業畫像,反欺詐不一致性檢測,用戶通過自然語言進行搜索等。知識圖譜目前的應用很多,這裡主要講三類常見的應用:
- 語義搜索:基於知識圖譜中的知識,解決傳統搜索中遇到的關鍵字語義多樣性及語義消歧的難題;通過實體鏈接實現知識與文檔的混合檢索。
- 智能問答:針對用戶輸入的自然語言進行理解,從知識圖譜中或目標數據中給出用戶問題的答案。
- 可視化決策支持:通過提供統一的圖形介面,結合可視化、推理、檢索等,為用戶提供信息獲取的入口。
這三類的關鍵技術與難點分別為:
語義檢索:
- 自然語言的表達多樣性問題
- 自然語言的的歧義問題
智能問答:
- 準確的語義解析
- 正確理解用戶的真實意圖
- 答案確定與排序
可視化決策支持
- 通過可視化方式輔助用戶模式快速發現
- 高效地縮放和導航
- 大圖環境下底層演算法(圖挖掘演算法)的效率
通過上述分析,我們列舉一下行業知識圖譜全生命周期中相關的9大關鍵技術,這些技術保證了行業知識圖譜更加規範的數據表示,更強的數據關聯,以及能夠體現更深邃的數據價值。
4.7 LOD2
當然在行業內,知識圖譜的全生命周期管理方面已經有部分現成的套裝工具,比如歐盟的LOD2項目,它主要目標是構建結構化鏈接數據的企業級管理工具和方法學,提供一個搜索、瀏覽和生成鏈接數據的平台。
不過LOD2 側重於鏈接數據的生命周期管理,其它類型的數據需要首先轉換成鏈接數據,並且LOD2 沒有對中文處理的支持。
4.8 Stardog
另一個代表性工具是Stardog,它是一個企業級知識圖譜平台,通過把數據轉換成知識,使用知識圖譜進行組織,對外提供查詢、檢索、分析服務。其主要特點為:
- 把關係資料庫映射成虛擬圖
- 支持OWL2的推理
- 支持Gremlin
但 Stardog 的不足之處在於僅包含對結構化數據(RDBMS、Excel等)的處理,沒有針對非結構化數據的知識抽取,也沒有包含知識融合功能。
總結一下,我們首先從根源介紹了知識圖譜的前身及其基礎技術規範,其次對生命周期中每個環節進行了簡單的概述,以及關鍵技術和難點總結,最後介紹了兩個目前較為主流的知識圖譜平台。
根據難易程度,對於如何在行業應用中使用知識圖譜,大致有如下幾種方式:
- 使用現有的套裝工具(如 LOD2、Stardog)
- 在現有套裝工具的基礎上進行擴充:
- 使用各生命周期過程的相應工具並進行組合使用
- 針對性開發或擴展生命周期中特定工具
- 完全從零開始構建
那麼究竟使用哪種方式呢?這需要根據不同的數據,以及不同的業務需求進行相應的取捨。
在下一篇文章中,我們會結合自身在PlantData平台里對圖譜全生命周期管理的一些探索,深度介紹行業知識圖譜全生命周期的關鍵技術。
推薦閱讀:
※如何看待地平線機器人余凱最新發布的人工智慧晶元?
※把「AI威脅論」觀念植入馬斯克大腦的那個人,現在「反水」了
※職業規劃師要下崗了,取而代之的是...
※Galactic Dependencies依存關係數據集+細粒度語言類型學預測 | 直播預告·PhD Talk