知識圖譜多數據源融合
知識圖譜的實體往往面臨數據融合的問題,因為知識圖譜的數據源可能有多個,在不同數據源有對同一實體的不同表達,即使在同一個數據源里也可能存在這種情況,需要通過一定手段將其合併。
知識圖譜的數據融合過程通常如下:
知識融合流程圖
1,數據預處理:輸入的原始數據源往往存在臟數據和格式不一致數據,需要進行人工進行規整,這一步過程是實際工程中比較費時但是作用很大的工作,沒有好的數據處理後續的演算法效果往往也不會好。
2,數據分組:我們的目標是找出所有相同的實體,如果不進行數據分組,我們的計算量會是兩兩比較,對於海量數據的時候計算量過於龐大,所以要事先進行分組。分組的效果既要保證能夠比較均衡地分而治之,又要盡量保證不要漏分。
常見的方法包括通過數據本身的類目信息進行分組,比如在融合商品數據的時候可以根據商品的類目信息進行分組;或者根據數據的關鍵信息,比如在融合人物數據的時候可以根據其出生日期進行分組。
3,屬性相似度:經過上一步的分組,每個分組下的實體是有可能是相同的實體的集合,接下來需要對實體的屬性進行計算相似度,有了實體各個屬性的相似度才容易進行下一步的實體相似度計算。
常見的方法包括:
3.1)純字元串的:計算編輯距離,levenshtein distance,計算字元串A通過插入/刪除/替換操作變換到字元串B的距離;
3.2)集合類型:計算Jaccard相似度,計算集合交集個數/集合併集個數;
3.3)文檔類型:通過tf-idf找出每篇文檔的關鍵詞,再通過餘弦相似度計算關鍵詞集合的相似度。
4,實體相似度:
有了實體各個屬性的相似度,可以來計算實體相似度了。常見的方法分為兩種:
4.1)回歸:通過實體各個屬性的相似度,直接判斷實體的相似度。可以直接對各個屬性相似度拍權重,也可以通過邏輯回歸的方式計算出各個屬性相似度的權重。
4.2)聚類:直接通過聚類操作,計算出相似實體。可以進行層次聚類,相關性聚類,Canopy+K-means聚類等。
推薦閱讀:
※2018全國知識圖譜與語義計算大會徵文開始
※如何用知識圖譜識別欺詐行為
※AAAI 2018論文解讀 | 基於置信度的知識圖譜表示學習框架
※報告 | 肖仰華:知識圖譜研究的回顧與展望
TAG:知識圖譜 |