知識圖譜多數據源融合

04-22

知識圖譜的實體往往面臨數據融合的問題，因為知識圖譜的數據源可能有多個，在不同數據源有對同一實體的不同表達，即使在同一個數據源里也可能存在這種情況，需要通過一定手段將其合併。

知識圖譜的數據融合過程通常如下：

知識融合流程圖

1，數據預處理：輸入的原始數據源往往存在臟數據和格式不一致數據，需要進行人工進行規整，這一步過程是實際工程中比較費時但是作用很大的工作，沒有好的數據處理後續的演算法效果往往也不會好。

2，數據分組：我們的目標是找出所有相同的實體，如果不進行數據分組，我們的計算量會是兩兩比較，對於海量數據的時候計算量過於龐大，所以要事先進行分組。分組的效果既要保證能夠比較均衡地分而治之，又要盡量保證不要漏分。

常見的方法包括通過數據本身的類目信息進行分組，比如在融合商品數據的時候可以根據商品的類目信息進行分組；或者根據數據的關鍵信息，比如在融合人物數據的時候可以根據其出生日期進行分組。

3，屬性相似度：經過上一步的分組，每個分組下的實體是有可能是相同的實體的集合，接下來需要對實體的屬性進行計算相似度，有了實體各個屬性的相似度才容易進行下一步的實體相似度計算。

常見的方法包括：

3.1）純字元串的：計算編輯距離，levenshtein distance，計算字元串A通過插入/刪除/替換操作變換到字元串B的距離；

3.2）集合類型：計算Jaccard相似度，計算集合交集個數/集合併集個數；

3.3）文檔類型：通過tf-idf找出每篇文檔的關鍵詞，再通過餘弦相似度計算關鍵詞集合的相似度。

4，實體相似度：

有了實體各個屬性的相似度，可以來計算實體相似度了。常見的方法分為兩種：

4.1）回歸：通過實體各個屬性的相似度，直接判斷實體的相似度。可以直接對各個屬性相似度拍權重，也可以通過邏輯回歸的方式計算出各個屬性相似度的權重。

4.2）聚類：直接通過聚類操作，計算出相似實體。可以進行層次聚類，相關性聚類，Canopy+K-means聚類等。