知識本體與大數據處理續

前一篇談到了知識本體的哲學起源,以及 Palantir 使用知識本體解決數據集成問題。由於篇幅所限,很多問題沒有談透,還想再多說幾句。

現代的知識本體和古典哲學的形而上學已經沒有多少關係了。外化於人類知識體系之外的永恆理性世界並不存在,存在的只是人類在認知和探索世界過程中不斷累積,不斷融合,不斷外化成文字、圖形、過程方法的知識。

知識本體、框架表示法、面向對象程序設計,都是源於人類思維中的概念系統。我們今天使用的計算機是一個純邏輯系統,基本原件的功能是做布爾代數,各種運算最終都會分解為布爾代數運算。這種架構決定了兩件事:首先,計算機做邏輯運算是直接硬體處理,速度飛快,效率極高;其次,學過計算機原理的人,都會受到這種架構的影響,所謂手裡拿著鎚子,滿眼都是釘子,遇到任何問題都要首先考慮通過邏輯的方法來處理。然而,可以純粹用邏輯解決的問題其實很有限,並且往往都遠離日常經驗,這也體現在了軟體開發的困難程度上,軟體開發本質上就是要把一個實際的問題分解成可以形式化和不能形式化的部分,並把可以形式化的部分用程序實現出來。

數據處理是一類特殊的軟體,因此顯然也是形式化的。上一篇說到P家在大數據處理中引入了知識本體(一種形式化的表達概念結構的方法),但是只講了作為標籤體系,幫助用戶達成對數據含義的共識這一種作用,其實知識本體還有另外一重作用,就是輔助用戶進行可視分析。P家的可視分析比較簡單,主要是做結合地理信息的時空數據展示,線索是人物和事件。這個思路體現在平台的整體設計上,在Dynamic Ontology 和 RevisioningDB 中集中體現出來。下圖出自電影 Zero Dark Thirty:

Dynamic Ontology 有著固定的頂層本體,結構大致如下:

這個動態本體的基本類型為對象、屬性、關係。搞過本體的都可以看出來,這是個比較輕量級的知識表示框架,也算中規中矩。再往下看一層,就是P家特色了。對象分為實體、文檔、事件三大類。其中文檔是作為數據源和參考資料存在的,一方面用於從中抽取實體和事件,另一方面提供給分析師做背景閱讀。文檔由分析師導入到系統中,系統隨即會提取文檔內容,自動建立索引,這樣一來導入後的文檔都可以通過關鍵詞進行搜索。抽取操作由分析師使用系統提供的工具來完成,需要指定抽取出的目標數據所對應的類,當然這個類一定是實體或者事件的子類。

實體和事件可以從文檔中抽取出來,也可以來自導入的結構化數據。不論是導入的、還是抽取出來的結構化數據,都一定會屬於某個實體或者事件的子類。實體的一級子類主要是人和組織機構,廣義上講都是「人」(自然人和法人)。事件表示實體之間相互影響的關係,這種影響通過P家特有的RevisioningDB結構表達出來。RevisioningDB 記錄了實體屬性的每一次變化,除了變化後的屬性值,還同時記錄變化的時間戳,以及引發變化的事件ID。這樣一來,這些數據就表達了實體在時空上不斷運動變化,互相影響的一幅圖景,借用狹義相對論中的辭彙,就是給出了對象的世界線。分析師導入或者抽取數據的過程,就是建立這個時空模型的過程。

當然了,機器並不理解時空圖景,機器只能做形式化運算,對於機器來說這些只是數據、指針、標籤,但是藉助外設顯示出來,在人眼中就形成了圖景。這個時空圖景是給分析師看的。分析師通過觀察,賦予圖景中的對象以意義,在腦中形成意象,得到結論。

這樣一來,我們可以把P家的路數歸納為:通過將數據結合到時空模型,在天(時)、地(理信息)、人的框架中形成洞察和預測。由此可知,此系統暗合三才,幾近於道,顯然是用來算命的啊。

推薦閱讀:

數據分析探索之旅(一):學習數據分析的初衷與規劃
24頁PPT詳解數據分析師成長之路 ---來自 陳丹奕 11月24 微課分享課件
大數據分析2017學習計劃
多維放射狀流向圖的最佳布局方案

TAG:大数据分析 | 知识图谱 | PalantirTechnologies |