知識圖譜技術如何落地金融行業?

知識圖譜作為新興技術受到了廣泛關注,正是因為它「還原真實世界」,拓寬了傳統數據存儲維度和業務展現方式,進而從搜索領域被關注的概念,成為各行業爭相研究和嘗試的技術方向。明略數據在服務諸多金融客戶的過程中,也充分體會到知識圖譜技術突破原有數據存儲維度,為行業客戶帶來創新性的數據業務價值。

雖然說知識圖譜好用,大家也都非常希望嘗試,但是....

知識圖譜究竟怎麼落地?

一直是困擾著金融機構的一個問題。

本文希望通過闡述知識圖譜概念本身的要素以及與金融行業結合的特點,幫助大家更好的認識、規劃和落地知識圖譜,以及介紹如何通過知識構建、知識計算、知識存儲、知識應用四個步驟讓知識圖譜技術真正落地。

知識圖譜是什麼?

1998年W3C由Tim Berners-Lee提出了語義網的概念,互聯網逐步從文檔萬維網轉變為包含大量描述各種實體、實體之間豐富關係和複雜屬性的數據萬維網,多維增長的數據量和關係讓互聯網檢索效率降低。Google於2012年5月首先提出了知識圖譜(Knowledge Graph)概念,目的在於描述真實世界中存在的各種實體、概念,以及它們之間的關聯關係,大幅改善搜索體驗。

知識圖譜技術的發展決定了它極強的互聯網數據屬性和搜索的目的性。這就要求金融等行業在應用知識圖譜時,從行業自身的數據特點和業務目標出發去研究和落地。知識圖譜項目一般可以分為知識構建、知識計算、知識存儲、知識應用四個主要部分,分別包括一些技術要點和難點,又統一起來服務於一個業務目標。

知識構建 —— 從海量文本到行業圖譜

搜索引擎應用知識圖譜面對的主要數據源是分布在互聯網上的文本數據,知識構建則在於從文本數據中抽取概念、實體、關係和屬性並進行消歧、對齊和融合。

金融行業面對的數據來源更多樣、結構更複雜,其中既包括來自互聯網輿情、監管機構的合規要求、內部報告等文本數據,財務、行研等半結構化數據,以及上百個業務系統產生的海量結構化數據。這些數據資源的獲取和整合不僅依賴數據爬取、多源異構數據治理、分散式數據存儲等技術,也依賴強大的外部數據資源協作能力和內部推動能力。而在知識構建方面,在抽取實體、關係和屬性時,雖然同樣面臨消歧、對齊和融合等難點,如業務專家帶著專業知識的參與,會在構建知識圖譜時更精確地設計知識結構和數據模型。

知識構建階段完成,金融機構可以獲得包含基本實體、屬性,以及從數據中可以構建的顯性關係的基礎知識圖譜。如果我們希望構建一個服務批發業務的知識圖譜 ,那麼經過這個階段我們就可以獲得以企業客戶、賬戶、產品為核心的,包括企業客戶之間、企業與產品之間基本關係、擔保關係、資金往來關係的知識圖譜

明略實踐

明略數據擁有針對多源異構數據的數據治理引擎,同時,面向金融行業形成了一套包含企業客戶、個人客戶、設備、賬戶、機構、產品以及相應關聯關係的知識結構,可以幫助金融機構快速落地知識構建階段工作。

知識計算 —— 行業知識的數學表達

知識計算階段的核心任務是計算隱性關係和擴展屬性,這是知識圖譜體現智能的重要特點。搜索領域的知識計算主要圍繞文本數據進行語義理解和計算,在金融行業中就需要深入結合行業知識。仍然以批發業務為例 ,需要結合營銷或風控的目的去設計企業客戶之間形成的集團、一致行動、實際控制等潛在隱性關係,形成相應的規則和模型計算並豐富進基礎知識圖譜。

這個階段應用的技術能力除了自然語言處理,還包括規則引擎、機器學習和圖挖掘等數據挖掘技術,需要工程師、數據科學家和行業專家協同完成。同時,為了檢驗所構建的顯性和隱性知識的完備性、相關性和一致性,我們需要結合專家知識和特定的知識計算方法進行校驗,處理其中缺失、衝突、冗餘知識。

完成知識計算階段我們將獲得包含經過驗證的顯性和隱性知識的完整知識圖譜,作為知識應用的數據模型基礎。

明略實踐

明略數據自主研發了融合NLP、機器學習和圖挖掘能力的知識計算引擎,並積累了一批適用於金融場景的隱性知識計算規則和模型,在實際應用中,明略的數據科學家團隊也會和客戶的業務專家團隊一起完成更多的知識計算工作。

知識存儲 —— 知識應用的重要工程保障

知識存儲階段承擔的使命不僅僅是存儲知識,更重要的是為知識應用提供穩定、準確、高效的運轉能力,同時還需要支持增量數據和業務變化帶來的海量知識更新。

站在技術選型的角度,從傳統的關係型資料庫、key-value資料庫到時下流行的各種圖資料庫都可以作為知識存儲的基礎,可以結合數據規模、應用規模、性能要求和整體IT架構規劃綜合做出選擇。金融機構在應用知識圖譜的場景中,普遍數據規模龐大,實體關係豐富且計算複雜,通常會以成熟的圖資料庫技術作為優先選擇。除了存儲本身,搜索、擴展、計算能力的豐富程度、效率以及可靠性也是在這個階段需要考慮的重要因素。

明略實踐

明略數據於2017年8月首發了知識圖譜資料庫NEST,作為專業支持知識存儲並提供應用能力的資料庫,適配主流大數據IT架構,目前已成功在眾多金融及公安客戶處落地應用。對於市場上主要的圖資料庫,明略技術團隊也進行了充分的研究和對比,可以有效的幫助客戶了解相關技術。

知識應用 —— 搜索、業務應用和問答

知識應用是最直接體現知識圖譜智能化的部分,也是使用者能直觀感受到其價值的部分。從Google提出該概念到微軟、百度、搜狗的快速跟進,搜索一直都是知識應用最典型的場景,在完整的知識圖譜之上,當我們輸入「金融行業人工智慧實踐案例」時,得到的將不再是包含這個短語的網頁內容,而是一個一個結構明晰的案例,搜索體驗完成了從匹配文本內容到「問題-推理-答案」的重大升級。

理解金融業務場景應用如何作用在知識圖譜之上的一個非常簡單的方式,就是把業務應用看成目的明確的 「問題-推理-答案」的組合。銀行的公司業務部門關心一個行業趨勢意味著哪些營銷機會,可以理解成該行業包括哪些企業、這些企業相關上下遊行業和企業有哪些、關聯企業有哪些、關聯關係和程度是怎樣的、用款周期和特點是怎樣的等一系列問題,同理風險管理部門關心風險傳導、合規檢查都可以通過知識應用帶來智能化的決策輔助。這些問題里除了關聯,對於金融行業還有很重要的一點是關聯的量化,與知識計算階段一樣,知識應用同樣依賴大量的數據挖掘工作。

知識應用給業務應用升級的另一方面是人機交互體驗的大幅改善,如今的技術基礎已經具備,隨著業務場景的逐步成熟和落地,問答式的人機交互方式也會在金融行業知識應用方面帶來極大的效率提升。

明略實踐

目前,明略已經利用掌握的知識圖譜相關技術,聯合業內頂級的業務專家團隊,在銀行的對公營銷、信貸風控、反欺詐、審計、合規領域,證券的市場監察、風控領域擁有大量知識應用實踐經驗,並不斷拓寬和加深與業務場景的結合。

在以金融行業為首的眾多擁抱新技術的行業中,知識圖譜與行業場景結合探索剛剛開始就已經呈現了極高的熱度,這代表著行業正在用更深入的角度去看待數據到知識的轉化和其中蘊含的價值。

總結起來,知識圖譜的建設和應用一方面需要全面的大數據和人工智慧技術,一方面需要行業專家、工程專家和數據科學家持續協作研究和實踐,在科技走進現實的路上,明略數據也正在努力利用自己的全棧大數據技術、20餘個知識圖譜落地項目積累,金融行業全行級知識圖譜構建經驗與每一位金融行業客戶並肩,挖掘數據價值、拓展業務維度、提升效率、實現行業人工智慧。


推薦閱讀:

談周期與投資機會——橡樹資本霍華德·馬克斯對話雲鋒金融CEO李婷!
金融大數據:金融行業數字化轉型必經之路
美國p2p鼻祖跌去七成多,宜人貸為啥一年多漲了15倍?
真融寶張曉亮入選福布斯30歲以下亞洲傑出青年榜單
博鰲最前線 凡普金科董祺透露這些趨勢將影響金融科技未來

TAG:知識圖譜 | 金融科技 | 人工智慧 |