氪信科技在KDD 2018準備說這些

11-05

銀行在利用AI技術提升金融科技水平時，往往面臨著一些挑戰——比如如何有效挖掘和處理非結構化數據？如何提升知識庫表示方法在金融領域的適用性？等等。近日，一直堅持技術要和金融場景相結合的氪信科技，憑藉相關學術成果榮獲KDD 2018 Startup Research Award.

氪信科技向KDD 2018大會提交了兩項科研成果，分別是Sequential Behavioral Data Processing Using Deep Learning and the Markov Transition Field in Online Fraud Detection（通過結合循環神經網路和馬爾科夫概率模型處理序列數據的深度學習網路架構），A Hierarchical Vectorized Representation of Knowledge Base——for Short Text Based Financial Fraud Detection（知識庫的層級矢量化表示——在基於短文本的金融欺詐檢測當中的應用），對金融領域高維度序列數據處理和短文本知識抽取應用提出了行之有效的方法。

高維度序列數據一直是大數據處理中的難題之一，相對於規整的結構化數據（如銀行評分卡使用的數據），高維度序列數據往往由於缺失值多且不均、數據稀疏、個體與個體之間數據差異大等複雜屬性，難以被傳統的邏輯回歸模型和集成樹模型等現代機器學習模型使用。而銀行業在面對客戶下沉、線上服務擴展的情況下，必須提升處理這些數據的能力。

基於對金融場景的深度了解，氪信提出了一套結合RNN—循環神經網路和馬爾可夫事件概率場疊加的卷積神經網路的深度學習結構。過去幾年，GRU和LSTM等循環網路結構在處理事件流或文字等序列數據時，已被廣泛證明有突出效果，其利用特殊的網路信息傳遞結構，來不斷傳遞「歷史」的信息，並適當「遺忘」當前的信息來平衡序列模型所常有的「過早的數據被遺忘，最近的數據被過分注重」的問題；而馬爾科夫概率矩陣是一種通過事件間變動的概率來反應全局信息的數學方法。結合兩者優勢的網路結構，從移動端有效抽取可反映行為風險的因子，證明相較傳統的特徵工程結合樹模型有更好的風險預判效果。

除了高維度序列數據處理難題，目前的知識庫表示方法業並不能完全適用金融領域的短文本知識抽取應用場景。具體體現為explicit的知識庫表示應變能力欠缺，不能很好的處理沒有見過的表述；而implicit的知識庫表示，在解釋性方面又無法滿足金融領域的業務需求。

對此，氪信提出了一種用於短文本知識抽取的知識庫的表示框架。該方法在建立知識庫的時候，利用矢量化層級化的存儲，兼顧了短文本當中關鍵信息的模式和短文本本身的內容。矢量表達了短文本知識的核心語義結構，因此解釋性得到了保證；層級化的存儲則方便了模糊查詢，使得創建的知識庫具有更好的穩定性，可以面對不斷修改的短文本語料庫。

KDD全稱是Knowledge Discoveryand Data Mining，即知識發現與數據挖掘，由美國計算機協會（ACM）下的數據挖掘分會舉辦。作為國際頂級數據挖掘盛會，每年吸引了世界各國數以萬計人工智慧科研人才和應用人才參與。2018 KDD匯聚了來自數據科學、數據挖掘、知識發現、大規模數據分析等諸領域的大數據研究及從業人員，並且得到了滴滴，intuit, 騰訊，facebook, amazon, 京東，百度，阿里，SAS, J.P.Morgan, IBM, Google, NETFLIX, Microsoft, Booking, 華為等知名企業支持。其中KDD 2018 初創公司研究獎是對初創公司研究成果、大會的貢獻度、公司財務狀況的綜合考察結果，最終氪信憑藉領先的AI技術，融合率先浸入大型金融場景打磨形成的知識體系和實戰經驗，在申請企業中脫穎而出。