標籤:

大數據在金融領域是如何應用的?

能否舉幾個例子?


正如馬雲在一次演講中提到的:

「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」

毫無爭議的,我們已經進入到大數據時代。而金融業無疑又是大數據的最重要的應用領域之一。今天,我們就來簡單談談大數據在金融業的應用,未盡事宜,可以留言(訂閱號:洪言微語)討論交流。

什麼是大數據

關於這個,已經了比較標準的答案,就不在贅述了。所謂大數據,是指多個來源和多種格式的大量結構化和非結構化數據。有兩個關鍵點:

一是大。即數據量要非常多,數量少了不叫大數據。在實踐中,一般至少要有10TB(1TB等於1024GB,想想你32G的蘋果手機,可以裝多少數據?)的數據量才能稱之為大數據,而在類似蘇寧金融等互金巨頭,基本都沉澱了PB級(1PB約等於105萬GB,相當於3.3萬個32G的U盤,截止目前,人類生產的所有印刷材料的數據量也不過200PB)的數據量。

大數據科學家JohnRauser就提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。啪菠蘿·畢加索的定義是,大數據就是多,就是多,原來的設備存不下、算不動。這裡強調的便是大。

二是數據來自多種數據源,數據種類和格式豐富,不僅包括結構化數據,還包括半結構化和非結構化數據。意味著,即便數據量很大,但如果局限於單個領域,也不能稱之為大數據。因為大數據的一個重要作用就是利用不同來源、不用領域的數據進行非線性地分析,用於未來的預測。

比如,《大數據時代》在作者Sch?nberger的對大數據的定義就是,「大數據,不是隨機樣本,而是所有數據;不是精確性,而是混雜性;不是因果關係,而是相關關係」。這裡強調的便是數據的多樣性。

有了大數據,自然就要有大數據技術,即從各種各樣類型的巨量數據中,快速獲取有價值信息的技術,強調快,這是大數據技術與傳統數據挖掘技術的重要區別。

從巨量數據中提取的有價值信息,即是大數據在各個領域的具體運用,比如基於大數據進行客群的細分,進而提供定製化服務;基於大數據模擬現實環境,進而進行精準評估和預測;基於大數據進行產品和模式創新,降低業務成本、提升經營效率等等。

不過,關於大數據的應用,有一個廣為流傳的段子,即:

「Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .」

正如這個段子所講,很多領域的大數據應用,還只是停留在想像的層面。

金融大數據數據領域應用邏輯

說道大數據在金融領域的應用,一般認為有精準營銷和大數據風控兩個方面。

精準營銷就不說了,基於行為數據去預測用戶的偏好和興趣,繼而推薦合適的金融產品,相比傳統的簡訊群發模式,不知要先進了多少倍,這個大家都容易理解。

而對於大數據風控,其邏輯便在於「未來是過去的重複」,即用已經發生的行為模式和邏輯來預測未來。

統計學規律告訴我們,在實驗條件不變的條件下,重複實驗多次,隨機事件的頻率等於其概率。意味著,隨著隨機事件的大量發生,我們是可以發現其內在規律的。而大數據裡面包含的海量數據,就為我們發覺隱藏在隨機事件後面的規律提供了條件。

大數據風控的兩個應用,信用風險和欺詐風險,背後都是這個邏輯,通過分析歷史事件,找到其內在規律,建成模型,然後用新的數據去驗證和進化這個模型。

以美國主流的個人信用評分工具FICO信用分為例,FICO分的基本思路便是:

把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢和經常違約、隨意透支、甚至申請破產的各種陷入財務困境的借款人的發展趨勢是否相似。

FICO評分是傳統金融機構對大數據的運用,再來看看典型互金機構ZestFinance對大數據的運用,ZestFinance的客群主要就是FICO評分難以覆蓋的人群,要麼是在FICO得分過低金融機構拒絕放貸的人,要麼是FICO得分適中,金融機構同意放貸但利率較高的人。

在ZestFinance的評分模型中,會大量應用到非徵信數據(50%-70%左右),在其官方宣傳中,提到會用到 3500 個數據項,從中提取 70,000 個變數,利用 10 個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行集成學習或者多角度學習,並得到最終的消費者信用評分。

而欺詐風險的防控,本質上也是通過對歷史欺詐行為的分析,不斷梳理完善風險特徵庫,比如異地登錄、非常用設備登錄等行為,都是一種風險信號,建立一系列的風險規則判定集,預測用戶行為背後的欺詐概率。

幾個待解決的問題

第一個就是數據共享的問題。大數據的應用,前提是要有大數據,而在很多金融機構而言,並沒有所謂的大數據,何談應用呢。我們知道,在次級類用戶的信用評價中,非徵信數據發揮著重要的作用,但是要獲得有價值的數據並不容易。

一般來講,盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,這個無可厚非,但客觀上便產生了這樣一種效果,幾大互聯網巨頭變成了數據黑洞,用戶的數據進得去、出不來,可以為企業自身而用,但不能為整個行業或社會而用。此外,散落在稅務、公積金、海關、工商等領域的數據梳理和整合,也是漫長的過程。

第二個便是數據保護的問題。正如我在之前的一篇文章《在上市平台信而富財報中,我找到了四個行業秘密》中提到,

沒錯,數據是核心驅動力。但問題是,在數據保護和用戶隱私等相關法律框架最終明確落地之前,對互金平台而言,數據既是寶貴的資產,也可能演變成為聲譽風險、合規風險、用戶訴訟風險等各類問題的潛在來源,是福是禍,尚是未知之數。

——————————————————————————————————分界線

如想進一步了解大數據風控,可以去聽聽我最近的知乎LIVE課程《建立大數據風控的基本框架》,本次 Live 主要包括以下內容

? 傳統金融機構風控的三板斧

? 大數據風控需要哪些數據

? 為何大數據模型最終取決於業務模式

? 大數據信用風險防控的幾個維度

? 風控維度是越多越好嗎

? 大數據欺詐風險防控的難點在哪裡

? 大數據欺詐風險防控的基本流程

? 大數據風控的演變趨勢

? 其他


首先先了解什麼是大數據,當然是大啦,大數據時代不再是隨機的抽樣調查,而是全體數據。

在大數據時代進行抽樣分析就像在汽車時代騎馬一樣,一切都在改變。我們得到的數據再也不是隨機的抽樣,而是所有的數據。「樣本=總體」。

大數據的核心:預測。 它是把數學演算法運用到海量的數據上來預測事情發生的可能性。

例如,

名為Farecast的公司,找到了一個行業機票的預定資料庫,系統預測的結果是根據美國商業航空產業中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。通過預測機票價格的走勢以及增降幅度,Farecast票價預測工具能幫助消費者抓住最佳購買時機。到2012年為止,Faecast系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價,Farecast票價預測的準確度已經高達75%,使用Fcat票價預測工具購買機票的旅客,平均每張機票可節省50美元。

大數據以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見

然後回答題主的問題,大數據和金融。

麻省理工與通貨緊縮預測軟體

「10億價格項目」(The Billion Prices Project ,BBP提供了一個有趣的例子。美國勞工統計局的人員每個月都要公布消費物價指數(CPI),這是用來測試通貨膨脹率的。這些數據對投資者和商家都非常重要。在決定是否增減銀行利率的時候,美聯儲也會考慮消費指數。一旦發生通貨膨脹,工人工資也會增加。聯邦政府在支付社會福利和債券利息的款項時,這項指數也是他們參考的依據。聯邦政府為了得到這些數據,會僱用很多人向全美」個城市的商店、辦公室打電話、發傳真甚至登門拜訪。他們反饋回來的各種各樣的價格信息達80000種,包括土豆的價格、計程車的票價等。政府採集這些數據每年大概需要花費兩億五千萬美元。

這些數據是精確的也是有序的,但是這個採集結果的公布會有幾周的滯後。2008年的經濟危機表明,這個滯後是致命的。政策決策者為了更好地應對變化,需要及時了解通貨膨脹率,但如果以傳統的依賴採樣和追求精確的方式進行數據收集,政府就不可能及時獲得數據了。麻省理工學院(MT)的兩位經濟學家,阿爾貝托·卡瓦略和羅伯托·里哥本 o be no Rigobon)就對此提出了一個大數據方案,那就是接受更混亂的數據。通過一個軟體在互聯網上收集信息,他們每天可以收集到50萬種商品的價格。收集到的數據很混亂,也不是所有數據都能輕易進行比較。但是把大數據和好的分析法相結合,這個項目在2008年9月雷曼兄弟破產之後馬上就發現了通貨緊縮趨勢,然而那些依賴官方數據的人直到11月份才知道這個情況。——資料來源《大數據時代》

我們不製造答案,我們只是答案的搬運工

大數據並不是一個充斥著運演算法則和機器的冰冷世界,其中仍需要人類扮演重要角色,人類獨有的弱點,錯覺錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱或固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂數據一樣,因為這些數據服務的是更加廣大的目標。畢竟混亂構成了世界的本質,也構成了人腦的本質而無論是世界的混亂還是人腦的混亂,學會接受和應用它們才能得益

大數據是一種資源,也是一種工具,大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案的出現。這也提醒我們在使用工具時侯,應當懷有謙恭之心,銘記人性之本。


搬一個我在

你所在的公司或者領域在做哪些大數據應用?

下面的回答吧,應該還蠻貼切的。

我來說一個吧。

我們公司專註於用大數據建模分析技術,幫助客戶喚醒沉睡數據價值,實現數據價值運營。

目前呢,我們的應用領域主要集中在金融、運營商、教育、醫療四個領域。

既然運營商和醫療已經有人說了,我就來說說金融吧。(這麼重要的領域居然還沒人說!╮(╯▽╰)╭)

1.銀行業

銀行可以說是金融領域大數據應用的領頭羊,上圖中的六個業務板塊中,每個版塊都可以藉助大數據來更深入的了解客戶,提升風險管理能力。

以下是一些走在前列的銀行的實踐。(相比之下,國內的銀行在這方面做得實在是不夠啊。。。)

其中,大數據新演算法在風控領域的應用實踐最為豐富,也是目前許多大數據公司的發力點。上世紀80年代,美國FICO公司開發了一系列基於邏輯回歸的信用評分方法,並逐漸成為美國社會個人信用評分的通用標準。而隨著統計分析和大數據建模技術的進步,演算法的發展日新月異,形成了包括決策樹、隨機森林、神經網路分析與AdaBoost等在內的許多新演算法新技術。美國的ZestFinance公司則是利用這些大數據新演算法進行個人信用評分和風險控制的典範。

就國內而言,中國人民銀行徵信中心全面收集企業和個人的信息,系統收錄自然人8.6億多,收錄企業及其他組織近2068萬戶。目前,中國人民銀行徵信中心的信用報告數字解讀體系正是參考了美國個人消費信用評估公司費埃哲開發的FICO信用評分體系。但隨著大數據建模技術和時代的發展,作用逐漸下降,出現了模型老舊、信用分數區分度下降、存在刷分漏洞三方面的問題亟待解決。

為此,中國人民銀行徵信中心聯合北京至信普林科技有限公司,選取了五種大數據新演算法(支持向量機、決策樹、隨機森林、AdaBoost和GBDT),針對解決之前體系的各種問題,對央行徵信中心進行信用評分體系優化,實現了系統穩定性、準確性、業務指示性實現全面提升。

2.保險

相比於銀行,大數據在保險業也大有可為,但步伐卻慢了許多,在國內還停留在戰略想法階段。

3.證券

通過爬取互聯網上的信息進行分析來指導選股的做法在國內外已經有了比較多的嘗試。比如美國的CAYMAN ATLANTIC公司是一家專門基於互聯網數據和Twitter等媒體數據進行投資的資產管理公司。他們通過分析社會媒體信息中的情緒信息來交易金融衍生品,曾近發行了第一隻「Twitter基金」——Derwent Absolute Return Fund並且取得了正收益。

國內的百度百發、淘金100等基金也是典型的大數據基金。

當然,我們呢也正在和國內前十的公募基金——大成基金合作開發一直基於全網的全球資產配置的指數基金,敬請期待。

同時,和銀行、保險業一樣,證券行業也可以藉助大數據分析來進行潛在客戶挖掘、存量客戶經營和優質客戶流失預警。

比如我們和證監會特批的全國資本市場基礎建設和功能性公司——中證信用就正在合作建立資本市場的用戶畫像體系。

4.舉個例子吧

上面說了這麼多,更多的集中在可以怎麼應用。現在來舉個我們實際操作的例子說一說。

該客戶當時是美國某大型P2P借貸平台。平台上的投資人在向特定借款人借款之前,可以查看有關借款人的詳細信用信息。平台也會對借款人進行從A到G的風險評級,A級風險最小,貸款利率最低;G級風險則最大,利率也最高。

當時面臨的問題是?

既有風控模型對借款人壞賬率預測準確率低,壞賬率較高。

普林科技解決方案

對平台 10 萬樣本用戶的歷史數據進行分析,通過用戶的自然人信息、工作住房信息、資產水平、歷史借貸信息等,建立了壞賬率預測模型和用戶分級模型。

根據違約率將用戶分為7個大類,35個小類,並針對不同類別用戶設定不同的借款額度及借款利率。

項目結果

模型在2012年到2014年的數據上測試,同比壞賬率減少39.8%,準確性和穩定性實現全面提升。

邏輯回歸演算法、決策樹演算法、普林科技P演算法在結果準確性上的對比,

P演算法大比重勝出。

相比於Lending Club原有模型,新模型在穩定性上明顯提升。

想了解更多?也歡迎關注我司微信公眾號「普林科技」(princetechs),每周都會推送大數據建模分析乾貨 ^-^


我的·導師說 當一個人說他在做大數據 你一般不知道他到底在做什麼


噱頭大於實質,因為數據質量普遍不高。內部數據都無法統一整合,保證數據真實有效,更何況外部數據?Garbage in Garbage out。


應用很廣,定價、授信、風控領域尤其多,隨便說幾個:

  • 車險。其實根據車主的日常行車路線、里程、行車習慣、出險記錄、職業、年齡、性別,可以給出非常不同的定價。比如一個開中級車,每天固定路線往返幾公里通勤的熟練女白領車主,和一個開同樣車型每天在珠三角或者長三角跑生意的中年暴躁小老闆車主,假設後者出險概率是前者的3倍,那麼完全可以定3倍於前者的價格(商業部分)。對於保險公司,前者才是優質客戶,後者做了生意也是賠錢貨,不如趕到競爭對手那裡去。

  • 貸款。現在各種小額貸款、消費貸款、供應鏈金融,都是在吃4大行懶得吃的散客市場,之所以他們懶得吃,就是怕麻煩。最麻煩的就是授信環節,對於一個沒有固定資產等擔保物的客戶,能授信多少額度是個問題。淘寶能做小微是因為商家的流水在他們手裡,白領的消費貸敢做是因為有穩定的現金流收入。但除了淘寶可以做到比較準確的模型,其他的業務都非常的粗放,基本每個領域都是根據幾條死規則來做業務。這意味著這個市場還有很大的潛力可以挖掘,比如一個小老闆,其實風險不大,他需要100w周轉,但你沒把握估算他的風險,只敢貸50w出去,就少賺了那50w的利息。

問題是現在整體上受到諸多限制,真正能應用起來的地方不多,限制最大的兩個方面:

  • 數據。阿里是因為有淘寶的交易數據,所以是先天優勢,傳統金融機構根本沒有有效的能夠拿來建模的數據。倒是各個互聯網公司,比如地圖、行車、電商、社交等等,有很多零散的數據。但這些公司不可能直接拿自己的命根子來賣錢,國內又沒有中間層的數據公司來撮合(目前的商業環境估計很難撮合起來),只有一些灰色的公司在倒數據,這些數據往往是電話號碼什麼的,使用方式也簡單粗暴,談不上大數據。
  • 政策,比方說費率的問題,說是xx年要放開管制,費率自由化,但到時候真能放開么?放開了,肯定起來一批,倒下一批。都是一輪輪各路勢力的利益博弈。

非專業、行外人士,胡說八道,且看且拍磚。


一是太高估大數據了。大家都覺得大數據很牛逼,都覺得別人搞得是真正的大數據,可是別人又都覺得自己到底在搞什麼啊?莫名其妙的就被人當大數據了。真心是搞大數據的都不知道自己在搞什麼。

二是太高估金融機構了。作為IT能力比較高的行業,很多金融機構原就有數據倉庫和一定的數據分析能力。可是分析能力歸分析能力,但分析什麼?怎麼分析?分析了幹嘛用?都是根據業務需要的問題,跟大數據這種手段工具沒關係。

三是都是搞數據分析,之前怎麼不叫大數據呢?對金融機構來說其所謂的大數據「大」在哪裡了呢?

原來的「小」數據分析先做出價值來再說說搞什麼「大數據」吧!


談一談馬雲爸爸的網商銀行

大數據代替信貸員

龐大的信貸員隊伍是傳統銀行開展業務的基礎,從銀行發布的財報來看,幾家大型銀行的員工數都超過10萬。作為一家沒有經營地域限制的銀行,目前網商銀行將服務覆蓋到全國的員工數卻至只有區區300人。

不僅員工總數少,在人員構成上,網商銀行也別具一格。在這300人中,2/3為時下最緊俏的人才——數據科學家,而傳統銀行最重要、也最龐大的構成——信貸員在這裡的數量卻為零。

換句話說,這是一家沒有信貸員的銀行,這也意味著在這裡沒有人去專門拉存款,也沒有人去專門從事放貸款。與之配套,網商銀行沒有物理網點,有的只是APP;沒有櫃檯,沒有現金業務,有的只是一套網路系統。

網商銀行將是一家數據化的銀行,依靠大數據來獲取客戶,做風險甄別。用網商銀行數據科學家們的話來說就是,依託大數據的分析來給用戶畫像,網商 銀行可能比用戶自己更了解用戶。你何時需要貸款,有否能力償還貸款,網商銀行根據積累的大數據和建立的風險模型,可以實時甚至提前做出判斷。網商銀行的這 些能力也繼承自螞蟻小貸,完成依靠數據做風險甄別的螞蟻小貸,一直把不良率很好地控制在1.5%以下。

在大數據這個「超級大腦」的幫助下,給你放貸款的將是機器,而不是人。未來在網商銀行貸款,流程可能是這樣的,3分鐘在電腦上填寫並提交貸款申請,1秒鐘之內貸款發放到你的賬戶,過程中零人工干預。

因為沒有人工干預,做決定的是機器和大數據,網商銀行判斷用戶的標準毫無功利之心——規模大小不是問題,有無信用才是關鍵。流程的差別也導致單筆貸款的成本相差巨大,網商銀行每發放一筆貸款的成本不到2元,傳統的線下貸款單筆成本則在2000元左右。

這套體系已經實踐了5年。在過去5年里,螞蟻小貸已經為160多萬家小微企業和個人創業者解決了融資需求,累計發放貸款超過4000億元,整體不良率低於1.5%。

全球首家雲銀行

據網商銀行高管透露,此前漫長的籌備期,主要工作集中於打造一套自助可控的核心系統。因為側重於小微客戶,考察了非常多的科技公司與系統提供商,但尚無成熟的現成技術方案。於是開始打造真正意義上的國產自主銀行系統。

今天開業的網商銀行成為第一家全部系統建在雲上的銀行。這樣一個首嘗螃蟹的舉動,也是全球第一個讓銀行業告別IBM的伺服器,Oracle的資料庫、EMC的存儲設備從設想變成現實的實踐者。

據了解,在已有螞蟻金服運行雲計算的積累上,網商銀行徹底地將核心系統構建在雲計算上,並由此與阿里雲計算一起打造金融雲。

「阿里雲造了一個非常好的地基,把底層技術很多問題都解決了。金融雲是在這個地基上引入了很多的金融模型,如客戶模型、產品模型、賬務模型等,同時金融雲關注金融本身的嚴謹性和周密性、安全性的考慮。然後不斷豐富銀行對外的服務。」網商銀行技術負責人表示。

這也意味著網商銀行不會採用傳統的IT方案,另闢蹊徑以更開放、互聯網的思路去圍繞用戶作為。

如果將銀行IT系統購置的大型伺服器,比作是一頭能力巨大的大牛在拉車的話,雲計算則是把數量眾多的小牛串在一起拉車。大牛能力超凡,價格也十分昂貴。缺點是靈活性不足,只要負載的重量稍微超出大牛的能力,就需要再買入同樣的一頭大牛。

如此比較起來,跑在雲上的銀行系統,不僅能力上可擴展性更強,成本也要低得多。以單賬戶成本為例,國內大銀行一個賬戶一年的IT成本大概在50元上下,小銀行則在80到100元之間,而網商銀行這一成本則在1元以下。

IT系統成本高,也是一些銀行對小額賬戶收取年費的重要原因。再從銀行最日常的支付業務來看,銀行每筆業務的成本在幾角錢,而跑在雲上的網商銀行只需要不到兩分錢。技術優勢及其帶來的成本下降,將成為網商銀行可以去大力拓展普惠金融業務的基礎。


今天剛剛旁聽完全國計算機學科博士後論壇,一天都在說大數據和雲計算。期間有教授作報告談到互聯網金融,也有中科院的所長在旁邊插嘴發言(真的是插嘴= =),最後的討論環節也有一個交易所工作的博士和一個香港某銀行工作的博士發言。他們的發言內容理論和實際經驗都有,總結一下的話就是大數據在金融領域最靠譜的應用就是分析客戶,最不靠譜的就是分析市場。舉個栗子的話,比如有個客戶在過去的幾年裡買股票都在賠,那麼再向他推薦股票的時候就應該選一些風險小的,或者直接推薦基金或理財產品。還有就是信用評估,比如B2C或者P2P的小額貸款中的信譽評估機制(貌似阿里的小額貸款壞賬率在1%以下)。什麼數據都不能用來預測市場走向,因為市場是不能預測的。


作為SequoiaDB資料庫,我來分享一下我們在金融行業的經驗。

近線數據平台

傳統的銀行IT架構分為在線系統、近線系統與離線系統。其中在線系統主要處理面向最終用戶的交易請求;而近線系統則針對一段時間內的歷史數據進行存放和進行溯源查詢;最後,離線系統則對若干年前的數據進行統一歸檔,僅在特殊情況下會被恢復進行使用。

但是隨著大數據技術的普及,銀行對全量歷史數據的認知有了顛覆性的變化。如何從歷史數據中挖掘其潛在價值,如何將離線數據在線化以滿足監管部門的需求,是很多銀行開始利用大數據技術解決的問題。

SequoiaDB利用其橫向擴展、支持標準SQL、以及雙引擎的機制,能夠在存儲海量歷史數據的同時對外提供在線的查詢與分析能力,這就使得銀行可以考慮將傳統的離線數據做到近線化,將原本冷的數據有效地使用起來。

客戶使用SequoiaDB提供對外的ECIF、回單查詢功能,使銀行客戶能夠在櫃檯、網銀、手機銀行上隨時隨地查詢開戶以來全部的交易歷史。同時,該平台可以提供司法查詢的能力,使銀行IT部門不需要為了複雜多變的查詢請求,在歷史帶庫與資料庫之間疲於奔命。

在一個典型的近線數據平台中,可以劃分為歸檔區、固定查詢區、自由查詢區以及沙盒區等多個存儲區域。其中,歸檔區負責對原始數據從ODS進行抽取並歸檔;固定查詢區負責從歸檔區抽取數據並進行加工與索引,以滿足固定類型高並發對外互動式業務;而自由查詢業務則使用沙盒區作為預覽與SQL驗證區域,對用戶自定義的查詢進行初步驗證,驗證成功的查詢會被非同步提交至自由查詢區以批處理的方式生成報表。

內容管理平台

隨著網路技術的漸漸普及,越來越多的銀行開始將傳統渠道向互聯網與移動端靠攏。隨之而來的,為了滿足監管業務的需要,例如針對遠程開戶等業務,銀行需要開始提供「雙錄」能力,對用戶的音頻與視頻數據進行存儲。而傳統EMC、IBM提供的企業內容管理系統以小機加高端存儲硬體為基礎,對於僅存票據證照等相對小量的圖片存儲還可以勉強滿足需要,但是當存儲類型擴展到音視頻等領域,其開銷將會成為天文數字。

SequoiaDB所提供的分散式、雙引擎以及對象存儲的能力,天然為海量的音視頻、影像、證照等內容提供了分散式存儲的能力。SequoiaDB可以使用高存儲密度的PC伺服器替代傳統的小機加高端存儲的配置,能夠使用戶以1/5的擁有成本,提供更高的存儲空間與更高的吞吐能力。

在SequoiaDB內容管理解決方案中,資料庫除了提供基本的記錄與文件的讀寫操作外,還提供了內容管理平台的批次管理、版本管理、流程式控制制等一系列後台管控能力,為與用戶中間件對接提供了最大便利。

360度用戶視圖

如今,通過大數據對用戶行為進行分析,已經成為各行各業對大數據應用場景的基本認知。不論是金融、政府、運營商、製造、甚至互聯網等行業,都在考慮如何使用大數據技術,藉助用戶行為分析、第三方數據分析等方式,進一步完善已有的CRM體系,將傳統的靜態數據向360度用戶視圖轉移。

我們在另一個銀行客戶中,根據每個用戶的歷史交易行為和近期各個渠道上的交互行為進行偏好標籤和畫像,基於動態的信息評估出用戶對於不同投資收益和風險的產品的偏好,從而有針對性地推薦理財和代銷的51種基金產品,有效提升客戶在網點的體驗和網點營銷效率。由於「客戶-產品「本體對象的基礎屬性包含隨時修改的實時數據類型,營銷所需的標籤也需要不停修改和優化,SequoiaDB的動態Schema特性很好的支撐了實時營銷系統中海量的、並且不斷變化的對象/數據描述需求,同時可以提供高性能的數據訪問能力。該項目通過在支行排隊機列印的憑證上添加理財產品推薦欄目,使銀行前台工作人員可以有針對性地向最終用戶推薦理財產品。在2014年3月至8月短短半年的時間裡,省分行整體的推薦營銷成功率從千分之二上漲到百分之三,總共達到十倍的增幅。


宜信大數據實時授信平台技術、架構、模型解析

宜信大數據實時授信平台包含姨搜、知識圖譜、授信和反欺詐引擎等模塊。平台結合了用戶授權數據、第三方數據、互聯網海量數據等不同數據源,最大限度地獲取 用戶信息。授信和反欺詐引擎結合了專家知識和機器學習演算法,分析客戶的信用狀況和欺詐風險,實時估計授信額度、檢測欺詐風險。

這個平台到底是做什麼事情的?通過對各種各樣不同的數據員的接入,包括自己的數據。通過對它的接入分析,梳理,挖掘,關聯和理解。

做了一堆的事情,但是三樣最重要的事情是說,

第一個分析客戶的信用狀況。

二我們會檢查欺詐的風險,我們這個行業欺詐是非常非常重要核心的東西要去做。

第三個所有做完這些東西,我還是想做什麼?我是想做希望實時能夠估計信用額度。這不是我今天站在這個地方紙上談兵的一個事情,我們上面已經有垂直的,已經在市場上在做。

大家都知道宜信有一個非常棒的一個互聯網產品叫宜人貸,有不同的模式,其中有一個是極速模式,我們這個平台做的第一件事情,我們支持宜人貸。你要上去去投標。如果非常幸運,可能10分鐘就能買標。我能不能做到通過數據讓宜人貸一分鐘之內可以授信呢我們當時做了這樣一件事情,我請來申請貸款的這些人給我一些數據。

什麼樣的數據比如你信用卡的流失數據,比如你在淘寶,天貓京東的購買數據,或者你在運營商的通話記錄,加上其他我們已經爬下來的,我們做了搜索引擎,大量的網上的數據,加上宜信自己的數據,還有我們很多生態夥伴第三方的數據。所有的數據加起來,我能夠做出來,在實時一分鐘其實是幾毫秒之內,能夠做到給你授信,你給我這些數據,我能說不能貸給你,還是能貸給你兩三萬,我眼看著向10億在邁進,我們這是我們做的第一個產品。

當然我們也有很多的合作夥伴,不同的方式在做這件事情,後面的原理是類似的,同一個平台在驅動。我們在9月份跟易貝做了戰略合作,中國有一大堆在華南華東的外貿電商,不在天貓,不在淘寶賣東西,在易貝賣到外國,到我的網站,這個網站上去,把它的易貝帳戶提交給我,綁給我,把分鐘之內,你這個帳號值多少錢,還是對不起,你這個帳號沒有足夠的數據,是不值錢的,請你以後再來。這個產品,是我們做的第一個嘗試,拿商家的流水拿來做這個依據。加上我們其他的各種各樣不同的數據源來的數據,所有的數據做一個理解,做到現在做了大概幾千萬的級別。

可能很多人會問我說,因為時間關係,沒有辦法我只能說做一個非常非常簡單的展示,傳統的金融機構,大家也做模型,做演算法很多諸如此類的數據挖掘,傳統的數據模型,比如說,他可能會放幾十個變數,或者撐死了放幾百個變數,我們的方法不一樣,我的有幾十萬個或者更多的變數,傳統的模型裡頭,非常強調說所有的這些特徵,要是可以解釋的。所以他需要非常非常強的特徵。在我的這個模型裡頭,在我們這個平台的模型裡頭,對於我來講,所有的數據,都是信用數據。當中交易數據,流水數據這些數據大家可以想像到,其他很多的數據,比如你的搜搜數據,網上的很多其他點擊數據也是特徵。如果這些特徵被吸收的話,可能非常弱的特徵沒有關係,最後我能做出不管是信用,還是反欺詐,我後面有一堆模型在這邊,我做的手段跟傳統機構不一樣的。

今天我其實是想說的是,今天在座很多人,你們做O2O,你們也會積累數據,大量的各種各樣的數據。我站在這個地方是希望跟你說有另外一種新的變現手段,數據變現的手段,你提供金融服務,可以是C端的流量,也可以是B端的流量,我們作為第三方,我的這個平台可以跟你合作,提供一個金融變現這樣一個能力。

附:宜信大數據金融實踐分享

純乾貨,先贊再下載 宜信大數據金融實踐分享

參考: 宜人貸極速模式10分鐘審批,是怎麼做到的?


Kabbage

這個是美國一個比較成功的運用大數據為小微企業提供貸款的金融服務公司。

是不是有點像阿里小貸(它是2009年成立,跟阿里小貸是一個時期啊)

我是搬運工,來自維基:

Kabbage, Inc. is an online financing corporation based in Atlanta, Georgia that provides working capitalto small businesses. Kabbage uses data from business checking accounts, accounting software, payment processors, UPS shipping data, and other online tools including large ecommerce sites like eBay, Amazon,Etsy, Shopify, and the Yahoo! Store to reach small businesses looking for capital. Kabbage has tens of thousands of customers, 80 percent of which are repeat users.

感覺針對這個公司相關的研究似乎比阿里小貸要多一些,所以會更有借鑒意義吧?(雖然研究都是英文的)

而且我很好奇這家公司是如何拿到相關數據的。阿里小貸用的是自己的數據,這家公司從別的公司拿數據,這個難度要大的多啊。很好奇啊,沒有沒大神知道指教一下呢?

非專業人士,且看且拍磚。


大數據不過是一個概念而已。公安老早就在用大數據分析洗錢,內交等犯罪行為了。國內的大數據比較好的就是阿里,阿里可以拿到流水數據做信貸,本質上其實跟供應鏈金融(京東乾脆就叫供應鏈金融這個名字)差不多。這一塊的收入對大平台來說非常可觀。個人認同 @MrToyy提出的2個方向,第二個是歷史悠久了,第一個,對散戶的徵信,是個新領域。


唯一能夠稱得上應用的只有證監會抓老鼠倉

阿里京東的所謂大數據應用只不過是供應鏈金融罷了。


大數據其實本質在金融領域就干三件事融資、放貸款、控制風險。其他都可以轉化為這三點


用戶畫像就是大數據在金融行業里一個最經典,同時實用性很高的應用。我們公司是專門幫金融機構對其所擁有的用戶數據進行數據挖掘,構建出用戶畫像的。

之前幫過一家P2P理財公司做過用戶畫像構建,現將他們已經 有的用戶數據拿過來,將每個用戶的生命周期,也就是註冊以來在平台上持有資產的變動情況畫出來,然後利用機器學習進行聚類分析,將生命周期相同的歸為一類,並打上標籤,構建出用戶畫像。例如先上漲後清零的用戶,通過多個用戶數據的對比,發現有寫是降息的時候清空的,可以貼上利息敏感型用戶,可以通過加息來促活;如果是因為徵信問題,可以發送有關公司獲得政府認可等增信簡訊,來把他們吸引回來。

簡單說,就是通過數據分析和機器學習,構建用戶畫像,再根據他們的需求進行精準營銷,或者挽回潛在流失用戶。目前,我們正在幫一個AAA級的證券公司做,感覺證券行業對大數據的重視不夠,近幾年才開始試水,空間很大。

這方面有興趣、有技術背景的同學可以和我保持聯繫,多多探討。有業務需求的也可以來找我。


現階段大數據在金融領域的應用,噱頭大於實際。

很多人誇大了大數據的作用,其實只是優化模型的一個工具,而且現階段還很不成熟。

簡單來說,大數據在金融領域可用於風控,徵信,保險,反欺詐等等。

比如P2P風控,你可以在審批授信過程中獲取客戶的數據,例如網路借貸數據、還貸數據、地理位置、社交媒體數據、流水信息等等,目的也只有一個,服務於其信用體系,說白了就是風險控制的一個輔助篩選工具。

其他的也差不多如此。

現階段,大數據的問題在於大量無標誌數據的質量,也就是我們沒有辦法知道哪些數據是有用的。但歸根結底,是我們沒有足夠技術去分類出優質數據並加以應用。(分散式計算架構對海量數據的挖掘,必須依託雲計算的分散式處理、分散式資料庫、雲存儲和虛擬化技術。)我們的雲計算也只是剛剛起步而已。

我覺得現在大數據應用只能算淺嘗輒止,等到物聯網時代到來,才是真的「大數據時代」吧。


金融業是典型的數據驅動行業,是數據的重要生產者,每天都會生成交易、報價、業績報告、消費者研究報告、官方統計數據公報、調查、新聞報道等各種信息。金融業高度依賴大數據、大數據已經在高頻交易、市場情緒分析和信貸分析三大創新領域發揮重要作用。

高頻交易

高頻交易是指從那些人們無法利用的極為短暫的市場變化中尋求獲利的計算機化交易。為了從高頻交易中獲得更高的利潤,一些金融機構開始引入大數據技術來決定交易,比如採取」戰略順序交易,通過分析金融大數據識別出特定市場參與者留下的足跡,然後預判該參與者在其餘交易時段的可能交易行為,並執行與之相同的行為,該參與者繼續執行交易時將付出更高的價格,使用大數據技術的金融機構就可以趁機獲利。

市場情緒分析

市場情緒是整體市場所有市場參與人士觀點的綜合體現,這種所有市場參與者其同表現出來的感覺,即我們所說的市場情緒。市場情緒分析是交易者在日常交易工作中不可或缺的一環,根據市場情緒分析、技術分析和基本面分析,可以幫助交易者作出更好的決策。大數據技術在市場情緒分析中大有用武之地。

今天幾乎每個市場交易參與者都生活在移動互聯網世界裡,每個人都可以藉助智能移動終端,實時獲得各種外部世界信息,同時每個人又都扮演著對外信息發布主體的角色,通過博客、微博、微信、個人主頁、QQ等各種社交媒體發布個人的市場觀點,海量的社交媒體數據形成了一座可用於市場情緒分析的寶貴金礦,利用大數據分析技術,可以從中提取市場情緒信息,開發交易演算法,確定市場交易策略,獲得更大利潤空間。

信貸風險分析

信貸風險是指信貸放出後本金和利息可能發生損失的風險,它一直是金融機構需要努力化解的一個重要問題,直接關係到機構自身的生存和發展。

今天,大數據分析技術已經能夠為企業信貸風險分析一臂之力,通過收集和分析大量中小微企業用戶日常交易行為的數據,判斷其業務範疇、經營狀況、信用狀況、用戶定位、資金需求和行業發展趨 ,解決由於其財務制度的不健全而無法真正了解其真實經營狀況的難題,讓金融機構放貸有信心、管理有保障。

大數據對各行各業均用應用,主要包括交通業、金融業、物流業等,處在大數據時代的我們,更應該牢牢把握這次機會,在此之前,我們一定要知道,更要明白,大數據主要應用於哪些行業,應用價值是什麼? - 大數據 多智時代


借樓招聘:

大數據研發工程師(量化金融方向)

職位誘惑:

五險一金,定期運動,股權激勵

崗位職責:

1.通過互聯網抓取各類量化、文本數據

2.採用大數據計算框架、機器學習演算法等對抓取到的數據進行深入分析

3.設計、優化量化金融數據產品

職位要求:

1.「211」高校計算機、電子、物理、數學等相關理工科專業本科以上學歷;

2.熟練掌握python/SQL;

3.熟悉Linux/Unix環境,shell編程等;

4.熟悉HTTP,JSON, XML;熟悉fiddler,charls等抓包工具;

5.了解大數據分散式計算框架(Spark、hadoop等)

6.熱愛數據分析,對從數據中發掘出有價值的信息充滿熱情,踏實,主動,有較強的學習能力。

工作地址

北京 - 朝陽區 - 望京sohoT1 C座

薪資待遇30K~40K(稅後)

聯繫微信:LVGM0706

或知乎私聊


我有金融的朋友跟我說過啊,他們的大數據分幾部分。

1,風控

2,客戶管理

3,業績評估

哈哈哈,我不是金融的,所以只能回答這麼些了。


推薦閱讀:

互聯網廣告公司受資本市場歡迎么?
關於大數據時代的職業規劃?
利用大數據進行決策,是否有效可行?
千萬數據 group by,union,group by能否做到秒查?
機器學習如今是否取得了「巨大」的進展?

TAG:金融 | 大數據 |