大數據技術在金融行業有哪些應用前景?

最近大數據徵信很火,那麼在金融行業大數據究竟可以怎麼用呢?


感覺答案里實際經歷或純金融和大數據結合的例子不多。我介紹個某行的實驗項目和分析的公司案例(雅虎),權當娛樂~ 這方面有興趣也有技術背景的同學可以和我保持聯繫,之後有意往這方面發展。: )

先科普,介紹下為什麼做這個項目:我們都知道信用評級(可以理解為違約概率),有個人的(類似於個人徵信,比如芝麻信用),有公司的(大到標普穆迪,本地的如中誠信,大公)。對於銀行對公投行業務來說,銀行還需要做一個內部評級(internal rating, 分自動評分和人工兩種)。這種內部信用評級是銀行計算風險權重資產(RWA)等重要關鍵數據的基礎。目前來看,無論是基於財務分析或非財務分析,無論是系統根據模型自動評分或人工依據預設分析模板手動計算評分,都屬於傳統方法 - 即客戶經理或信貸員將財務數據填入系統,然後得出一個信用評級。

但是這樣的評分仍然片面,因為一個公司,假設上市有年報的話,裡面提供的信息往往不是財務信息所能表達的,然而傳統評級方法很難體現這類的考慮同時,很多公司,比如一些大型銀行,年報厚達600頁,國內比如萬科的年報也有200多頁。靠人來讀然後給出評價的話基本不現實。也因此,我們目前在做的這個實驗項目就是通過成千上萬家上市公司年報進行大數據文本挖掘,藉助機器學習演算法,看是否可以相對準確快速的預測公司的信用評級,將這類結果提供給銀行業務人員做為一個重要的參考指標。

#更新:評論區有朋友說有點粗糙,不夠細緻(但是感謝點贊!)。我想開脫兩句:一是畢竟是行內在做的實驗性東西(其實就是幾個部門有類似興趣愛好的同事),不好放上來所有具體的細節,只希望提供觀點和實際經驗引起討論,謝謝理解;二是我盡量服從需求,往這裡添加一些可以公開的信息和細節,供大家討論交流。當然,這個只是初步嘗試,還有很多缺陷,路還很長。評論區有些討論很有意義,權當對答案的補充。

#更新1:具體使用的資料庫:

整體過程大概分如下五步:

1. 模糊匹配 (fuzzy matching):因為數據量大,我們不能手動匹配公司年報與我們已有的公司評級資料庫(已有的評級資料庫是用來之後機器學習培訓模型用的),所以我們將下載的所有年報公司名稱通過模糊匹配的方法對應到我們已有的公司評級資料庫里(這個資料庫我們用的是標準普爾的):模糊演算法主要是傳統的Jaro-Winkler和Levenshtein。

2. 預處理數據,去掉噪音:目前我們只做英文年報,去掉年報中的文本噪音,比如the, and這類意義不大的詞條,也包括去掉空格,將大寫字母換成小寫字母,去掉標點符號,數字等

3. 文本分割與詞條分析:去掉噪音後,剩下的我們認為有意義的文本,計算詞條頻率,又稱文本-詞條矩陣;補充更新:其實這步還做了一些其他處理(feature selection Binning),只是沒有全寫下來,這裡補充下:

    • 把一些稀有詞條去除:在所有年報中出現頻率小於1%的詞條
    • 去掉解釋力量較弱的詞條:與評級的相關性很低
    • 去掉冗餘詞條:與其它詞條有高相關性
    • Data Binning:為之後的分類演算法做準備

4. 機器學習:主要是分類演算法,目前我們嘗試的方法如下

    • 支持向量機 (support vector machine)
    • 樸素貝葉斯分類 (na?ve bayes)
    • 線性降維演算法 (linear discriminant analysis)
    • 決策樹 (decision trees)
    • 神經網路 (neural network)
    • 邏輯回歸 (logistic regression)

5.模型應用:根據前一步培訓的模型預估信用評級(具體預測的評級分布見下圖更新2,深藍色Base代表的是正確的評級,淺藍色代表的是不同演算法得出的結果,可以看出SVM和NSVM的評級分布擬合的最好

#更新2:不同演算法得出的評級分布與正確評級分布的對比

綜上,目前來看,支持向量機(svm和nsvm)得到的結果最好,但是總體來說準確率不到60%,還有很多地方可以改進來提升模型評估能力。

最終,我們將評估結果,外加語義情感分析(sentiment analysis)等做成自動報告供銀行內部相關部門使用。

說到這兒,我有說所有的這些我們都用的是免費開源的R語言嗎?: ) 這年頭銀行也很會省錢。

最後放個雅虎公司的報告做例子。基於2015年的年報,2.78%的詞條有正面情感,3.08%負面,94.14%方向不清晰。模型結果:支持向量機的最準確,BB-,和標普以及行里內部給的評級一致,樸素貝葉斯和線性降維給的是BBB-,差了點兒。


自己做過的幾份工作都涉及到金融業和大數據的結合,來怒答一下。

一、行業標杆Bloomberg及前言
在回答問題之前,先對討論之框架做個限定,免得撕逼。同時,拋出行業翹楚供大家參考。

首先,金融業的涵蓋非常之廣,主要包括三大類:銀行類、投資類和保險類。具體則很多:商業銀行、投資銀行、證券、保險、小貸公司、租賃等。而且隨著時代和技術發展,還出現了各類新型金融機構,比如:消費貸、P2P等等。

其次,金融業基本是全世界各個行業中最依賴於數據的,而且最容易實現數據的變現。在本回答中不糾纏於大數據和數據的區別。比如世界上最大的金融數據公司Bloomberg,看起來它提供的金融數據服務在深度上並不複雜,而且其成立時間遠早於大數據這個辭彙出現的時間,但是你很難說,Bloomberg不是一個金融大數據公司。

提到金融數據公司,就不能不提Bloomberg L.P.。這家創立於1981年的公司,是整個金融數據界的翹楚。創始人Michael Bloomberg,曾是Salomon Brothers的合伙人,因為公司被收購而拿到一千萬美元的遣散費後離職,並創立了Bloomberg。下圖左一就是Michael Bloomberg,不用懷疑你的記憶,你沒有記錯,他也是那個只拿一美元和坐地鐵上班的紐約市市長,所以才有機會和加州州長施瓦辛格一起出現在Time雜誌封面。

Bloomberg的最初產品是Innovative Market Systems (IMS),主要功能是向金融市場的各個玩家提供市場的實時數據、財務計算能力、財務分析等(聽起來是不是很low,和大數據毫無關係)。創業之初,即使是高富帥創業的Michael Bloomberg及團隊也依然苦逼,沒有方向沒有客戶,為了激勵勞累不堪的員工,Michael Bloomberg只好建議員工「看魚缸中的金魚來消遣」,於是每位新來的員工都會得到一隻魚缸。後來人員激增只能以公共空間的巨型魚缸替代。

下圖是著名的Bloomberg魚缸。

在1983年,Bloomberg以30%股份的代價獲得美林3000萬美元的投資,估值僅為1億美元。自此一路狂奔,推出各類產品,包括:Bloomberg Terminal,Bloomberg News,Bloomberg Radio,Bloomberg TV等等。

在1996年,Bloomberg以20億美元的估值,花費2億美元從美林回購10%的股份。而到了金融海嘯的2008年,屌絲逆襲。昔日的大股東美林面臨崩盤,結果其最大的資產就是所持有的20%的Bloomberg股份。昔日的小弟Bloomberg利用美林的危機買回所有股份自贖,當時估值為225億美元。

2004年,這家專註於數據的公司,在紐約的曼哈頓的Midtown豎起了246米的高樓。算是技術公司對金融公司的一次徹底逆襲吧。

到今天,Bloomberg全球布局192個辦公室,有1.5萬名員工,2014年的收入是90億美元。因為是私有公司,利潤無從得知。但是按常規估計,即使20%的利潤率及30xPE(這可不是市夢率Forward PE,而是一年多以前的實際PE),Bloomberg的估值也在500億-1000億美元之間,甚至超過1000億美元。這個估值已經超過華爾街的標誌企業高盛(2016年2月,高盛的市值為650億美元),這才是真正的逆襲。

如果把Instant Bloomberg當成一種社交軟體或者把Bloomberg Terminal當成一種客戶端,Bloomberg是可以妥妥得作為一個互聯網公司入圍下面的排行榜(數值採集於2015年8月),至少排入前六,僅次於Google、Facebook、阿里、亞馬遜及騰訊。將BAT之中的某家公司牢牢甩在後面。如果考慮到Bloomberg Terminal的軟硬體結合以及Instant Bloomberg的社交屬性(以上兩個均為提升估值的利器),Bloomberg成為全球第二或第三值錢的互聯網公司不是夢想。

華爾街的「約炮」名言堪稱「Just Bloomberg Me」,Instant Bloomberg如果在中國會不會也被牽連到各種打黃掃非的案件中?因為Instant Bloomberg實在太壟斷和強大了,堪比Facebook(Facebook的LYR PE可是38x),所以我說給Bloomberg更高的PE一點不過分。

然而外界經常猜測其利用Instant Bloomberg裡面的隱私信息套利。2014年10月,一家叫做Symphony的創業公司出現了,並將產品定位於替代Instant Bloomberg。而華爾街上的各大機構對於Bloomberg實在是又愛又恨,在Symphony宣布成立時,十四家金融機構聯合向 Symphony 注資 6600 萬美元。2015年10月,Symphony 宣布尋求新一輪融資,估值高達 10 億美元,投資人很可能是Google。

下圖是著名的Bloomberg Terminal,Bloomberg的現金牛及拳頭產品。經典的Terminal界面和極客的黑色背景,幾乎沒有圖像化操作的違和感;下方是定製的鍵盤及無數的快捷鍵。Bloomberg Terminal每個終端每年的起步價是2.4萬美元,根據服務級別不同,坐著火箭往上漲。

毫不客氣得說,大部分購買Bloomberg Terminal的機構,只是做裝飾,裡面0.1%的功能都沒有用到。在回答(做投行、行研、諮詢等金融崗位,有沒有什麼好用的找數據技巧呢? - 何明科的回答)中提到,為了方便其他同事使用Bloomberg數據,我不得不寫了個程序利用Bloomberg API獲取Bloomberg數據,然後推送到郵件。Bloomberg API支持多種程序,包括 Java、C、C++、.Net、COM 和 Perl,API 設計簡潔,適用於低延遲的應用程序,是quant及有編程功底的trader的最愛。

這種拿Bloomberg Terminal提升逼格的情況不僅僅在國內,華爾街也是如此。Bloomberg Terminal在某種程度上是一個人在華爾街地位的強大象徵。過去當一名I Banker被提拔到董事總經理職位時,會得到一套個人專屬的Bloomberg Terminal作為一種待遇,儘管實際的數據處理是由做牛做馬的Analyst完成的。是不是很類似國內大老闆們滿滿的書櫃?

當然除了上述的嚴肅功能,Bloomberg還提供了訂酒店、買紅酒以及搭訕等各種高級功能。比如輸入命令行指令DINE和FLY指令,可快速檢索本地餐廳和航班。如果輸入POSH,就可以得到各種華爾街和各種金融街的紙醉金迷。下圖是《華爾街之狼》的截圖。

二、大數據在金融行業的應用之一:風險定價
定價永遠是金融或者任何市場中最核心的部分之一,大部分金融活動都涉及到風險和收益的平衡。放貸,是在平衡利息收益與違約風險之間的平衡;保險,是在平衡保費收入與理賠金額之間的平衡……

大數據技術,可以讓金融產品的顆粒度精確到每個人。從而可以根據每個人過去的歷史推測其未來的財務狀況及履約情況,即所謂的大數據徵信,因此給於每個人不同的授信額度以及利率。

而擴展到保險,也是同樣的道理,保費可以根據每個人的情況不同而差異化。比如在美國買車險,根據人的婚姻狀況、車輛顏色、年齡等各種信息,都會得到不同的保費金額。而最近大火的UBI(Usage Based Insurance)更是將大數據技術的使用推向新高度。甚至通過在保險購買者的車輛上安裝檢測OBD數據的硬體設備來獲取各項數據,從而對好司機和壞司機差別定價保費。

下圖是中國UBI的先驅者車寶推出的車寶盒子,用於監控車主的使用習慣。

三、大數據在金融行業的應用之二:信息優勢
除去銀行和保險,金融的另一大類是投資,無論對於一級市場還是二級市場投資,擁有更早更多更準確的信息,會讓投資人獲得先發優勢而最終轉化為投資回報。而且大部分投資遊戲都是玩家之家的零和博弈,誰下手早下手狠下手准,就會進一步擴大利收益。這個口號真是很像奧運會更高更快更強的口號。

在獲得更早更多更準確的信息方面,大數據可以充分得發揮。常見的技術有:爬蟲、視覺技術、AI、軟硬體結合等等。在我的回答(你用 Python 做過什麼有趣的數據挖掘/分析項目? - 何明科的回答)中其實已經提到了許多案例,正是因此這個原因,許多前衛的基金找到我們團隊,希望利用大數據的各種技術幫他們建立信息優勢,而最終將信息優勢轉化為投資回報。

下面將舉出若干案例。

案例1:找到下一個獨角獸,也許是「小紅書」?
哪個VC不想在眾多的App中,先於所有人找到下一個獨角獸,用錢把公司鎖定呢?

我們利用爬蟲獲取各個應用市場及社交網路的數據,找出增裝最快的App。下圖是在各個維度找出最有價值的App,各種量級範圍內在30天/7天增長最快及評價最好榜單。(順便吹一下牛,我們這個榜單很早就發現小紅書App的快速增長趨勢以及在年輕人中的極佳口碑)

下圖是對某個App的下載量跟蹤,幫著基金做盡職調查。

案例2:在混沌的市場分歧中,找到證據儘快選對方向
在二級市場中,對一個公司的判斷分歧越大,堵對方向而且敢於下注的一方,就會收穫最大的利潤。

在搜房從廣告平台轉型到交易平台後,市場意見出現嚴重分化。在公司財報發布之前,我們利用爬蟲獲取搜房在各個城市的經紀人數量及單產搞清楚並按時監督。發現搜房經紀人的產出遠低於行業內的標杆公司——鏈家,而且完全沒有出現快速爬坡追趕到行業平均水平的趨勢。
http://xueqiu.com/3917381252/45640644

案例3:根據產品走勢,確定公司及股價走勢
越來越多的互聯網公司甚至是傳統行業的公司,變為產品導向性,一兩款產品的走勢就能決定公司的整體趨勢乃至股價的走勢,比如:蘋果、長城等等。

我們抓取社交網路上關於哈弗H6及其他國產SUV的評論和用戶購買信息,觀察其重點產品上市的走勢。同時根據用戶的購買及關注行為,做出品牌忠誠度的交叉圖,可以詳細觀察各個競爭品牌之間的替代和轉換關係。

(還沒實現的,下一步準備做)
蘋果的價格很大程度上依賴於新發布的iPhone及iPad,然而這些產品的銷量公布總是滯後或者大家是同步獲得的。如果我們監測58上二手iPhone手機的價格(【二手手機價格),根據二手iPhone對於新品的折扣率,就可以基本得到新款iPhone的銷量情況。基本上,銷量與折扣率完全正相關。

案例4:一些更加高大上的案例,大數據及人工智慧技術的完美結合
(以下案例為道聽途說,不能完全保證其準確性,不過這些案例大部分都能實現)
MIT某實驗室將聲音採集設備放到交易所大廳,通過採集交易員的吼叫聲然後做情緒分析,判斷當前交易所眾交易員的情緒,然後預測股市未來一段時間的走勢。
有海外對沖基金動用衛星拍攝照片,根據建築物的陰影長度,來跟蹤某國各地的建築情況,以此作為該國宏觀經濟的運行情況。

—————————————————————————————————————
更多文章及分享請關注我的專欄,數據冰山:http://zhuanlan.zhihu.com/hemingke


我大致看了一下各位答主的答案,有很強的專業性,當然big data是專業的領域,但實際使用場景在企業里可能是以另外的方式來接地氣,手機碼字,簡單說幾個感受
1. Big Data首先在銀行和保險里最基礎的工作是建立整合的數據倉庫,這是任何big data的基礎,然而卻不是個簡單的工作,由於歷史的原因,基本上大型金融機構的業務系統間都是分散的,或者不同體系的,這樣造成數據質量有較多問題,數據清洗,數據抽取都需要很多工作去做準備
2.基於數據倉庫的基礎,應用平台層的選擇比較多,SAS, IBM, SAP, 微軟都有類似軟體去實現,對於企業來說一般第二步是實現KPI報表,特別是固定報表的自動化工作,使得人力從中解放出來,轉而專註於分析,固定報表完善後,才是自主化鑽取和分析過程
3.再進一步是商業預測和建模分析,舉個例子可以以一個客戶為出發,分析他/她在不同渠道的信用行為,與分支行、網銀、電話里的互動,從而可以判斷其基本情況,再進行up-sales的銷售推動。與以前市場部粗放式撒網投入相比,有了數據平台分析後的投放會更精準有效
4.金融的產品特性決定了某些特殊性,比如保險產品從產品設計到購買都是虛擬數據化的,精算評估,風險評估及市場比價都是數據化過程,美國的實踐是一些保險公司與醫療機構合作能拿到客戶更精準的數據和行為模式,從而可以做更好的產品package打包給客戶,這對於健康險產品非常重要,而天朝目前健康險剛剛起步,數據類方面還有很多路要走
5.銀行方面信用只是其中一方面,現階段金融機構上線BI項目,幾乎都要優先解決我前述1-3的功能,才能有後面的預測、風控管理、信用分析等等過程

我個人從業以來的感受是,金融機構與互聯網公司有著差別很大的公司運作方式,受到內控要求和外在監管要求都不同,對於敏感數據的審慎,反洗錢反恐,客戶真實性等考慮也是完全不一樣的,秉承寧可不做也不能出錯的思路下,央媽也沒明確表態里,一些試水的思潮目前還看不到特別好的功能出路,但方向是沒錯的,做不了信用就先作營銷嘛,營銷都要管控報備的話,那就先把內部報表做了吧,或者……先把那些老掉牙的破系統整整吧!IT投入會越來越多,聽IBM,微軟之類廠商的「忽悠」也多了,互聯網+下的氛圍大家也都懂,這是大勢所趨,或多或少都要有所作為才是~


正如馬雲在一次演講中提到的:

「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」

毫無爭議的,我們已經進入到大數據時代。而金融業無疑又是大數據的最重要的應用領域之一。今天,我們就來簡單談談大數據在金融業的應用,未盡事宜,可以留言(訂閱號:洪言微語)討論交流。

什麼是大數據

關於這個,已經了比較標準的答案,就不在贅述了。所謂大數據,是指多個來源和多種格式的大量結構化和非結構化數據。有兩個關鍵點:

一是大。即數據量要非常多,數量少了不叫大數據。在實踐中,一般至少要有10TB(1TB等於1024GB,想想你32G的蘋果手機,可以裝多少數據?)的數據量才能稱之為大數據,而在類似蘇寧金融等互金巨頭,基本都沉澱了PB級(1PB約等於105萬GB,相當於3.3萬個32G的U盤,截止目前,人類生產的所有印刷材料的數據量也不過200PB)的數據量。

大數據科學家JohnRauser就提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。啪菠蘿·畢加索的定義是,大數據就是多,就是多,原來的設備存不下、算不動。這裡強調的便是大。

二是數據來自多種數據源,數據種類和格式豐富,不僅包括結構化數據,還包括半結構化和非結構化數據。意味著,即便數據量很大,但如果局限於單個領域,也不能稱之為大數據。因為大數據的一個重要作用就是利用不同來源、不用領域的數據進行非線性地分析,用於未來的預測。

比如,《大數據時代》在作者Sch?nberger的對大數據的定義就是,「大數據,不是隨機樣本,而是所有數據;不是精確性,而是混雜性;不是因果關係,而是相關關係」。這裡強調的便是數據的多樣性。

有了大數據,自然就要有大數據技術,即從各種各樣類型的巨量數據中,快速獲取有價值信息的技術,強調快,這是大數據技術與傳統數據挖掘技術的重要區別。

從巨量數據中提取的有價值信息,即是大數據在各個領域的具體運用,比如基於大數據進行客群的細分,進而提供定製化服務;基於大數據模擬現實環境,進而進行精準評估和預測;基於大數據進行產品和模式創新,降低業務成本、提升經營效率等等。

不過,關於大數據的應用,有一個廣為流傳的段子,即:

「Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .」

正如這個段子所講,很多領域的大數據應用,還只是停留在想像的層面。

金融大數據數據領域應用邏輯

說道大數據在金融領域的應用,一般認為有精準營銷和大數據風控兩個方面。

精準營銷就不說了,基於行為數據去預測用戶的偏好和興趣,繼而推薦合適的金融產品,相比傳統的簡訊群發模式,不知要先進了多少倍,這個大家都容易理解。

而對於大數據風控,其邏輯便在於「未來是過去的重複」,即用已經發生的行為模式和邏輯來預測未來。

統計學規律告訴我們,在實驗條件不變的條件下,重複實驗多次,隨機事件的頻率等於其概率。意味著,隨著隨機事件的大量發生,我們是可以發現其內在規律的。而大數據裡面包含的海量數據,就為我們發覺隱藏在隨機事件後面的規律提供了條件。

大數據風控的兩個應用,信用風險和欺詐風險,背後都是這個邏輯,通過分析歷史事件,找到其內在規律,建成模型,然後用新的數據去驗證和進化這個模型。

以美國主流的個人信用評分工具FICO信用分為例,FICO分的基本思路便是:

把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢和經常違約、隨意透支、甚至申請破產的各種陷入財務困境的借款人的發展趨勢是否相似。

FICO評分是傳統金融機構對大數據的運用,再來看看典型互金機構ZestFinance對大數據的運用,ZestFinance的客群主要就是FICO評分難以覆蓋的人群,要麼是在FICO得分過低金融機構拒絕放貸的人,要麼是FICO得分適中,金融機構同意放貸但利率較高的人。

https://pic2.zhimg.com/v2-24765f5809b31fb55b78a4cf2c6576d1_b.jpg

在ZestFinance的評分模型中,會大量應用到非徵信數據(50%-70%左右),在其官方宣傳中,提到會用到 3500 個數據項,從中提取 70,000 個變數,利用 10 個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行集成學習或者多角度學習,並得到最終的消費者信用評分。

https://pic4.zhimg.com/v2-06bba933d7851199d1af08036f867d1b_b.jpg

而欺詐風險的防控,本質上也是通過對歷史欺詐行為的分析,不斷梳理完善風險特徵庫,比如異地登錄、非常用設備登錄等行為,都是一種風險信號,建立一系列的風險規則判定集,預測用戶行為背後的欺詐概率。

幾個待解決的問題

第一個就是數據共享的問題。大數據的應用,前提是要有大數據,而在很多金融機構而言,並沒有所謂的大數據,何談應用呢。我們知道,在次級類用戶的信用評價中,非徵信數據發揮著重要的作用,但是要獲得有價值的數據並不容易。

一般來講,盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,這個無可厚非,但客觀上便產生了這樣一種效果,幾大互聯網巨頭變成了數據黑洞,用戶的數據進得去、出不來,可以為企業自身而用,但不能為整個行業或社會而用。此外,散落在稅務、公積金、海關、工商等領域的數據梳理和整合,也是漫長的過程。

第二個便是數據保護的問題。正如我在之前的一篇文章《在上市平台信而富財報中,我找到了四個行業秘密》中提到,

沒錯,數據是核心驅動力。但問題是,在數據保護和用戶隱私等相關法律框架最終明確落地之前,對互金平台而言,數據既是寶貴的資產,也可能演變成為聲譽風險、合規風險、用戶訴訟風險等各類問題的潛在來源,是福是禍,尚是未知之數。

——————————————————————————————————分界線

如想進一步了解大數據風控,可以去聽聽我最近的知乎LIVE課程《建立大數據風控的基本框架》,本次 Live 主要包括以下內容

? 傳統金融機構風控的三板斧

? 大數據風控需要哪些數據

? 為何大數據模型最終取決於業務模式

? 大數據信用風險防控的幾個維度

? 風控維度是越多越好嗎

? 大數據欺詐風險防控的難點在哪裡

? 大數據欺詐風險防控的基本流程

? 大數據風控的演變趨勢

? 其他


看到@泛景的答案被推薦上知乎日報。大數據,金融,熱門,又好拿funding,前景很好。但是我認為任何一個新興事物都需要一些不同的看法,才能更好的推動他的發展。那麼我就針對這篇文章提出一些不同的看法。

當然我不是質疑文章的質量,Twitter mood predicts the stock market 這篇文章作為大數據應用於金融的先驅者之一,具有重要的開拓意義。文章中預測結果,從數據上看是很驚人的(86.7%的準確率)。2014年的global derivatives也看到有數據商推銷類似產品。

有幸在2014年初在倫敦聽到文章作者的演講。當時也提出了一些問題。下面就是一些疑問:

1. 文章所用的數據覆蓋的時間段過於特殊,86.7%的準確率或許並有看上去那麼驚人。文章用的數據是08年2月28號到12月19號。這是一段非常特殊的時期(金融危機):

- 這段時間金融市場有明顯的trend。
基於9 week - KDJ分段來預測每日股票漲跌,也能夠成功預測將近6成。
而這樣的預測沒有經過任何的fine tuning。也就是說,如果把KDJ和其他技術指標神馬放進ANN之類,在這樣一段特殊的數據中跑出比較好的預測成功率的可能性還是很大的。

- 投資者情緒,特別是重大金融事件發生之後,也相對明顯。基於這些新聞點,應該可以取得不錯的預測準確率:
以雷曼宣布破產(9月15號)為例,其後的23個交易日,有16個交易日DJIA是負回報率。

2. 還是預測問題:會不會存在over fitting 的問題?會不會是data snooping?
我們不討論有效市場假說(EMH),以近期另外一篇文章(bitcoin and bayesian regression)http://arxiv.org/abs/1410.1231為例,文章用一眾technical indicators輸入Bayesian Regression,也對bitcoin走勢取得很好的預測效果。而technical indicators是基於股市公開的past information.

3. Twitter Mood是在一定程度上可被操縱的這個proxy預測效果會持續嗎?
比如這個知乎問答:
如何評價 Facebook 通過操縱 newsfeed 影響用戶情緒的試驗? - 大數據

就像浩如煙海的金融文獻中很多過去被經濟學家們發現的pattern現在都不復存在了。如果某些指標確實很好的預測市場,那麼投資者就會利用這些信息。市場也可能會逐步適應。

好像有人用這個Twitter 預測的策略在倫敦成立的一家hedge fund (也是11年左右),不過貌似很快改賣數據和服務。很可能基於這些考量,對該策略長期盈利能力的不確定吧。

未來Twitter Mood這樣的指標未必為成為很好的預測工具(forward-looking),但是或許會是投資者情緒很好的測度(current measure)。


在以下幾個方面都是大數據在金融領域應用的角度

  • Business Intelligence Reporting
  • Planning, Budgeting Forecasting using Data
  • Financial Analytics Dashboards
  • Align Financial Accounting Data
  • Becoming Strategic Advisors
  • Financial Planning Analysis
  • Corporate Finance Technology
  • 具體來說,比如說實時欺詐檢測,大數據徵信,社交媒體的輿情分析等等。
    就個人經驗來說,用機器學習去檢測用戶的信用記錄,監管貸款的風險,增強風險控制等方面都很有可行性。
    其他因為不太了解金融這裡指的是什麼,如果說指商業,businesss之類的,那應用前景簡直太多了。。。。。

    最後聽說一個CS PhD學長,被我認識的一個長輩忽悠去金融領域做量化交易模型,寫了一個模型一個小時賺數十萬,現在已經移民英國。。。。


    先回答一下這個題目,系統的看法我之後再詳寫。

    大數據的意義是什麼。有一個觀點,就是如果我能掌握這個世界上每一個粒子的狀態,我能夠預測未來。其實萬事萬物都是有跡可循的,只不過影響因素太多,人類的認知能力有限,所以就要提煉特徵,提取主要的影響因素。

    如果你看過《大數據時代》,你就會知道這樣一個例子,Oren Etzioni為了省錢提前很久買的飛機票,結果上飛機後發現後買的人機票價格都要低,非常生氣,憤然創立Farecast。而且,Farecast最具有顛覆性的是,Oren認為他並不需要搞清楚影響機票價格的因素,事實上也沒有人能搞清楚。他認為只要通過大數據,根據近十萬億條價格記錄,直接預測機票價格的走勢以及增降幅度。結果怎樣,用Farecast買機票,平均每張機票節省50美元,準確率是75%。這是一個令人震驚的結果,我們不再需要搞清楚「原因」,長途航線還是短途航線?時間提前好還是臨近好?大型客機還是小型客機?熱點航班還是紅眼航班?晴空還是陰天?林林種種,如果用傳統的「因-果」方法,其實根本沒有辦法得到結論。事實上,上面每一種因素都可以寫很多篇論文。

    但是有了大數據,我們從另外一個角度來看問題,當數據量足夠大的時候,我們就有了相當的預測能力。誇張一點說,如果大數據預測的不夠准,那只是因為數據量還不夠大。

    比如,2011年5月本拉登被美軍擊斃,大數據在追捕本拉登的行動中起到了決定性作用。

    這個哥們酷不酷?他的公司在15年底的估值就達到了200億美元,還是在沒有上市的前提下,全公司竟然沒有銷售部門

    這個哥們的公司,是專業的大數據公司Palantir,直接幫助CIA抓住了本拉登。

    大數據真正應用(民用),其實主要就是三個領域,傳統自控的衍生、互聯網(比如搜索引擎)和金融,因為這三者的信息化非常完善,信息結構化也非常完備,才能進行進一步的大數據處理。而其他行業的信息化過程還沒有完善,更提不上大數據了。

    互聯網的大數據應用主要在於整理,金融的大數據應用主要在於發現利潤,其中預測是一個方向。

    關於金融市場,舉個例子,量化交易,找的是套利機會,除了拼貸款、計算速度,也在一定程度上依賴大數據技術。再比如歐洲央行就層發過論文,通過twitter預測股票走勢(這個我之後會詳細寫一篇文章)。

    至於說應用「前景」,我給你舉個例子,你可以把國內能搞到的數據放到一起,來預測包括但不限於股票、股指、大宗商品、外匯等的走勢,然後從中賺錢,這時最直接的想法,第一層的想法。

    那個經典的段子怎麼說,美國淘金熱,掘金的發財是少數,賣水的反而都發財了,你還可以走第二條路,我舉個例子。

    傳統的股票社區個人認為做的最好的是雪球,採用的是聚集牛人來預測,靠的是人的智慧。這樣好了,你不用去挨個股票去傷腦筋了,你只要跟著大牛炒股就賺了!但是,有個問題,就是用戶怎麼判斷誰是牛人呢。有數據說,準確率不到20%(未證實)。其實雪球的牛人還是很多的,但是一平均,準確度就下來了。所以你從挨個股票傷腦筋,變成挨個牛人傷腦筋了。

    我也用雪球,因為是互聯網產品,很親切,不像傳統的股票操作軟體裡面的「消息」「評論」那麼套路化,也不像傳統財經媒體那樣假大空。但是用久了就發現,其實雪球就是一個股票門類垂直領域的論壇,就像我上的蟲蟲鋼琴啊,Dribbble啊這種,所以現在動力不足。據圈子裡傳,雪球還有一些數據造假的嫌疑,這個我沒有求證過,也沒有黑雪球的意思。

    不過也有人靈光一現,做了一個股票社區,叫眾雲股票,走大數據這條路線。說白了就是走賣水的路線。其實雪球大牛,從上向下分,無非三種人:1. 來自上市企業內部財務人員;2. 來自券商、投行的一級市場的操盤手; 3. 來自基金等做二級市場的操盤手;4.散戶大牛。雖然大家都是為了賺錢,但是大家掌握的信息不一樣,出發點也不一樣。所以如果用一套方法綜合這些人的觀點,也許就會提煉出有價值的信息。眾雲裡面有評級和投票,說白了你不用相信某一個大牛了,你可以形成自己的「大牛集合」,隨著這個盤越來越精準,數據量越大,結果可能就越準確。這樣好了,這就是第二條路,用大數據來服務給用戶服務的人(像繞口令)。

    其實還可以做第三層,像雪球啊,上面說的眾雲啊,其實股票服務商有太多太多了,比如牛股網、東方財富網、摩爾金融等等等等,那麼哪個平台靠譜呢?如果你是個創業者,你不妨在做個大數據分析平台,就是逐個股票,分析哪個平台(或專家)的預測更准哦?不是好多專家每天電視上夸夸其談么(是的,我說的就是我很討厭的葉檀),不妨都抓下來,大家pk一下啊。這個思路就像去哪兒網起步那樣,同一間酒店的房間,把不同平台上的價格爬下來放到一起,讓用戶選最好那個。今天又知道一個網站叫「貸羅盤」,走的就是這個路線,把所有的P2P平台放到一起,把各家的基本情況,收益率,口碑啥的放到一起,讓大家來選擇。

    我覺得,就像盜夢空間一樣,第三層下面一定還有第四層,大家自己開腦洞吧,我不想想了。


    大數據技術在金融行業有哪些應用前景?

    如果要聊這個話題,我個人覺得應用前景不是想出來,應該從實際的生產系統的痛點著手,不是為了大數據而上大數據,而是想著現階段一些問題,能否利用大數據找到合理的解決方案和相應的技術來解決實際問題!

    金融行業,一般的,數據量大的

    銀行首當其衝,一般的銀行都有100-200個系統吧,最重要的,也是數據量最大的,應該是銀行的發卡系統。其次徵信數據現在也越來越重要。對企業做徵信,基本上不需要什麼資質,但是對個人做徵信,需要國家相關部門發的拍照的,不是想做就能做的。

    其次是應該是證券和基金行業數據量較大,證券行業現階段一般的數據應該能達到20TB-30TB這個量級

    金融行業系統現狀:

    隨著業務的發展與規模的擴張,數據呈指數級增長,各類IT系統的數據量已經非常龐大冗餘,每日還有大量的增量數據,有包括,日誌數據,交易數據需要存儲和處理。

    首先是數據量龐大。現在有存儲設備已經無法支持這樣大級別的數據量,存儲資源緊缺,存儲擴展花費非常高。

    其次是現有的系統計算負載搞、延遲長、現有的系統在運行中跨歷史的範圍查詢延遲長,一次計算的數據量大,計算和存儲資源都存在瓶頸;大範圍查詢時,對生產業務影響較大,例如:銀行的交易流水查詢,個人明細下鑽等,證券的持倉分析、對賬流水情況、區間查詢等應用,嚴重影響日常業務的正常運行。

    同時,歷史數據服務請求帶來的額外工作負載。歷史數據查詢時需要的額外將離線的歷史數據導入,再等到系統資源貢獻時進行查詢,不僅效率低,而且工作負擔繁重,也極易出錯。

    最後,現有系統資源已經嚴重緊缺,CPU負載搞、存儲空間不足,已經影響到業務的正常發展。

    由此背景下,本著不斷發展,不斷進步的原則。現代IT系統希望能夠建設一套具有高效數據處理能力,同時兼具性價比的新平台。

    調研結果發現,在解決分散式存儲,計算問題上,hadoop技術近年來得到了廣泛的應用。Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。它是正對大規模分散式數據而開發的軟體框架,目前已經成為企業管理大數據的基礎支撐技術,是解決企業數據中心大數據存儲、大規模數據計算、快速數據分析的優秀基礎數據平台。

    現代物聯網、多媒體、移動互聯網時代,hadoop最適合用於解決由於數據爆髮式增長所帶來的傳統架構下存儲和計算瓶頸的問題。

    Hadoo技術發展迅速,同時也有眾多國內,外廠家為企業客戶提供了的成熟度一站式的大數據平台產品,個別技術領先的廠家也已經將hadoop平台用於了金融客戶的數據倉庫系統,經調研,恆豐銀行、民生銀行、平安銀行等金融機構,就已經在hadoop技術解決現有DW存儲、計算、分析等問題。

    首先是數據類型支持,Hadoop平台擴展了企業數據平台對數據處理類型的支持。傳統的數據倉庫僅僅能夠處理結構化數據,而對半結構化、非結構化數據的處理,只能依賴於Hadoop平台,例如:來自新聞的個股/主題新聞聚合、智能研報,情感指數,熱度統計、事件研究、主題跟蹤和發現等等。

    其次是數據處理能力方面,Hadoop平台使得企業數據處理平台的處理能力變得更強大,它能夠處理從中小數據量到大數據量的數據。能夠作為傳統數據倉庫之前的數據統一存儲和計算平台,將大規模的數據先進行清洗、計算、建模、匯總等,並將最終的精細化數據傳遞給數據倉庫。例如恆豐銀行就已經將數據倉庫中複雜的、高負載的拉鏈表程序遷移至Hadoop平台。

    同時,在業務應用的支持方面,相比於傳統的數據倉庫平台,大數據平台可以完成更多的體現企業特質的有價值的應用,例如:通過數據挖掘、機器學習演算法和模型,結合相關數據,完成財經新聞搜索、新聞類型分析、新聞聚類、情感分析、知識圖譜等等。

    技術架構上,基於x86伺服器集群的Hadoop平台,通過橫向擴展的方式,線性擴展存儲和計算資源,避免基於傳統IOE架構的下只能進行基於硬體資源的縱向擴展。從而避免計算資源的瓶頸和IO資源的瓶頸。


    最後,僅花費40%左右價格,便可以達到甚至超越傳統IOE架構的性能。在性價比方面也極具可行性。

    Ps:市面上的hadoop產品很多,既然花錢購買了,就要買最好的,各位看官回去好好仔細斟酌篩選。

    點贊的都是懂大數據的,O(∩_∩)O哈哈~


    我來談談大數據在證券市場中的一個應用吧,也可以參看我的一篇專欄
    大數據在金融市場中的應用-利用Twitter用戶數據的情緒預測金融市場未來漲跌 - 金融物理學(Econophysics) - 知乎專欄

    各個金融市場,包括股票市場的預測問題,一直吸引著學術界和商業界極大極的興趣。但金融市場是否真的可以預測?傳統的金融學是建立在隨機行走和有效市場假說的基礎之上。而根據有效市場假說理論,股票價格的變動取決於新出現的信息(新聞),而非取決於過去或未來的股價。而市場上新信息的出現是不可預測的,所以股票價格是不可預測的。

    但是近年來出現許多新的工作開始挑戰有效市場假說的合理性,如從行為金融學的角度。許多研究也表明金融市場並不是一個完全的隨機過程,在一定程度上,也許金融市場存在著一定的可預測性。比如,我們確實無法預料市場中新信息的出現,但卻可以從社交網路媒體(Twitter,Facebook,其他的博客等)抓取出一些徵兆,利用這些徵兆,可以在一定程度上預測經濟和社會中未來情緒和信息的變化。實際上,已有這樣的工作在經濟和社會中發揮作用,比如利用在線網路聊天數據預測圖書銷售,利用PLSA模型從博客中抓取情緒化信息來預測電影票房,利用Google的搜索查詢來預測流感的早期傳播和傳播速率等。

    儘管我們知道新信息對股票價格的變化有著很大的影響,但實際上公眾情緒可能在股票價格變動中扮演了更為重要的角色。在最近發表於Journal of Computational Science上的一篇論文中Twitter mood predicts the stock market,印第安娜大學和曼切斯特大學的研究人員利用Twitter上的用戶發表的tweet內容,通過兩種情緒分析模型,分別是OpinionFinder和Google-Profile of Mood States (GPOMS),來抓取和分析公眾的情緒變化。其中OpinionFinder是將人的情緒區分為正面和負面兩種模式,而GPOMS將情緒分成更細緻的六類,分別是Calm, Alert, Sure,Vital, Kind和Happy。

    利用格蘭傑因果檢驗(Granger causality test),作者發現公眾情緒和道瓊斯平均指數(DJIA)之間存在著明顯的關聯,且公眾情緒的時間序列可以作為股指變化的自變數。尤其是GPOMS中的Calm指標,在提前2天到6天的範圍內,可以對指數變動做出有效的反應。因此,從某種程度上講,公眾情緒某些指標可能可以有效的預測未來股價的變動。

    基於這樣的猜測,該文作者在一個自組織模糊神經網路模型(Self-organizing Fuzzy Neural Network [SOFNN] model)的基礎上,將公眾情緒時間序列作為一個自變數輸入到該模型中,通過這樣的改進,使得預測的效果有明顯的改進。該模型可以有效地預測DJIA指數收盤價的漲和跌的方向,其準確率高達86.7% ,而預測失誤的平均百分比下降6%。

    我個人的觀點是,如果單純的基於股價的歷史價格,我們基本上是不能預測其未來的走勢的。但是股價從短期說,本質上是由投資者的交易行為所決定,而交易行為受投資者的情緒影響很大。在此前,我們很難實時的獲取公眾情緒狀態,其獲取的成本也很高,而隨著社會化媒體的繁榮,實時獲取和分析公眾情緒狀態變得更為容易,我這裡介紹的這個工作就是一個有效的嘗試,雖然對於真正利用它來預測證券市場的行為還不太現實,但至少為此開啟了一扇窗,為這樣的預測提供一種可能性,同時也為社會化媒體數據的未來發展和應用提供一個方向。


    說一說在P2P金融行業的運用,整理了自己之前幾個相關答案供參考。
    1、授信。
    微眾銀行與普通銀行在徵信方面有什麼差異? - 互聯網
    宜人貸極速模式10分鐘審批,是怎麼做到的? - P2P

    2、風控。
    1)反欺詐檢測

    @梁川

    實時風控引擎准實時風控引擎
    實時風控主要在交易過程對交易過程進行實時監控,一個典型應用場景是甄別釣魚、盜卡風險。
    准實時風控典型應用場景是在T+1結算時候,對商戶洗錢、跑路進行甄別。
    實時/准實時風控引擎一般採用規則引擎+複雜事件處理(CEP)。

    複雜事件處理(CEP):開源的方案有Esper、Storm、Spark等,商業方案有Apama。了解複合事件處理,百度文庫有篇深入淺出複合事件處理

    2)大數據催收(根據大數據技術描述出的個人知識圖譜和用戶畫像而進行的大數據催收)
    小額貸款有什麼漏洞可以鑽么,可以讓我們貸款後,不還錢或者是拖著,而又不會讓小額貸款公司去將你告法院么? - 金融

    3、流動性管理。
    大數據在資金管理領域怎麼應用? - 大數據

    最後再補充一個技術貼:
    如何用大數據軟體分析金融數據,目前哪個領域最有分析價值,以及發展方向? - 數據分析


    我在美國的銀行做business analytics的。

    在回答這個問題時,首先,要做一個分類,當你說金融,你指的什麼,二級投資交易市場(最典型的股市、投資銀行)還是消費金融(最典型的商業銀行、P2P),這兩塊都很大,但又截然不同,特別是從業者都算是金融行業的數據分析,但確是完全不同的兩撥人。我是做消費金融的,消費金融又分為 Spending、 Lending、investing 和 saving四大塊,我來談一下消費金融中lending業務中數據分析的運用。

    1. Credit Risk: 這裡面有一整個周期,放款的時候預測還款概率以確定是否放款,到了賬上不僅要繼續預測還款的概率,還要預測提前還款的概率,因為提前還款就沒有利息賺了。如果是信用卡這樣的revolving loan,還要預測增加信用額度他會不會用,不用就別增加了,資金是要錢的。如果出現壞賬,要預測如果追賬或者如果不追賬,還款的概率是多少,以確定哪些賬戶應該採取什麼樣程度的追賬。另外如果是有抵押物的貸款,比如車貸、房貸,還要預測一旦壞賬了抵押物的市場價值。

    2. Marketing:同樣按照生命周期分為acquisition和retention兩部分,acquisition主要就是response model,因為信用產品的特徵導致很多時候是在做direct marketing,那麼什麼樣的客戶收到廣告後轉換率最高,這個就需要用數據分析建模來預測,轉化率低的別給他發了 浪費錢。Retention是客戶到了賬上之後預測哪個客戶不高興,有可能會流失(refinance with other lender),趕快慰問一下或者降低下利率。

    3. Fraud: 分為First Party Fraud和Third Party Fraud。First Pary包括惡意開戶借款早就想好了不還錢,也包括信息,比如收入造價。Third Party Fraud就主要是身份冒充或者是信用卡被盜這些。Fraud Prevention運用數據主要是利用以前的數據建立classification的模型,對新的transaction進行scoring,對於被認為fraud的概率很高的transaction進行處理,比如信用卡的暫時停用或者打電話給取款人進行確認。Fraud的預防和customer experience之間需要找好平衡,利用scoring model 判斷高危交易就是找到這個平衡的利器。

    4.Operation: 畢竟是service行業,operation裡面也有不少數據分析,比如call center要做forecast,預測每天甚至是每半個小時的電話量,可以合理安排人員。周一電話量一般是最高的。

    如果想做金融行業的business analytics,可以考慮去美國讀一個Business Analytics(MSBA)的碩士,建模那些東西,自己學還是挺麻煩的,有興趣的話可以看下這個網站: http://www.analyticsguides.com 。專門介紹business analytics專業的。


    2015 年對於銀行和金融業公司來說是一個開局之年,在這一年中他們繼續用大數據來幫助他們進行業務和組織架構的演進。對於銀行來說,大數據主要還是圍繞提高客戶情商,減少風險,符合監管。在可見的未來處於第一梯隊的大型金融集團都會繼續圍繞大數據展開各種動作。在低端市場,一些中小型的公司(經紀、資產管理、區域銀行、顧問等)能夠更快速的適應大數據平台(雲平台和本地部署),這些都幫助他們構建能夠支撐複雜業務的大型系統,同時這些系統也都是比他們大的競爭對手所必須面對的。這塊市場因此能夠快速成長(對比那些大銀行所關注的長期而規範的和成本為主的項目)能夠馬上看到更加直接收入貢獻和戰略(概念/實驗)項目 。


    對於大數據軟體提供商和服務提供商來說,市場已經到了一個銀行業必須接受的爆發點上。大家都要在高可用、大規模、內部管控和面向客戶活動方面有一些措施。同時,這些內容和我們看到的雲技術的發展路線有所不同。下面給大家展示幾個大數據技術發展方向的預測和這些發展帶來的變化如何影響金融服務業:


    機器學習會加速發展 應用在反欺詐和風控領域

    數據科學家人才本身的供需關係將會朝著更加平衡的方向發展。在反欺詐和風控領域將會使用更加成熟的技術來改善風控模型本身,並且加速發展實時分析監控和預警。這些快速的發展和變化會來自於業界領導者的傳授和在現實世界的實踐與應用。


    領頭羊和落後者之間差距會越來越大

    每一年我們都能看到銀行為了適應新技術而加大油門快速前進,同時在組織架構方面非常保守。業務和用戶在2016年都將要激增而且會非常多變,結果就是在廣闊的市場導致更強的可觀察到的和可衡量的業務大量回歸(不只是成本的下降)。


    數據治理和合規性方面會更深入集成到大數據平台

    為了找到一個能夠在合規性方面提供更強大功能的數據解決方案,許多銀行都購買或者開發了單點解決方案,再不行就是用已經運行很多年的傳統解決方案平台,但是這些解決方案都無法應對現今大規模爆發的數據。幸虧現在有越來越多的Hadoop改進方案來進行數據治理,改善血統和提供數據質量。更重要的是,這些新數據平台能夠超越Hadoop平台達到傳統數據存儲的效果,並且做的更加大容量,更快,且在細節上達到合規性要求。此外在2016年我們將繼續看到為融合監管和風險控制(RDARR)中心服務的叫做「數據湖」方面的更多進展。


    金融服務業在利用物聯網數據方面不斷拓展

    這一波浪潮正是抓住大數據吸引力炒作/發力的好時機,同時金融服務應用的為題也很多。物聯網數據在許多行業應用中已經實踐(電信,零售,製造業)這些行業驅動了物聯網的數據的需求並且處於壟斷地位。那麼對於銀行來說物聯網數據是否能夠用在ATM或者移動銀行業務中?這些都是在明年的多渠道實時數據流中值得探索的。例如實,多渠道的行為可以使用物聯網數據對銀行零售客戶在正確的時間點提供適時的報價 。或許我們反過來想想,金融公司可以將自己的服務內嵌植入到用戶的某種「東西」或者設備或者其他和客戶接觸的點上,不在那些交易設施上,而是在家。


    貿易,投資組合管理和集成成為軟體供應商的顯著特點

    鼓吹與「從大數據獲得更多利益」相關的新聞頭條越奏越響。最終,這些觀點都將被金融終端用戶、可見利益(或者不可見、無法衡量的利益)還有易用性等因素決定。大數據平台的建設核心將要提供的就是一個橋樑就是大數據,並且將其銳化突出。我們已經看到了市場數據供應商最喜歡的動作,但是並沒有其他商業用戶的應用,那麼朝這個方向努力(CRM,OMS/EMS等)。


    風險控制和監管數據管理將成為大數據平台的重要任務

    增長和用戶中心相關的商業行為將穩坐戰略合作列表第一的位置,會有很多的公司會把未來的戰略與大數據關聯起來。不論你的銀行是不是發達的數據驅動的公司不斷變化發展的規律還是面對大量的挑戰,朝著預測發展的分析都是一條漫長的道路,同時也是一個必要的需求和被公司首席高官確認有意義的事。除非老天開恩或者監管機構放鬆要求,否則風險控制和監管仍然是2016年所有金融機構的首要挑戰。


    金融服務業採用Hadoop將會大大增加

    大家在不同的時間使用了相同的技術之間並沒有任何差別。 「長尾」效應還很遙遠,但是中小型銀行將會從Hadoop的以下幾方面獲益:

    • 供應商將整合整套集成解決方案,服務,平台

    • 用戶社區持續成長,並能提供一個基礎參考作為突破口

    數據降載成為當今Hadoop一個「經典」應用(相對來講),同時許多大數據專家繼續再更大的數據集合上前進,未來將會有更多的普通人加入到大數據應用的行列。


    「大數據終結app」理論在市場得到越來越多認可

    看到更多的銀行作為證明概念來運行這些應用,這些實踐將檢驗軟體所提供的「完整解決方案」的基礎。前端到終端和後端都應進行整合,而不是分割。大家可以看到市場迅速的從服務集成擴展到後端,這將迎來銀行業的關於如何定位「大數據軟體」和「傳統軟體」 的激烈討論。


    商業風險評估與性能相關的大數據的行為迅速增加

    隨著越來越多的高可靠大數據平台的出現,安全專家,深層次的豐富元數據,集成LEI和其他標準成為一個嚴峻的現實。傳統的數據的方法是有效的,只是需要一些思想來充分利用新的解決方案-例如處理架構和數據建模。更深一層,隨著大數據工作在前台,市場營銷和風險控制方面形成的工作模式,我們能夠看出這裡面在辦公的中後期業務上有明顯和巨大的數據重疊部分,這些重疊能夠很容易的應用在現有的數據湖中。我們預計,在中等的商業風險評估與性能相關的大數據的商業行為將迅速增加。更進一步,我們將看到關於如何切實帶來後台功能的更深層次的交流(合作等)。


    銀行開始採用零售業務方式來獲取和增進對目標客戶的了解

    有一些純B2B的公司利用大數據來改善客戶體驗,但是大部分時候他們處於B2C業務的不利地位,信用卡業務,銀行零售業,財富管理或者借貸業務。一個簡單的跨界就是基金的配置(大型共同基金經理)從財富顧問網路和經紀人相互作用來改善數據收集的過程,同時也提高產品利用率。一旦被從客戶群中移除,這對於共同基金通常是非常重要的,所以加強對於機構客戶的理解顯得尤為重要。


    誠信仍是許多大型銀行的使用新供應商的主要因素。

    當你展望2016年,將會有很大的來自管理層的推動力,來把大數據項目移出IT然後放到商業用戶手中。為了達成目的,我們需要考慮架構,功能,速度,可用性,安全性等問題。與往常一樣,採用傳統的嚴謹性以全新的架構布局並沒有改變,傳統架構將的成本和緩慢的進展將開始在新的Hadoop表現和融合的大數據的架構過程中逐步展現。 更進一步,將來一定會有更加強大的工具來處理現有的工作,例如數據治理,數據質量,參考數據管理,標準。


    針對平衡開源和供應商解決方案將展開長期討論

    不是所有的開源項目設計之初就符合機構客戶,開源項目傳遞了一種敏捷性需求開發—每個銀行的需求都在不停的變化,為大數據找到合適的點才是更加重要的。

    總而言之,2016年的市場將會不斷前行,混亂隨之減少,同時會使大數據的海洋變得風平浪靜。


    CIO:2016大數據在金融領域的應用趨勢

    原文:Top 10 Big Data Trends in 2016 for Financial Services
    譯者:袁璞 ?E店寶大數據架構師,關注高性能或可用架構、大數據技術、機器學習。


    作者:王濤
    鏈接:大數據在金融領域是如何應用的? - 王濤的回答
    來源:知乎
    著作權歸作者所有,轉載請聯繫作者獲得授權。

    作為SequoiaDB資料庫,我來分享一下我們在金融行業的經驗。

    近線數據平台

    傳統的銀行IT架構分為在線系統、近線系統與離線系統。其中在線系統主要處理面向最終用戶的交易請求;而近線系統則針對一段時間內的歷史數據進行存放和進行溯源查詢;最後,離線系統則對若干年前的數據進行統一歸檔,僅在特殊情況下會被恢復進行使用。

    但是隨著大數據技術的普及,銀行對全量歷史數據的認知有了顛覆性的變化。如何從歷史數據中挖掘其潛在價值,如何將離線數據在線化以滿足監管部門的需求,是很多銀行開始利用大數據技術解決的問題。

    SequoiaDB利用其橫向擴展、支持標準SQL、以及雙引擎的機制,能夠在存儲海量歷史數據的同時對外提供在線的查詢與分析能力,這就使得銀行可以考慮將傳統的離線數據做到近線化,將原本冷的數據有效地使用起來。

    客戶使用SequoiaDB提供對外的ECIF、回單查詢功能,使銀行客戶能夠在櫃檯、網銀、手機銀行上隨時隨地查詢開戶以來全部的交易歷史。同時,該平台可以提供司法查詢的能力,使銀行IT部門不需要為了複雜多變的查詢請求,在歷史帶庫與資料庫之間疲於奔命。

    在一個典型的近線數據平台中,可以劃分為歸檔區、固定查詢區、自由查詢區以及沙盒區等多個存儲區域。其中,歸檔區負責對原始數據從ODS進行抽取並歸檔;固定查詢區負責從歸檔區抽取數據並進行加工與索引,以滿足固定類型高並發對外互動式業務;而自由查詢業務則使用沙盒區作為預覽與SQL驗證區域,對用戶自定義的查詢進行初步驗證,驗證成功的查詢會被非同步提交至自由查詢區以批處理的方式生成報表。

    內容管理平台

    隨著網路技術的漸漸普及,越來越多的銀行開始將傳統渠道向互聯網與移動端靠攏。隨之而來的,為了滿足監管業務的需要,例如針對遠程開戶等業務,銀行需要開始提供「雙錄」能力,對用戶的音頻與視頻數據進行存儲。而傳統EMC、IBM提供的企業內容管理系統以小機加高端存儲硬體為基礎,對於僅存票據證照等相對小量的圖片存儲還可以勉強滿足需要,但是當存儲類型擴展到音視頻等領域,其開銷將會成為天文數字。

    SequoiaDB所提供的分散式、雙引擎以及對象存儲的能力,天然為海量的音視頻、影像、證照等內容提供了分散式存儲的能力。SequoiaDB可以使用高存儲密度的PC伺服器替代傳統的小機加高端存儲的配置,能夠使用戶以1/5的擁有成本,提供更高的存儲空間與更高的吞吐能力。

    在SequoiaDB內容管理解決方案中,資料庫除了提供基本的記錄與文件的讀寫操作外,還提供了內容管理平台的批次管理、版本管理、流程式控制制等一系列後台管控能力,為與用戶中間件對接提供了最大便利。


    360度用戶視圖

    如今,通過大數據對用戶行為進行分析,已經成為各行各業對大數據應用場景的基本認知。不論是金融、政府、運營商、製造、甚至互聯網等行業,都在考慮如何使用大數據技術,藉助用戶行為分析、第三方數據分析等方式,進一步完善已有的CRM體系,將傳統的靜態數據向360度用戶視圖轉移。

    我們在另一個銀行客戶中,根據每個用戶的歷史交易行為和近期各個渠道上的交互行為進行偏好標籤和畫像,基於動態的信息評估出用戶對於不同投資收益和風險的產品的偏好,從而有針對性地推薦理財和代銷的51種基金產品,有效提升客戶在網點的體驗和網點營銷效率。由於「客戶-產品「本體對象的基礎屬性包含隨時修改的實時數據類型,營銷所需的標籤也需要不停修改和優化,SequoiaDB的動態Schema特性很好的支撐了實時營銷系統中海量的、並且不斷變化的對象/數據描述需求,同時可以提供高性能的數據訪問能力。該項目通過在支行排隊機列印的憑證上添加理財產品推薦欄目,使銀行前台工作人員可以有針對性地向最終用戶推薦理財產品。在2014年3月至8月短短半年的時間裡,省分行整體的推薦營銷成功率從千分之二上漲到百分之三,總共達到十倍的增幅。


    大數據在現在感覺已經變成了一個時尚。人人好像不說一點雲計算大數據根本都沒法開口了,然而在現實中,真正在做「大數據」的我覺得並沒有多少,我以銀行業來說一些看到的數據挖掘分析的例子。

    銀行處處都在和數據在做打交道,而且做得越大越好的金融機構越能夠駕馭和使用這些數據,用流行的話說叫數據驅動經營。所以其實銀行到處都在進行著數據分析,現在真正做成系統,模塊化,數據量能夠到海量級別的,我覺得銀行內部的CRM營銷和統計,FTP的定價,徵信系統(自己做的不是人行的那個),各個大行基本都已經達到了大數據的量,也都在做有關大數據的事情。

    例如徵信,有的銀行已經能夠抓取社會上各類有意義的信息進行記錄,例如搜房網上的各地各樓盤的房價、人行徵信、法院執行紀錄、工商局信息、企業上下游現金流等等,然後通過這種信息對個人企業進行分析計算,對超出常理的數據進行標紅警告,便於內審人員快速識別風險。

    再或者把客戶的pos消費記錄,企業上下游流水清單,稅務信息等等整個對企業客戶進行現金流測算。
    再或者對客戶信用卡還款時間,轉賬時間等等來判斷客戶手持現金或者回款時間,把推薦的營銷日期時間推送給維護的客戶經理等等。

    總而言之,就是把數據的分析和整理應用到整個金融的體系中去,而不是空談大數據。比起爭論數據分析還是大數據應用而言,我覺得找到客戶或者內部員工的一個痛點,解決它,再考慮擴展是一個更為腳踏實地的方式。

    當然大數據因為數據量大(百億以上)所以進行分析之前需要有配套的數據分析工具和架構,還需要有符合倉庫要求的數據源,而這些東西要慢慢的搭建和準備。傳統行業的數據是有的,但是很多並沒有納入到整個大數據的框架中去,這需要做一些工作,需要各個部門配合,審核,還有一些時日。但是這種以數據為基礎進行精細運營,把數據融入商業運營的趨勢是不會改變的,慢慢來吧。

    最後因為這個問題是問大數據而不是數據挖掘,我其實是偏題了,我自己對真正的大數據有一個疑問。真正大數據是根據數據的聯繫直接給出一個結果,典型的例子就是根據消費大數據,超市把啤酒和尿布放在一起直接增加了銷量。問題是在現實世界中,技術的結果和業務的結果矛盾,就例如超市其實根本沒法合理解釋為什麼尿布啤酒很多人一起買,那貨架到底該不該調整呢?


    轉一下我的另一篇答案:

    雖然不情願,還是轉一下我們競爭對手的一篇科普文:http://hortonworks.com/blog/modern-financial-services-architectures-built-hadoop/

    我覺得比較有意思的幾個應用場景:
    1. 銀行或者信用卡公司的詐騙分析。比如根據異常消費行為發現信用卡被盜。

    2. 保險公司的個性化服務。這個很有潛力。一個常見的 是根據GPS數據預測車禍概率,調整保險價格。

    3. 投資機構預測單個公司,某個行業,或者宏觀經濟走勢。這個想像空間就更大了。

    4. 其他的還有高頻交易,借貸風險控制

    另外我需要更正一點,Spark是Hadoop生態系統的一部分,而不是和Hadoop並行的概念。Hadoop可以被理解為「數據中心的操作系統」,可以類比為Linux。Spark是運行在Hadoop上的一個計算引擎(MapReduce是另外一個),可以勉強類比為運行在Linux上的R或者SAS。


    說兩句銀行大數據的事,因為今年要做風控大數據挖掘方面的項目,以前我們說到大數據基本是基於某次分析或者某個模型的改造,這次是想平台化系統化的做。

    首先,對傳統商業銀行來說,大數據的意義主要還是提升數據意識或者數據文化,一把手意識到數據有價值就不錯了,跟帶來真金白銀還有一段距離。

    其次,對於數據從業人員來說,營銷、風控、渠道、運營都是用武之地,數據挖掘、數據可視化是常用技術手段。

    最後,大、小、厚、薄,所有這些形容詞都應該被無視;當然,忽悠人的場景除外。

    ps: 乙方宣傳的銀行大數據應用,和甲方實際做的東西,基本是兩碼事,類比發paper和做系統吧。

    更多文章和討論見本人的公眾號:


    講故事,畫大餅忽悠。
    大數據分析的是一種未來的趨勢,況且現階段技術層面無法保證通過各種渠道收集來的用戶個人有關的原始數據沒有雜質,甚這雜質都是干擾因數.通過互聯網收集的數據雜質根本無法被有效排除.雖然通過實名制認證,綁定銀行卡,QQ空間圈人.綁定手機號等各種手段收集確定性的數據.
    但是,至今互聯網中存在的盜號問題仍然無法有效解決,比較可怕的是,明明被盜用的事實發生,卻因無法自證而不能取回帳號.
    在事實發生前,預測未來的事情,如果不能保證足夠準確,對被不利預測的個人是個災難性的打擊.
    中征都不敢預測未來,在人民銀行徵信中心提供的報告里只記錄了發生的事實,不帶有任何主觀性的評價判斷.
    接下來我們需要質疑的還有一點,騰訊的徵信和阿里巴巴的徵信的基礎數據都來源於自身公司通過互聯網渠道收集的數據,如何通過制度保證這些數據非偽造數據或者篡改數據?亦或存在一些通過一些技術手段規避相應風險?而保證不會被諸如淘寶黑產之類的地下產業的干擾.

    但是如果是僅僅是過去的數據中讀取信息,充其量只能是很大的數據,很大的數據的篩選技術和大數據技術還是有區別的.

    個人不看好互聯網巨頭做徵信,無論淘寶或者是騰訊。
    一次大事故,也許就要出大事。


    談「應用」的問題如果不落到實處的話很容易就會變成空談概念。我們在做的就是嘗試將大數據、機器學習等技術與金融知識相結合,希望能為研究員及基金經理提供智能化的投資研究工具,算是目前非常典型的技術與金融領域的結合。


    這裡以我們自己的產品為例談談具體是如何應用的。


    首先是大數據。跟以上幾位答主專註於大數據領域的應用不同,大數據對於我們來說其實更像是實踐人工智慧技術的地基,只有鋪好了豐富的、可利用的底層數據,機器才有足夠的學習和訓練素材。在金融領域,我們更了解像萬得這樣的傳統數據終端,但萬得提供的以宏觀行業數據為主,而在互聯網時代有大量同樣具有投資參考價值的新型數據,比如搜索熱度、社交網路的發帖和評論、電商交易額等等;同時也存在著大量類似圖片、視頻、音頻這樣的非結構化數據亟待被處理成可供使用的結構化數據。


    相當於我們面前是一個豐富的原料寶藏,裡面有足夠的數據(即足夠的信息)供我們分析,解讀,進而挖掘出潛在的投資機會。我們做的第一步,就是通過各種方式——網路爬蟲也好直接砸錢購買也好,把它們儲備進我們的庫里。


    下一步,就是利用機器學習的演算法對這些數據和信息進行降噪、去重,對它們的重要性進行排序;引導機器反覆學習研究員和基金經理的投資思路,讓它們了解對我們的目標用戶真正有價值的信息是什麼,最終只把這部分信息保留和呈現出來。


    我們的後台顯示,每天有成千上萬的公司公告、新聞進入資料庫,到了公告季研究員們甚至連著熬夜都消化不了這些資訊。我們在做的,就是利用智能技術去篩選這些內容,將研究員每天要閱讀公告保持在100-300篇,極大提高他們獲取有效知識的效率。


    這是第一步。


    人工智慧還被用於打造專屬金融領域的智能搜索引擎。我們通過足夠多的反饋數據教會機器去識別搜索著的意圖,最終實現根據研究員的偏好和擅長的投資類型進行相關信息的推薦。比如搜索「螺紋鋼」,我們的產品會給做期貨現貨的研究員推薦差價圖和大宗商品的價格、庫存;同時給做基本面的研究員推薦相關的上市公司。總之就是保證單位屏幕面積內出現的都是研究員或基金經理所最需要的投資資訊。


    還有利用人工智慧技術勾勒出上市公司的關係圖譜。蘿蔔投研的知識圖譜可以很快地整合出上市公司或整個行業的上下游、合作或競爭對手、子母公司關係、股權關係、對標關係等圖譜。


    比如下圖,我們可以很快整理出萬科企業股份有限公司的股東持股比例,以及萬科所投資的子公司及其潛在業務。這對之後的分析和決策都能起到很大的指導作用,也許容易被他人所忽視的投資機遇就隱藏在其中。

    目前在金融領域,即使是在應用大數據或者人工智慧技術上最領先的產品,也只處於最初級的階段。我們更多還是將一些雜活累活交給機器去干,讓投資者有更多時間去思考更有價值的問題。也許有一天,當機器可以完全模擬研究員和基金經理的思維方式和投資邏輯,他們真的能取代人類投資者來做投資,誰知道呢?

    針對「以智能技術和大數據驅動基本面投研」這個話題,我開了一叫「智能投資俱樂部」的專欄,會持續發布一些大數據團隊出品的投資乾貨,有大量真實的行業數據、對知識圖譜等技術的應用還有層層推導的投資邏輯,歡迎各位關註:知乎專欄。

    目前已經發布了:
    上海房價的今生與來世(上)知乎專欄
    如何層層解析汽車數據,發掘投資機會 知乎專欄
    生豬產業鏈背後的投資機會 知乎專欄

    歡迎批評指正。


    大數據徵信,網路痕迹為你我畫像

    你可能沒想到,填表格時習慣用大寫字母還是小寫字母會影響你的信用評估。還有在支付平台里你的團購次數,旅行目的地選擇,這些看似不相關的數據都可能影響你的信用評估。


    大數據時代,徵信行業有了諸多改變。用戶不再是蒙著面的神秘顧客,只要用戶在網路上留下痕迹,徵信機構可以從一個個碎片信息中勾勒出每個人的徵信畫像。

    大數據到底能怎樣改變徵信行業?

    首先,數據 變成海量的。,此前傳統的徵信公司可以用到的變數是幾十個,但國外有的大數據徵信公司,已經可以使用7萬個變數。用戶的閱讀習慣、旅行目的地、社交關係,這些傳統徵信難以統計的領域都被計入其中。要知道,只要分析邏輯是對的,輸入的變數越多,輸出的徵信結論就更加精準。

    另一方面,大數據徵信讓徵信主體、被徵信的個人,在金融活動中變得更加從容。舉個例子,以前很多在央行系統裡面沒有徵信報告的人,比如藍領工人、學生、自由職業者,可以通過大數據徵信得到對信用評估報告,從而也可以接受金融服務。

    互聯網企業做徵信的不足之處

    但是互聯網企業做徵信,也有不足之處。首先是線下數據它們拿不到。我們能預見,互聯網金融的下一步創新是場景消費,就是真正進入到大家的消費生活當中去。比如我要裝修了,能不能做貸款?我要去旅遊,能不能做貸款?兩個年輕人想辦一場精彩的婚禮,能不能也申請到貸款?這些都是線下消費,而線下消費的數據未必在線上體現出來。所以從這個角度講,互聯網企業的數據數據可稱之為「大」,但是不「全」。要想真正起到徵信的作用,互聯網企業還需要補充更多的外部數據、線下數據。

    如何保護個人的隱私權不受侵犯

    現在徵信公司在信息採集過程中出現了一些違規情況。比如說,任何信息採集必須拿到用戶授權,也就是徵得用戶同意才可以採集。但是在執行層面卻出現了這樣的情況:第一,未經用戶授權,徵信機構就採集信息了。第二,用戶只授權一次,徵信機構卻持續採集信息。第三,說好採集信息做什麼用途,但採集完之後徵信機構將信息挪做其他用途了。只要未經客戶授權,任何信息都不應該採集,這應該是一個基本原則。

    怎麼防範徵信中的違規違法行為?

    在我看來這應該是幾個方面的共同努力。首先是企業、行業的自律;第二,行政監管要有力;第三,法律救濟要跟上。

    從企業管理來講,要加強合規性審查,確保信息採集的合規和信息的安全、不外漏。從行業角度講,要制定行業的規範,提高行業的信息安全水平。

    就監管來說,政府監管的著力點就是保護個人的知情權和異議權,對於損害個人信息安全的行為要進行處罰。今年1月份有一家第三方支付機構,有數千張銀行卡的信息外漏,已經造成的損失是將近4千萬。像這樣的信息,應該更多的讓大家所知道,包括後面它相應的處罰結果怎麼樣,需要公開披露。

    法律方面,我們現在的力度是不夠的。比如在美國,法律在徵信領域發揮作用是非常非常大的。因為大數據徵信完全是計算機程序做的,如果程序錯了,得出錯誤的評估結果,徵信機構可能會就面臨賠幾十萬美元甚至數百萬美元的賠償。實際的賠償案例在美國已經出現多例,,但在中國還沒有讓大家引以為戒的案例。如果立法層級不夠,缺少法律約束的話,對徵信機構濫用個人信息的擔憂並不是杞人憂天。

    回到開篇第一句話,為什麼填表時喜歡用大寫字母還是小寫字母會影響信用評估呢?因為根據大數據做的相關性分析,喜歡用大寫字母的人違約概率更高。


    實現途徑:七個維度分析模型

    1.企業基本信息分析: 包括企業工商註冊信息。

    2.行業數據信息分析:行業政策法規等多角度去評估企業風險。

    3.法人治理結構信息分析:包括股東及股權架構。

    4.關聯方信息分析:簡稱為利益衝突,看這些關聯方有沒有好的企業為他們背書。

    5.財務KPI數據分析:研究他們財務和非財務的KPI,財務的KPI我們就會在授權情況下取得他們的數據,通過網路拓撲結構去算它的實際控制人,最近訴訟的佔比,最近招聘的人,與公司的主營業務匹配程度。

    6. 企業社交媒體信息分析,不同於傳統的輿情,通過觀察社交媒體釋放出來的信息,分析與主營業務的匹配程度;

    7.是企業的無形資產和資產質押數據。

    應用場景:為金融機構做徵信服務

    把所有的數據打造成為一體,形成企業行為資料庫。將風險信息分為徵信和評級,並且針對券商、銀行、投資公司等不同機構的要求,研發出不同的盡調模板,甚至按照不同的徵信需求,做一個動態的盡職調查服務。

    將盡職調查報告分為三個層次:第一是全項公開數據,利用公開數據調查一家公司的基本情況;第二,在授權情況下,做現場和非現場盡職調查,通過交換企業合法的數據源,在授權下研究企業的財務數據;第三,最後剩下5%的客戶,金融企業就可以進場做現場盡職調查,這節約了企業大量的成本,並且更加準確。

    當做好徵信數據以後,然後通過評級模型,就可以做定價。在定價的基礎上在機上授信,就可以做銀行間的借貸;評級模型加收益率模型,用來做債券;評級模型加估值,可以做投融資。


    推薦閱讀:

    資本資產定價模型是否已經過時?如果沒有,在實務中是怎麼應用的?
    最近金價下跌 ,適合買黃金嗎?
    金融行業尤其是證券類哪些證書含金量很高 就業有競爭力?
    應該如何制定CFA Level II的複習計劃?
    二三十年後人口負增長會導致房價全面下跌嗎?

    TAG:程序員 | 金融IT | 金融 | 大數據 | 徵信 |