金融需要 hadoop、spark 等這些大數據分析工具嗎?使用場景是怎樣的?

金融到底需不需要hadoop、spark等這些大數據分析工具,如果需要,又是在什麼領域什麼地方會使用它們,如果可以結合必要的演算法來說明一下就更好了。


hadoop最開始主要能解決存和查的問題,適合大批量數據,搶的是ETL和存儲廠商的飯碗。

有了spark,明顯拓寬了Hadoop的能力範圍,現在觸角已經伸到BI和挖掘領域去了。

說回銀行,銀行當然不甘寂寞,雖然銀行里存的客戶信息價值很高,但不夠全面,做不了貼心服務,

要留住客戶還要讓客戶願意花錢,什麼數據都得要,社交的、行為的、公共的都得來點,現在銀行領導見面必談大數據,畢竟現在的競爭壓力太大了。但談歸談,敢做的、願意做的還是少數,銀行總體是保守的,還是希望看到一些成功案例再出手。但畢竟已經是2014年底了,即使是規劃,現在哪家銀行沒幾個大數據項目的?區別只在於各自的決心和面臨的壓力罷了。所以說,2015年學大數據哪家強?請到金融行業來。

以上。


雖然不情願,還是轉一下我們競爭對手的一篇科普文:http://hortonworks.com/blog/modern-financial-services-architectures-built-hadoop/

我覺得比較有意思的幾個應用場景:

1. 銀行或者信用卡公司的詐騙分析。比如根據異常消費行為發現信用卡被盜。

2. 保險公司的個性化服務。這個很有潛力。一個常見的 是根據GPS數據預測車禍概率,調整保險價格。

3. 投資機構預測單個公司,某個行業,或者宏觀經濟走勢。這個想像空間就更大了。

4. 其他的還有高頻交易,借貸風險控制

另外我需要更正一點,Spark是Hadoop生態系統的一部分,而不是和Hadoop並行的概念。Hadoop可以被理解為「數據中心的操作系統」,可以類比為Linux。Spark是運行在Hadoop上的一個計算引擎(MapReduce是另外一個),可以勉強類比為運行在Linux上的R或者SAS。


hadoop,spark算分析工具嗎?在金融圈據我所知國內還極少用~題主問的是這些如何用在金融上吧?文本數據~金融數據~還是r,python,sas,spss多一點,像同花順的愛問財等,或者光大證券的中文雲,如果量再大,有必要用hadoop,據我所知,目前還不是。


很多高金融的大企業是需要的,因為他們有很多未被挖掘的海量數據,需要建立藉助hadoop架構,對數據進行分散式處理和挖掘,快速的實時分析,建立各類挖掘的模型。當然最終從數據里挖掘出來有價值的信息結果,很多情況下也服務於業務人員的日常分析和工作指導,領導決策什麼的,目前國內大數據廠商比較厲害的有一家做叫大數據魔鏡的,給友邦保險做過,他們有hadoop的企業分析和決策系統。可以在線在他們網站上了解下,在線也可以體驗功能。大數據魔鏡的可視化效果做的也很是不錯。

魔鏡—行業領先的大數據可視化分析平台

相信很多朋友會感興趣,現在大數據時代了,國外很多像tableau、splunk都不錯。


不差錢的金融廠還是用HANA吧


據悉,一小部分銀行和證券已經再引入hadoop hbase等大數據技術!

我所在證券公司也在做這個嘗試,比如用hadoop做金融終端行為日誌分析,用hbase存儲海量歷史流水數據等等!


呵呵。這個我有權回答。咱公司就用這!不過這兩個只是做數據倉庫和數據集市用的,至於分析那就不限了。


有明顯的斷代,簡單說國內大部分老牌還沒有強烈需求大數據工具的階段,新興的已經開始使用。像反洗錢這種涉及到建模的比較多,畢竟數據量沒有那麼大。


hadoop主要做歷史數據歸檔保存和查詢,SPARK好像沒有用到,至少在我們廠是這樣的


一、都用 HADOOP(hive hbase spark[mlib core sparkhive spkrhbse]、strom等等)、也很多都用GreenPlum,而且很早就用了。

二、使用場景很多,可以參考互聯網,都是大同小異


首先金融的定義很寬泛,你所指的金融是一級一級半還是二級?不同的金融範疇大數據的運用方法都不一樣。大數據我們很多時候指文字信息處理(unstructured),不是數據處理(structured)

金融需要大數據分析,而且很多企業都在用了。就拿銀行業來說,美國銀行為了優化自己的客戶語音服務系統,收集了很多年的客戶語音資料,通過語音識別分析和大數據演算法,讓自己的語音系統做到幾乎能人機對話。這就是其中一個應用的栗子。

個人栗子的話:之前做過一個課題,研究特斯拉股票和推特信息的關係,找了個api把近期的推特帶特斯拉的全部輸入進去,抓了3周的推特,做文字分析然後得出大概結論特斯拉股票那段時間的上漲主要因為他們說要在美國大幅度建設充電站。據很多朋友說這樣的演算法早就被很多對沖在使用了。


推薦閱讀:

爬蟲數據分析【旅遊篇】
一個數據平台省了20個IT人力——敦奴數據平台建設案例分享
現在出去面試,開口閉口你會大數據嗎,你會分散式嗎。我要了解哪些專業術語才能顯得很懂的樣子?
送書|十年大數據,十年區塊鏈,兩技術如何共生演進?

TAG:數據挖掘 | 數據分析工具 | 數據分析師 | 金融IT | 大數據 |