Data Science 和 Finance 兩個領域的融合是什麼樣子的?

如果對Data Science/Big Data/Analytics 以及Finance 這兩方面感興趣,那麼未來的路,比如Master和Career Path的走嚮應該是怎樣的呢?(現在有很多學校開始offer Master of Data Science; 很多學校有提供Master of Finance 或者 Master of Financial Engineering; 但是好像沒有兩者結合的program吧?)

有的網友可能會考慮這兩者的結合是Quants or Financial Engineers,但是個人認為algorithmic trading可能可以算在Data Science的一個subset? 但是Data Science應該有其他眾多的subsets可以跟finance有更多的聯繫,聯繫在哪呢?求各領域的專業人士指導!

ps: Data Science的具體方向有比如Statistics, Machine Learning, Text Mining, Data Visulization等


現在大部分人所說的Quant一般是指各大投行里做衍生品定價,信用評估,風險控制之類工作的人,這種工作里又有很大一部分是涉及隨機過程微分方程等偏理論的數學,對數據分析要求不高;只有另外一部分基於統計的工作才和Data Science相關。兩者的分類可以參見這個問題在華爾街工作的數學博士的研究方向一般是什麼?

如果對使用理論模型進行定價的工作感興趣,很多學校開設的Financial Engineering的Master課程是比較好的選擇,選擇的時候可以看一下課程列表,是否有隨機過程,衍生品定價等課程。這套體系本身就很複雜,學習這條線路至少在短時間內不會用到Data Science的東西。

而關於演算法交易(Algorithmic Trading),我本人就是做方面的工作,我們也要做很多數據分析的工作,廣義上來說也是Quant類的工作,但這裡的做法肯定是和定價或風控等工作很不一樣的。我的理解是Data Science是領域內一個比較有前途的發展方向,但目前還不成氣候,像是Machine Learning,Text Mining等技術還很難應用過來。產業界里我沒有聽說哪家演算法交易公司是靠這些技術為核心發家致富的,學術界上發表出來的論文也都是空中樓閣(學者們對真正的交易怎麼運行了解太少了),沒什麼價值可言。

比如說Machine Learning里做的比較多的分類(Classfication),不管是決策樹(Decision Tree)還是支持向量機(SVM)這樣的技術,你都很難直接用來做trading,因為常常面臨的問題是金融數據往往是連續分布的變數比如價格或成交量,沒有什麼很好的辦法可以建立明確的分類,也就導致無類可分。而且金融數據的相關變數實在太多,很多時候無法得到全部信息(比如新聞,相關股票,期貨,期權等各品種的變化,可以參考用人工智慧計算股票的漲和跌可行嗎?這個問題里 @Pang Yunong 的回答),既然沒辦法拿到全景,Machine Learning那一套預測技術的效果就可想而知了(如果你是市場有效假說的堅定擁躉,相信價格反映全部信息,請忽略我)。對Text Mining,的確已經有人在做自動分析twitter上熱門辭彙的頻率來預測股票走勢,但我相信這個還處於很初級的階段,不會有人真的只根據這種分析來做交易,最多是給trader提供一種參考。

金融交易最明顯的特徵是基本數據是一種時間序列,這在現有的Machine Learning框架里還沒有有針對性的技術。但傳統的方法像是ARMA,GARCH本身的理論假設又往往和實際不符,而且這些模型在設計上並沒有側重大數據的特點(畢竟是幾十年前開發的技術了)。所以往後看,先天對大數據友好的Machine Learning框架很可能會帶來一些創新。但現在時機還沒有成熟。

目前來說真正有實用價值的Data Science技術,我個人認為是處理大數據的計算能力,比如MapReduce等雲計算的基礎架構(注1),這對金融交易這種先天就是超大數據量的業務非常有吸引力(一個交易所每天產生的交易數據就可以達到幾十GB)。對這種規模的數據進行處理,分析的能力是業界非常需要的,而這個恰恰是和以往跑在單機Excel表格或是關係型資料庫里的那種分析有很大區別的。至少要有對這種新型的大數據計算平台的理解,來設計符合其運行特點的演算法,並且能夠實際操作的能力,才可能做出一些有價值的分析。

這種大數據應用的遠景是非常誘人的。只有在具備成熟的大數據計算方案的情況下,人們才能想像直接處理交易所級的原始數據的應用。設想一下如果可以在幾分鐘甚至幾秒鐘之內回測完N個交易所M年的數據,對於深入理解市場和改進策略都是非常有幫助的。也許是通過對比幾百上千個交易策略的性能來篩選策略,也許是對多種投資組合的指標做可視化,而後面支撐的數據是TB或PB級別的tick數據甚至full level depth order book,這種分析是非常有價值的。

不過計算機運算能力大規模提升(得益於雲計算平台的發展)也就是近幾年的事情。所以即使在金融界,很多問題也都是剛剛湧現出來,技術發展還有很長的道路。如果以金融為目標去學習Data Science,我覺得需要注意的是,在深入理解那些Data Science技術(從理論到實踐)的基礎上,還需要加深理解金融數據的特點,才能做出有價值的工作。你會發現即使是相對成熟的MapReduce這樣的雲計算基礎框架,也是不太容易直接拿來就用的,始終要考慮金融數據的時間序列這個特點來專門定製。這方面因為業界和學界都剛剛開展,相信各個學校的課程也都還在摸索中,不太可能找到特別有針對性的項目。對於學生(尤其是Master)來說,上課主要是為打基礎,將來的發展要等到工作以後慢慢體會了。

註:

  1. 即使在IT領域,針對大數據的處理技術也還在不斷發展,可以參見這兩個問題:大數據計算框架除了 MapReduce 還有哪些呢,不應該是 MapReduce 去解決所有問題吧?,如何看待 Google 說已經停用 Map Reduce 好多年?,以及像是Spark Streaming這樣的新技術。


說一個大家可能忽略,但是其實用的最多的,Data Science里的Statistics跟金融的結合——技術分析、策略回測等等,做股票這類的非衍生品,其實更多的就是不停的統計各種維度、各種條件下價格會怎麼走,然後做出歷史概率下應有的決策。

這類基礎統計做多了、做熟了,才會有面對各種波瀾行情而不驚、迅速做出合理決策的能力,所謂盤感無非是用大腦和記憶做了統計,但絕大多數人並沒有這樣強大的記憶力及理性


Data Science 和 Finance兩個領域的融合是什麼樣子的呢?

才疏學淺,班門弄斧下:

Data Science的應用可以的三個方面;(分類from INFORMS)

Predictive Analytics:分析數據來預測未來可能發生的事情。

通過分析市場走勢,你發現某一行業走勢受季節影響大,來制定你的交易策略。

Descriptive Analytics:分析數據找出過去事件的特徵和正在發生事件的趨勢。

分析市場特性/輿情/特殊事件等,進行風控。

Prescriptive Analytics – 分析數據來找出最佳措施、取得最優化的結果。

從過往交易數據進行分析,進行策略優化。

總體來講,我覺得DS要比Fincnace應用空間更廣闊,是一個跨領域的學科。

另外提醒一下,每個學校的研究領域方向不同,比如都是MBA,可能會分領域,有足球經理的,有企業管理的......所以題主還是了解清楚。

另外分享,這哥們的一篇文章,寫的不錯:

Warald ,現在很火的數據科學data science到底是什麼?你對做Data Scientist感興趣嗎?


樓上絕大部分同學的回答都停留在traditionally BI的範圍。尤其是依舊依賴statistics 更是在基礎的report階段。business analytics是BI進階版,但是目前來看在金融業內,大部分data scientist做的都是給銀行做supervised 的prediction model. 比如說用decision model 做fraud test, 用ranking model做credit score。 國內的話中信前兩年做過一個天羅地網項目,類似是用大數據給信用卡中心做支持。所以相對來說,big data在銀行的應用要比在二級市場好很多。考慮就業的話盡量做這個領域吧。 此外big data除了volume外還有velocity和variety的要求,quant在這領域如何取得客觀高質量的數據也是有待考慮的。

利益相關: master of finance ,last semester 剛cross完big data方向打算點亮編程技能後再過兩年再轉戰該領域。


關於Data Science和Q-quant(基於統計的工作)的聯繫,我分享一下我了解的幾個case; 一個目前比較熱門的是情感分析(sentiment analysis), 上文已有所提及,分析Twitter或者其他社交媒體的熱門辭彙或趨勢 Professor"s "Twitter predictor" reveals stocks" swings;

還有一種我了解到的是Thomson-Reuters有分析員在做對公司內部文件進行textual analysis,具體描述可以看下圖:

我覺得,隨著Big Data的發展,有一個趨勢是同時去分析structured data and semi-structured data,從中獲取出有用的信息; 這可能會更好的印證Efficient Markets Hypothesis中,價格能完全反應出所有歷史信息的假設。

我個人naive的想法是希望像點球成金(Moneyball) 里一樣,能夠通過數據分析(data analysis)找到一個更好去評估一個事物價值的方法(比如電影里詮釋的,傳統以來,人們認為的batting average是一個好的測量指標,然而事實上並非如此);或者可以利用最新的科技去收集一些能更精確描述事物本質的數據,比如NBA於2008年左右引入了Player Tracking Technology(SportVU) 去分析NBA球員的每一個回合處理球的情況,每一個球員的速度,跑了多遠,碰過多少次球,有多少搶籃板的機會(不同於籃板數)等等。


本科在讀來聊一聊

我在的學校叫南方科技大學,目前跟導師的一個項目就是對一些英文新聞進行分析,目前最有效的方法還是做sentiment analysis 當然也確實如董可人所說發發paper還行實際交易就呵呵了。

不過我所知道的產業界還是有一些分析文本指導交易的,可以去它們官網看看

RavenPack

我學的專業是金融工程,但是目前學的還是很多和data science 相關 包括課程設計里我們也是有像人工智慧、數據挖掘這樣的選修課可以往相關的方向。


從美國就業市場看,Data Scientist其實是傳統Business Analyst的進階版,在傳統商業分析師的基礎上加上一些高階統計和編程知識,注意他的側重點仍然在商業分析上,這也是為什麼Data Scientist會有很多瑣碎的技能要掌握比如數據可視化,講故事這類的。Data Scientist也可以進入金融行業,通過數據分析做做風險控制早就不是什麼新東西了。其實還是結合行業實際需要來談比較好。


東西太多了 結合起來根本學不完啊 光ML東西就非常多 FE的話和董說的一樣 定價的比較多


別的不清楚,聽說過JP Fixed Income用compressed sensing做credit spread prediction


現在只能匿名回答,公司啟動項目整合數據終端數據,進行清洗和整合 用於投資交易。 工程量很大 棋下得也很大。應該是大數據和金融的較好融合吧


推薦閱讀:

羅格斯金融數學和紐大tandon金工的選擇?
標的價格或者 implied vol 變化很大時 Greeks P&L 該如何分解?
在紐約大學(New York University)讀金融數學是什麼樣的體驗?
研究生學MFE還是data science?

TAG:數據 | 寬客Quant | 金融 | 大數據 | 金融工程學 |