在實業界,尤其是如金融業等數據密集型行業里,計量經濟學在類似量化投資的工作中還有應用嗎?

自己是學經濟出身,一直對計量經濟學方法比較熟悉,以後想在金融界做數據分析建模,類似量化投資等。但感覺現在業界使用較多的是類似於決策樹,svm,隨機森林等基於計算機科學的數據挖掘演算法,類似於聯立方程,面板數據等計量經濟學方法用的很少(時間序列除外)。這是否可以說如果在實業界發展,應當更既注重基於計算機的數據挖掘演算法的學習,而不是計量經濟學?


當然有用。

昨天晚上有個朋友跟我打電話,他在幫銀行做一個數據分析,就是分析到底誰會買理財產品這樣的問題。他問我,有沒有什麼計量上的方法呢?

我說有啊,當然有啊,產業組織理論有一大塊文獻就是在估計需求的,而這可能也是一個實證產業組織理論研究的入門課程了。這裡面有非常豐富的工具,什麼BLP啊,multinomial logit啊之類的,解決這個問題再合適不過。

計量經濟學已經有非常豐富的工具來處理各種商業、管理中的問題。舉一個例子,超市究竟如何擺貨架?現在已經有文章分析了顧客在超市購物的軌跡數據,並且發在管理的top上。有了這些分析方法,業界也可以應用。

在我看來,數據挖掘有兩個問題是難以跟計量經濟學相比的:

首先,數據挖掘不能做因果推斷。就像《大數據時代》裡面說的一樣,他們關注的是相關關係,而非因果關係。然而由於缺乏足夠的理論支撐,其結論究竟是偶然,還是有其他的原因,那就不得而知了。然而在實際應用中,因果關係並不是那麼的不重要,就像業界宏觀經濟研究的大佬高善文在《宏觀經濟的邏輯》中說的一樣,很多時候重要的是因果而非相關。知其然,而不知其所以然,這在應用中局限就很大了。從這點上來看,雖然數據挖掘最近幾年發展迅猛,然而由於其不能對理論證偽,所以並非「科學」,僅僅是工業上用的建模方法而已。

其次,數據挖掘的方法不重視統計推斷。這個跟上面多少有點類似,但是卻是不同的問題。這一點的直接後果就是,數據挖掘的方法最後結果是機器在學習,而非人在學習。現實非常複雜,特別是涉及到人的時候。比如說中小企業融資的問題,的確我們可以依賴數據挖掘的東西來做決策,然而訓練出的模型究竟該如何解釋?這就需要統計推斷了。這裡的問題是,如果中小企業大體了解了數據挖掘模型的一些特徵,會不會有意的進行造假行為來操控模型的結果?最終我們還是需要人來進行決策,然而數據挖掘的演算法並不能告訴一個自然人,裡面的邏輯關係是怎樣的。而計量經濟學的好處是,它雖然有的時候不甚精確,但是卻可以通過統計推斷告訴自然人,哪些重要哪些不重要,自然人可以使用這些工具自己進行學習,最終應用到實踐。

最後,我不是完全否定數據挖掘的方法,僅僅是指出其中的不足。


我們先說把一個詞說十遍:

場景,場景,場景,場景,場景,場景,場景,場景,場景,場景

那些機器學習的工具有他們的應用場景,計量有計量的應用場景。而機器學習,特別是某auto feature design的場景是function approximation assumed no knowledge. 我們先來談談擬合的東西是不是function(在金融里很多東西連function都不是),再談是否真的know nothing,然後才能有你們你們x層nn事情。(當然在有些人眼裡,不是他們ML演算法出來的knowledge都不叫knowledge)

————————————————————————————

不想扯量♂化♂投♂資,就針對這個問題發一下牢騷

計量有一個特點是大,細,全。針對很多特定問題,計量已經發展出來了對應的工具,檢驗手段,實證分析來專門解決他們。好比解決高密度序列里的跳躍問題,jacod等人為此已經專門開拓出來高頻計量這個領域,有專門的處理方法,統計推斷和實證分析(雖然黑貓數學太差,只看得懂實證分析部分)。

這些計量的每一個小子領域,都會開發出一些對於特定問題的特定feature。這個機器學習裡面一個很重要的點:knowledge會降低對數據的要求,也會降低對auto feature design(就是你們某網路)的需求

然而一根這些機♂器♂學♂習的先♂進♂分♂子。他們會給你來這麼些手:

「這些東西都是錯♂的,非data♂based的」

」這些模♂型的假設都是錯♂的」

黑貓研究波動率小有一段是時間了,曾經試圖跟很多人詮釋為什麼跳密度這個東西能作為波動率的特徵。然而這些新時代的火♂槍♂手堅定的認為只有他們深♂度,強♂化,在♂線,n♂n 學習出來的特♂徵才叫特徵。那些都是無用的領♂域♂知♂識

就像黑貓一直吐槽的,應用是講場景的。如果一味的發明天星科技鎚子去干刨木頭,鋸木板的話,這些自詡先♂進的智♂能♂人有什麼理由,有什麼資格去取笑刨子和鋸子呢(甚至去嘲笑幾乎是同樣新的天星刨子和天星鋸子)。無非是一個得到了高科技工具的人猿罷了

樓上的評論里有人為計量是「學術導向」的我建議多看看實證和具體應用

最後我想說,貝葉斯那套在金融里還是有些應用場景的,別的么,仁者見仁吧


隨便說兩句。先是回答問題:

金融業是個很現實的地方,方法是為結果服務,只要你能掙錢,不管策略是計量還是ML還是算卦拜佛向上帝禱告,都無所謂。

說起在業界,一專的優勢遠遠大於多能,樓主擅長計量不妨就在這個方向發展,看一些自己不了解的東西有好處,但是沒必要當成吃飯的傢伙,除非對這方面有信仰。

然後說說ML和計量:

計量經濟學算是數學和統計學在經濟經融領域的應用。而數學和統計學在計算機上的實現必然會和ML相關聯。ML不是為了某一類問題而設計的,ML本身就是一個信息處理的方法論。可以說只要涉及到了信息(數據)的計算機處理,那麼肯定要用到ML的思想。不管在主觀上你有沒有這個意識。

但是數據挖掘中,機器學習的部分遠非全部。不是說我們把數據往模型一扔,調調參數就拉倒。就我的個人經驗而言,ML是一種很強大的工具,能解決很多傳統計量無法解決的問題,特別是處理大量多維度的數據時,十分強大。但是從另外一方面來說,ML不是為了處理金融問題而誕生的,在應用ML之前,一定要能把一個具體的金融問題轉化成一個抽象的數學問題,然後找到合適的ML模型去解決。前者需要你對金融,計量和數學有一定功底,後者需要你對ML和演算法實現有研究,兩者缺一不可,甚至前者可能還更重要一些。

很多把機器學慣用在金融行業上的人,給我的感覺是拿著鎚子找釘子,完全無視前者,為了應用而應用,而不是為了解決問題而應用。

說到底,沒有什麼方法是萬能的,關鍵還是看人的水平。


不幹計量很多年。簡單說一下自己對這個事情的理解。為什麼計量經濟學看似在這些行業不流行?因為計量經濟學發展的過於精密,往往對數據有非常高的要求,你必須全方位了解這個數據,是否有內生等等。而且那些複雜的結構計量模型,真心是很難讓圈外的人理解


有人在moment里說看別人ML結果的時候總是不自覺的懷疑模型的魯棒因果性等問題,挑釁ML的價值,認為計量或者線性回歸模型應用在market里更好。

我不否認線性模型的簡單高效,市場多次給過數學家們教訓。

但是ML的方法是涵蓋了regression,否定ML邏輯上就是否定子概念regression。

計量的簡單線性模型就像希臘羅馬時代的畢達哥拉斯還在玩可數集上的有理數。等你找齊了整條數軸我們才能稍微談談希爾伯特空間。

人眼看不到的規律,不代表它不存在,AlphaGO與人類一戰為證


給題主一個別的思路。

想像一個場景,你要應聘一個本科生,量化交易部門。

有哪些考察方法?

各種課本理論:CAPM,VAR....

了解對金融事件的看法

考察數理能力:積分,證明,解方程。

...

但是最近蹦出了一個新科技:機器學習,說實話,對本科生而言,機器學習的意義比機器學習本身應用的意義要大。

為什麼?

機器學習課程現在基本只有少數學院在開,很多學院,比如鄙院,學生連機器學習為何物都不知道。所以這就要求一個本科生必須有足夠的動機,搜索能力,自學能力來獲得該方面的技能。在招聘過程中,機器學習能力事實上是一種信號,表明自己的自主學習能力。

好,回到問題本身,就金融應用而言,當然看場景。信噪比不考慮,直接上深度學習的,當然也別想做出多麼優秀的成果。目前來說,大多數場景還是很依賴知識的,這就是計量和統計的地盤了。

但是,你也要知道,除非你是可以獨當一面進行研究(phd以上)。如果要搬磚,肯定是機器學習的搬磚需求大於計量的。就算不搬磚,掌握點,放在面試談笑風生也不錯。


應該是智力密集型 和工具無關 最重要看有沒有edge


做二級市場就算了,真心不如統計學的,特別是還學過幾門西方經濟學的統計學畢業生,你說你搞數據挖掘,不是打擊你,經濟學背景的基礎你根本搞不動,也就用用現成包;去銀行啥的忽悠下外行還行。


推薦閱讀:

如何理解計量經濟學中的「檢驗過度識別約束」?
為什麼宏觀經濟計量模型中要用滯後變數而不是 leading 或者 coincident index 呢?
什麼是面板數據?
固定效應模型與隨機效應模型的區別?
如果用總體作為數據,那麼回歸係數的顯著性還有意義嗎?

TAG:數據挖掘 | 計量經濟學 | 量化交易 |