計量經濟學、時間序列分析和機器學習三者有什麼區別與聯繫?

應用領域不一樣,方法和模型也各有側重。但是都有部分模型要訓練,要擬合出模型,並且在估計的時候用的方法很相似。
有一種想法,覺得計量經濟學和時間序列分析的有些方法只是對特定問題,加上專家規則的方案 ,而這三者都是統計學衍生出來的.不知道對不對?


從社會科學研究者的角度試著回答這個問題。

1. 你觀察到一個現象,提出了一個解釋現象背後的因果關係的假設:X導致了Y。你設計了一個隨機對照實驗,將研究對象分為對照組和干預組並對干預組實施X,希望通過觀察實施後干預組和對照組的差別來檢驗你的假設。

2. 你觀察到一個現象,提出了一個解釋現象背後的因果關係的假設:X導致了Y。你設計了一個隨機對照實驗,然而由於某些外部條件限制,隨機對照實驗無法進行。於是你退而求其次採取准隨機對照實驗,讓你的實驗對象自我選擇是否接受干預X,希望通過觀察自然分組的干預組和對照組的差別來檢驗你的假設。

3. 你觀察到一個現象,提出了一個解釋現象背後的因果關係的假設:X導致了Y。由於難以確定組內性質較為均一的對照組和干預組,隨機對照實驗和准隨機對照實驗均不可行。於是你大量搜集數據,希望通過分析X和Y的相關性來提供支持你的假設的證據,儘管觀察性的非實驗研究並不能直接證明你的假設。

以上三種情況都要用到統計學的工具檢驗干預的效應或相關性在統計意義上是否顯著。當這些統計學工具被應用於檢驗經濟學理論時,就可以認為是計量經濟學的內容。經典計量經濟學方法以回歸分析為主,實際上是因為經濟學研究中隨機對照實驗往往不可行,研究者為了控制變數,對缺少隨機分組的一種補償。如果樣本數據不是來自時間的一個橫截面上,而是對同一研究對象在不同時間點的多次觀察,這種數據叫做時間序列數據,處理和分析這種數據的方法統稱時間序列分析;時間序列分析也是計量經濟學的一種方法。當然除了經濟學研究以外,時間序列分析還有很多其他用途,就好像日本既屬於東亞地區也屬於環太平洋地區,或者詹姆斯既可以打小前鋒也可以客串大前鋒,教練等等。

更新:計量經濟學的語境中與時間序列數據(time series data)並列的是橫截面數據(cross-sectional data)、混合橫截面數據(pooled cross-sectional data)和面板數據(panel data)。顧名思義,橫截面數據是同一時間點對多個對象觀察得到的數據;混合橫截面數據和面板數據則是多個時間點對多個對象觀察得到的數據,兩者的區別是面板數據的觀察對象是固定的,混合橫截面的觀察對象則不固定(例如不同年份的人口抽樣調查)。

至於機器學習,個人粗淺的理解是用一些演算法從已知的數據中尋找規律構建預測模型,並通過「學習」新數據優化模型,提高預測的準確性。機器學習只關注數據本身,演算法多涉及邏輯分類,難以直觀的聯繫到社科理論(也就是馮小樹的回答中的第3點"interpret"),而社會科學包括經濟學學者最關心的恰恰是解釋現象的理論,因此機器學習在實證研究的應用目前還比較少。不過常用的計量經濟學回歸模型在應用中經常出現過度擬合問題,在預測上表現不佳,已有一些CS出身的社科學者開始使用源自機器學習領域的方法,如交叉驗證(cross validation)提高預測模型的穩健性,對比隨機森林模型和線性、非線性回歸模型的預測效果等等(多說一句,見過的隨機森林ROC曲線在我這個非CS出身的人看來真的蠻怪的)。

綜上:經濟學實證研究和人工智慧研究的不同需求產生了計量經濟學和機器學習,數學和統計學是它們的理論基礎。


說實話我沒太看懂題主的問題,可能是剛睡醒的原因,哈哈哈哈。
不管怎樣,先分享一些這一段讀到關於ML和計量經濟學的東西。
我們親愛的Varian(范里安)老先生近幾年特別熱衷於把ML的一些東西試著轉化為經濟學(計量經濟的成果)。
1. 這篇文章是老先生對數據的感慨與肯定,基本上就是說太強了我們要好好學好好用,好想做一個統計學家啊之類的。http://people.ischool.berkeley.edu/~hal/Papers/2013/BeyondBigDataPaperFINAL.pdf
2. 之後呢,老先生又說他在working on ML怎麼從經濟學中學到東西。
附上他的答案的Quora的連接
Why is econometrics isolated from the big data/machine learning revolution?
3. 我覺得William Chiu 的回答很貼切, 他說「econometricians, rightly so, want to be able to *explain* observed phenomena. Many, though not all, machine learning techniques (neural network, SVM, ensemble) have a very difficult time quantifying the impact of one variable on the observed phenomena.」 我覺得這是個一發入魂的意見,就是經濟學家或者計量經濟學經常在糾結的『interpret』的問題,就是說要怎麼解釋闡述理解變數。
然後他又說『 Econometricians are taught to begin with a theory and build a model to validate/invalidate the theory. Start with the theory. Machine learners start with the data.』這個還是有一些偏頗就是經濟學家從理論出發,而數據分析師則是從數據出發。
說到這裡想起來大學時我的一個統計學老師說的一個問題,其實統計學家也常常因為各種原因,主要是專業的限制困惑於『interpret』。
4.Quora上還有好多關於這個問題的看法,有興趣的話真的可以好好研究一下,這是個比較前沿而且特別實際的話題,我看了一些之後覺得真的是受益匪淺。
5.最後附上Varian老先生的一篇文章,這篇文章與其說是一篇paper不如當作一個『Machine Learning Econometric 101』
http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf


有本質區別。
從研究的動機上來講,計量經濟學研究的是因果,時間序列分析範圍太大不做討論,機器學習就是相關性。
從賺錢的角度來講,如果你真的懂計量,你的收入不會很高。如果你真的懂機器學習,你的收入不會很低。
===
我經常講的一個例子,經典的教育回報問題。
當計量經濟學家研究讀不讀博會不會帶來工資的提高時,可能寫下如下的方程:
reg wage on education experience age
但是這個回歸有問題,因為觀察不到的「能力」變數也可以影響工資。經濟學家就是想知道,當大家能力、經驗、年齡、性別,甚至老爸的收入都一樣的時候,你讀博能不能獲得薪水的提高。說的再明白一點,同一個人,讀博和不讀博工資的差異是多少。
但是業界可能對這個問題不感興趣。
比如你如果在銀行,考慮要不要給一個有博士學位的人發信用卡。博士工資高,知道這個就可以了,管你是因為能力高所以工資高,還是以為讀了博士才工資高,who care?
至於時間序列分析,宏觀經濟學家在搞時間序列,金融學家也在搞時間序列,業界怎麼用時間序列我不知道,關鍵是他們用時間序列的方法和思路完全不一樣,單拿出時間序列來也太naive了。


作為一個搞控制的人,後來學習計量,感覺高級計量就是一大推矩陣計算去做高維數據的統計分析,只不過數據範圍都是來自於經濟金融領域;另外,計量的主要用途是用來做實證,當你去驗證一個idea時,用計量來擬合數據,做一些結果的顯著性檢驗。時間序列是計量的一個分支,也就是自回歸而已,個人偏愛金融時間序列分析,當年將ruey tsay那本書看了幾遍。竊以為波動率是現代時間序列的核心吧,engel和granger兩位大師發展了這個學科。再說機器學習,機器學習沒有系統的學習過,當年為了比較non-linear對linear的優勢,學過stanford的那個ml公開課,學習起來比計量更有意思,用到的數學差不多,但是不需要計量上的那麼多顯著性檢驗。
傳統的計量或者統計分析數據包含四方面工作,分析、估計和假設檢驗、預測,機器學習主要目的是預測,其他的不重要,數據挖掘更側重數據的分析。計量裡面用的比較的的還是線性回歸,機器學習更多的應用非線性model,比如計量喜歡用linear 或者logistic(當然,斯坦福公開課的吳恩達也喜歡用),在數據量比較大時,其實非線性方法或許更好。


機器學習沒接觸過
計量和時間序列都學過,不過學的很淺。

個人覺得從時間維度上來說,計量經濟學在研究當前指標上更有深度,而時間序列則以時間為重要依據,對當前現象總結,以便於對未來的預測。
從各自涉及領域上,計量經濟學更偏重經濟學了,時間序列則不然,在各個領域都有非常廣泛的應用。

以上


舉個例子,是『用螺絲刀擰螺絲』,『釘子』,和『扳手『的關係,如果在裝宜家的傢具的時候。


沒多大關係


交叉


這樣大而化之的說的話 對 都是應用數學方法解決實際問題
用好用的方法走想走的路線解決特定的問題
對於所選的方法都有相應的或理論的或實踐的不同程度的背書


推薦閱讀:

TAG:機器學習 | 經濟學 | 計量經濟 | 計量經濟學 | 時間序列分析 |