機器學習財務學

01-28

經濟學家，尤其是計量功夫不錯的，要學「機器學習」這現今人工智慧的顯學，困難度不算太高。所以一開始學，不少人都嗤之以鼻，這有什麼，明明是loss function, OLS, logit這些東西的變形，有什麼了不起。

前些天經濟學家年會上，Sendhil Mullainathan的那堂開給財務經濟學家聽的課，一開始也會讓人有這種感覺，「又一個瞧不起機器學習的傢伙」。但其實不是這樣的，人工智慧可深可廣，經濟學可以從中學到的東西可多了。

Mullainathan很快指出了機器學習和經濟計量的最大不同，果然行家一出手，便知有沒有。他用的名詞是y hat和 beta的不一樣。讓我用一個簡單的例子說明。網路上有一些幫你算房價的服務，房價在預測模型里，在等式的左邊，也就是y變數，等式的右邊就是一大堆x變數。x變數的前面有大小不等的係數，比如說房子大小，就是一個x變數，直觀來說，係數該為正，越大的房子，房價越高。

對經濟學家來說，模型好壞很重要，關乎能不能解釋房價的差異，所以我們注重這些係數，我們上窮碧落追查係數的統計分布，要知道這些係數有沒有統計上的意義，所以我們的問題是係數的問題，也就是beta的問題。我們擔心這些x變數彼此間的互動關係，會影響係數的準確度，所以我們不敢亂加x變數，但我們也擔心未知變數和x變數的關係太大，也影響準確，所以加與不加，都是一門學問。

但機器學習不管你統計分布的死活。除了少數情況外，變數越多越好，數據越大越好，只要「預測」的工作做得好，模型再丑，再沒道理，都沒關係。如果你的服務只是提供客戶準確的房價預測，而不是決定房地產政策，你真的不用管統計分布，不用管beta，只要管預測值y hat好不好就好。

Mullainathan說明beta問題和y hat問題的不同時，說得生動有趣。他說，經濟學家不但要知道係數有沒有統計意義，甚至還要找出因果關係，有點太貪心了，數據科學家根本不管這些。

的確，學校里討論選題目的重要條件，其中一個就是這題目的政策意義是什麼。經濟學家關心的是建出來的模型對政策制定者的建議是什麼，關心的是跑出來的模型係數代表的意義。因果關係如果不是最重要的發現，至少也是追求的方向。但無人駕駛車依靠的人工智慧，要的不是漂亮無比的模型，不是要了解環境對汽車運行的影響，而是怎麼樣「預測」最好的路徑，不要撞到人車而穩穩前進。兩種觀點有相關，但角度完全不同。

Mullainathan說，機器學習可以給經濟學家許多的新角度。比如說，機器學習的方法，可以帶來新的數據，即時的數據。建傳統的經濟模型，為求係數準確，變數值很少可以即時。但大數據的機器學習，不管係數準確，只管預測值好，所以什麼都用。如果什麼都用作變數，即時的預測，是可行的。而且，越多數據，預測越准。

這讓我就想到當年格林斯潘說過的一個故事。格林斯潘在福特總統的時候當CEA主席，遇到突如其來的景氣衰退，白宮不知道要採取什麼政策應對，很需要一套即時的景氣指標指導政策。當時還用GNP為主要數據，但GNP一季才統計一次，緩不濟時，格林斯潘採用了許多捷徑，硬弄出一套一周一次的GNP預估，而據以指出當時的景氣衰退只是庫存增加的短期衰退。如果有大數據支持的機器學習預測，憑著這許多的即時數據，其實經濟政策執行者，已經可以有很好的預測模型。這會是宏觀經濟學家很有用的工具。

又比如說，建立模型。經濟學家可以用機器學習的散彈槍打鳥方式，先求多不求準的塞入x變數，取得一個預測成果。再把經濟學家真正有興趣的變數拿走，再取得一個預測成果。比較下來，我們就可以猜測這x變數本身，是不是有價值，值得加入模型。斯坦福的Susan Athey之前在EconTalk里的一個訪談，也提到類似的模型選取方式，英雄所見略同。Athey也是個經濟學家涉足機器學習的例子。

Mullainathan整篇演講最有意思的一點就是，他說財務學之所以在經濟學的領域裡，堪稱發展最蓬勃的原因之一，就是我們一直都是在做「預測」有關的事。係數對我們來說很重要，但預測成果也很重要。資產定價的模型，最後都得拿到真實世界裡做樣本外的「預測」。沒錯，做財務的本來就有許多沒有統計分布的分析，像是「和random walk比賽」這樣的論文，比比皆是。而且許多財務學家，在找解釋資產回報異常的因素的時候，也不一定是要了解係數和政策內涵，很多都是在找一個可以發財的因素而已。

演講衍生出兩個很重要的觀點。一是，社會科學常被詬病缺乏可複製性，不像自然科學，A實驗室做得出來，B實驗室做不出來，是不行的。社會科學多的是你做你的，我出我的論文，沒有可複製性，這樣怎麼推進科學呢？問題出在那裡？我覺得很大的一部份原因，就是社會科學家不管「預測」，只管「統計意義」。如果論文的結果，是以「預測」的成功度衡量，可複製性的問題，就去了一大半。

另一個觀點是，我相信華爾街的大quant對沖基金如Renaissance、Two Sigma，一定早就用上了機器學習。人家早就用人工智慧在賺錢，小散戶還覺得自己有機會嗎？還不乖乖買大盤，抱長期嗎？但另外一個問題是，當主要投資者，都能準確預測未來時，未來還會是未來嗎？模型還會准嗎？Yogi Berra說，「預測是最難的了，尤是和未來有關的預測」，此話不假。