機器學習財務學

經濟學家,尤其是計量功夫不錯的,要學「機器學習」這現今人工智慧的顯學,困難度不算太高。所以一開始學,不少人都嗤之以鼻,這有什麼,明明是loss function, OLS, logit這些東西的變形,有什麼了不起。

前些天經濟學家年會上,Sendhil Mullainathan的那堂開給財務經濟學家聽的課,一開始也會讓人有這種感覺,「又一個瞧不起機器學習的傢伙」。但其實不是這樣的,人工智慧可深可廣,經濟學可以從中學到的東西可多了。

Mullainathan很快指出了機器學習和經濟計量的最大不同,果然行家一出手,便知有沒有。他用的名詞是y hat和 beta的不一樣。讓我用一個簡單的例子說明。網路上有一些幫你算房價的服務,房價在預測模型里,在等式的左邊,也就是y變數,等式的右邊就是一大堆x變數。x變數的前面有大小不等的係數,比如說房子大小,就是一個x變數,直觀來說,係數該為正,越大的房子,房價越高。

對經濟學家來說,模型好壞很重要,關乎能不能解釋房價的差異,所以我們注重這些係數,我們上窮碧落追查係數的統計分布,要知道這些係數有沒有統計上的意義,所以我們的問題是係數的問題,也就是beta的問題。我們擔心這些x變數彼此間的互動關係,會影響係數的準確度,所以我們不敢亂加x變數,但我們也擔心未知變數和x變數的關係太大,也影響準確,所以加與不加,都是一門學問。

但機器學習不管你統計分布的死活。除了少數情況外,變數越多越好,數據越大越好,只要「預測」的工作做得好,模型再丑,再沒道理,都沒關係。如果你的服務只是提供客戶準確的房價預測,而不是決定房地產政策,你真的不用管統計分布,不用管beta,只要管預測值y hat好不好就好。

Mullainathan說明beta問題和y hat問題的不同時,說得生動有趣。他說,經濟學家不但要知道係數有沒有統計意義,甚至還要找出因果關係,有點太貪心了,數據科學家根本不管這些。

的確,學校里討論選題目的重要條件,其中一個就是這題目的政策意義是什麼。經濟學家關心的是建出來的模型對政策制定者的建議是什麼,關心的是跑出來的模型係數代表的意義。因果關係如果不是最重要的發現,至少也是追求的方向。但無人駕駛車依靠的人工智慧,要的不是漂亮無比的模型,不是要了解環境對汽車運行的影響,而是怎麼樣「預測」最好的路徑,不要撞到人車而穩穩前進。兩種觀點有相關,但角度完全不同。

Mullainathan說,機器學習可以給經濟學家許多的新角度。比如說,機器學習的方法,可以帶來新的數據,即時的數據。建傳統的經濟模型,為求係數準確,變數值很少可以即時。但大數據的機器學習,不管係數準確,只管預測值好,所以什麼都用。如果什麼都用作變數,即時的預測,是可行的。而且,越多數據,預測越准。

這讓我就想到當年格林斯潘說過的一個故事。格林斯潘在福特總統的時候當CEA主席,遇到突如其來的景氣衰退,白宮不知道要採取什麼政策應對,很需要一套即時的景氣指標指導政策。當時還用GNP為主要數據,但GNP一季才統計一次,緩不濟時,格林斯潘採用了許多捷徑,硬弄出一套一周一次的GNP預估,而據以指出當時的景氣衰退只是庫存增加的短期衰退。如果有大數據支持的機器學習預測,憑著這許多的即時數據,其實經濟政策執行者,已經可以有很好的預測模型。這會是宏觀經濟學家很有用的工具。

又比如說,建立模型。經濟學家可以用機器學習的散彈槍打鳥方式,先求多不求準的塞入x變數,取得一個預測成果。再把經濟學家真正有興趣的變數拿走,再取得一個預測成果。比較下來,我們就可以猜測這x變數本身,是不是有價值,值得加入模型。斯坦福的Susan Athey之前在EconTalk里的一個訪談,也提到類似的模型選取方式,英雄所見略同。Athey也是個經濟學家涉足機器學習的例子。

Mullainathan整篇演講最有意思的一點就是,他說財務學之所以在經濟學的領域裡,堪稱發展最蓬勃的原因之一,就是我們一直都是在做「預測」有關的事。係數對我們來說很重要,但預測成果也很重要。資產定價的模型,最後都得拿到真實世界裡做樣本外的「預測」。沒錯,做財務的本來就有許多沒有統計分布的分析,像是「和random walk比賽」這樣的論文,比比皆是。而且許多財務學家,在找解釋資產回報異常的因素的時候,也不一定是要了解係數和政策內涵,很多都是在找一個可以發財的因素而已。

演講衍生出兩個很重要的觀點。一是,社會科學常被詬病缺乏可複製性,不像自然科學,A實驗室做得出來,B實驗室做不出來,是不行的。社會科學多的是你做你的,我出我的論文,沒有可複製性,這樣怎麼推進科學呢?問題出在那裡?我覺得很大的一部份原因,就是社會科學家不管「預測」,只管「統計意義」。如果論文的結果,是以「預測」的成功度衡量,可複製性的問題,就去了一大半。

另一個觀點是,我相信華爾街的大quant對沖基金如Renaissance、Two Sigma,一定早就用上了機器學習。人家早就用人工智慧在賺錢,小散戶還覺得自己有機會嗎?還不乖乖買大盤,抱長期嗎?但另外一個問題是,當主要投資者,都能準確預測未來時,未來還會是未來嗎?模型還會准嗎?Yogi Berra說,「預測是最難的了,尤是和未來有關的預測」,此話不假。

推薦閱讀:

相比較養一個孩子,養育兩個是否一定會降低生活水平?
在蘇聯解體前夕,普通民眾有哪些辦法可以保障自身的積蓄不因盧布貶值而大幅縮水?
魚、牛、礁——什麼影響了母系繼承傳統的存續?

TAG:机器学习 | 经济学 |