機器學慣用於金融市場預測難在哪?

摘要: 本文主要講述了機器學慣用於金融市場預測難在哪?——金融間序是典型的部分可見馬爾科夫決策過程(POMDP)

原文:click.aliyun.com/m/4258

  • 數據分布
  • 小樣本
  • 難以計算的數據
  • 十分複雜
  • 部分可見馬爾科夫決策過程
  • 推薦系統的相似性
  • 結束思索

金融市場已經成為最早的採用機器學習(ML)市場之一。20世紀80年代以來,人們一直在使用ML以發現市場上的規律。儘管ML在預測市場結果方面取得了巨大成功,但最近的深度學習並沒有對金融市場的預測有多大幫助。雖然深度學習和其他ML技術終於使Alexa,Google Assistant和Google Photos成為可能,但在股票市場上沒有取得多大進展。

但是, 我將機器學習應用於現實世界的金融預測問題。儘管有很多論文聲稱成功應用了深度學習模式,但我還是持懷疑態度來看待這些結果。有些模型確實有更好的精度。然而,差異的量級往往還不夠大。

NLP的改進有助於提高依賴文檔分析的定量策略的有效性。這是在金融市場中深度學習模型的一個不可多得的好處。

所有這一切證實了金融市場本質上是不可預測的事實。這裡有很多原因讓人難以預測。我想強調一些使它變得困難的主要原因:

數據分布:

數據分布問題至關重要——幾乎所有的做金融預測的研究論文都忽略了這一點。

我們可以將金融數據集與圖像分類數據集進行對比,以更好地理解這一點。讓我們考慮CIFAR-10數據集.它包括了10個類。每個類的訓練集中有5000個圖像,每個類的測試集中有1000個圖像。

我們期望在狗分類的訓練集中,像素權重的分布與狗分類測試集中的分布相似。換而言之,狗的圖像將包含在訓練集以及測試集中的狗。這比較傻的說明了:狗的圖像必須包含狗。

對於大多數金融數據集來說,這種明顯的屬性沒有效。你將來可能看到的和你目前看到的數據完全不同。事實上,將機器學習應用於現實世界是一個比較常見的問題。除了確保測試和訓練的數據集具有相似的分布以外,還必須確保只有當將來的數據遵循訓練/驗證的分布才在產品里使用訓練過的模型。

雖然大多數研究者都注意不去把預測偏差納入到他們的研究中,但幾乎每個人都不承認涉及數據分布問題。

向前優化是解決這個問題的一種可能的選項。這在從事者中是已知的,但是研究人員常常忘記提到這一點。然而,即使是向前推進優化也不是解決潛在問題的靈丹妙藥——它假設未來數據分布將是什麼樣的。這就是為什麼向前優化的方法並不能真正給你帶來高精度——它只是比較實用。

小樣本大小(Small Sample Sizes)

機器學習經常需要從小數據集做預測。一個例子是勞動力統計,例如失業率和非農收入。每個月得到一個數據點,沒有足夠的歷史數據。一個極端的例子是金融危機—只有一個數據點供我們借鑒。

這使得應用自動化的學習方法變得非常困難。許多人最終採取的一種途徑是將不太頻繁的統計數據與相對頻繁的數據結合起來。例如,你可以結合非農收入與每日股票收益率,並且把相結合的數據集提供給模型。然而,往往需要進行大量的監督,以消除對模型質量的懷疑。

難以計算的數據(Unquantifiable Data)

有人可能會說,我們金融歷史的時間表同人類歷史本身一樣。不幸的是,轉換成量化的數據以讓演算法能理解的形式是比較困難的。例如,即使我們對1930年代大蕭條期間發生的事情有一個全面的了解,也很難把它轉化成一種可以用於自動化的學習過程的形式。

十分複雜(It』s Quite Complex)

各種各樣的因素在不同的規模驅動著價格:

  • 高頻交易和演算法交易是短期內價格的主要驅動力(小於1天);
  • 開盤價和收盤價都有自己的模式- 包括在股票和期貨-我所使用的兩個資產類;
  • 當涉及到多日線時,新聞和謠言是驅動力。詳細的公司新聞可以在任何時候不預先通知的情況下發生。然而,某些事件的時間表是事先知道的,比如公司的計劃報表和經濟數據一覽;
  • 價值投資經濟周期在涉及多年內價格變化時最為重要。

專家群可以被用來組合不同規模的模型,但這也是一個難題。(請注意,專家群是把相同規模的模型進行組合的一個很常見的技術—幾乎所有定量資產管理公司都採用。)

部分可見馬爾科夫決策過程(Partially Observable Markov Decision Process)

我樂於考慮把價格的時間序列作為部分可見馬爾科夫決策過程(POMDP).沒有人在任何時間點都有完整的圖片。不知道明天會發生什麼—但你仍然要對交易做出決定。你得到的信息非常少。同時,數據的分布也在不斷變化。

我已嘗試將強化學習方法應用於金融問題。即使我把問題(即狀態和行為空間)簡化了,也學不到有用的東西。我花了幾個星期對於為什麼不工作而進行調試—結果是RL演算法需要足夠的可預測性。

推薦系統的相似性(Similarities to Recommender Systems)

ML可應用於非常廣泛的領域。在所有這些中,我發現推薦系統是最貼近金融預測問題的。對比來說提出了潛在問題的難點。跟娛樂Recsys系統比較,分析提出了潛在問題的難點。

· 兩者都有相對較低的精度.讓我們考慮一下Netflix的例子。Netflix在主頁上至少顯示了20種電影選項。因此,對於每個建議,選擇觀看電影的用戶的平均可能性小於1/20。有一個「小於」的標誌,因為用戶可能只是不看任何東西就離開了。同樣地,金融時間序列中的大多數二進位分類問題的準確率已經徘徊在50%左右了。

· 兩者的數據都有很多的雜音(noise).在這兩種情況下,信噪比都很高。在金融時間序列離雜音較高,因為很多不同的因素影響著價格。Recsys數據集包含雜音(PDF),因為用戶的瀏覽通常是受影響的-用戶可以訪問特定的亞馬遜產品頁面,完全無意從這類產品中買任何東西—這就結束添加雜音(noise)了。

· 兩者的數據集都有季節性.假期間Amazon的購買模式(即產品銷售分銷)將與今年其它時間段不同。同樣適用於其它的Recsys問題,如電影的興趣和YouTube視頻的選擇還取決於在全年的時間。金融數據也是季節性的,最常見的季節性問題是經濟周期。

· 兩者都必須處理看不見的「事件/商品」.亞馬遜在其目錄中添加新商品,不斷增加Netflix標題到商品列表,每一分鐘新的視頻都被上傳到YouTube。推薦系統必須解決這個問題——如何推薦那些不是訓練集一部分的商品。正如數據分布部分所提到的,金融數據可以包含與模型訓練期間可用的完全不同的事件。

· 兩者都必須結合不同類型的數據進行模型訓練. YouTube上有一些獨立的功能,比如「最後N個看過的視頻列表」,它也有連續的功能,比如「最後一個視頻的觀看時長」。同樣,金融數據集可以由較高的頻率價格以及較低的頻率經濟數字組成。

結束思考:

如果因為一件事你要離開這個崗位,應該這樣:金融時間序列是一個部分信息博弈(POMDP),甚至對於人類也是很難的,我們不應該期望的機器和演算法突然超越人的能力。

這些演算法擅長的是發現一個硬編碼的模式並應用,這是一把雙刃劍,但有時可以有時不行。它幫助絕大多數的簡單模式來識別實例都已經被詳細討論了。通過無監督學習在金融時間序列中識別模式的下一階段仍然是一個難以實現的夢想。

本文由阿里云云棲社區組織翻譯。

文章原標題《Why is machine learning in finance so hard? | Hardik Patel》

作者:Hardik Patel

譯者:奧特曼,審校:袁虎。

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

推薦閱讀:

好好玩的螺旋演算法No.69
九章演算法 | Google 面試題:解碼方法2
連續子數組的最大和
演算法教練談談碼工面試
對稱的二叉樹

TAG:演算法 | 測試 | 推薦系統 |