價值選股策略——基於機器學習演算法

01-23

文獻回顧

回顧價值策略

價值策略通俗地講就是買入便宜股票，賣出昂貴股票，思想非常簡單和直觀。但是實際操作上這非常困難，因為我們沒辦法直接觀察股票的真實價值。投資者可以從不同的視角採用不同的指標來估計股票內在價值。在股票市場中，最傳統的方法就是通過會計報表的各個條目得到企業估值，我們可以從資產負債表得到市凈率，從利潤表得到資產收益率，從現金流量表得到現金流比率。Ma和Smith(2014)在《Sorting through the trash》中提到通過市凈率、預測下期資產收益率和股價/現金流這三個指標合成一個綜合的「價值」因子，可以顯著提升策略表現（MA採取了三個因子Z得分的總和來合成「價值」因子）。

是否可以對公允價值進行建模？

雖然有很多種企業估值方法，2017年8月J.P.Morgan發表了文章《Value Strategies based on Machine Learning》，提出了一種通過大量股票特徵來預測公司市凈率的統計建模方法。換句話說，作者是通過預測公司市凈率，然後與實際市凈率進行比較來得到「公允價值」，以便發現哪些被「錯誤定價」的股票，識別出哪些股票被高估，哪些股票被低估，然後開發出買入低估股票，賣出高估股票的策略。

為什麼要預測市凈率？

首先，市凈率本身就是公司估值的一個常用指標，並被Ma和Smith實踐證明是企業價值很好的一個度量。其次，市凈率這樣的指標來自於財務指標，而財務指標通常很長一段時間才發生變化，因此比較穩定。最後，機器學習、深度學習策略被懷疑的很大一個原因就是行情數據信噪比低，因此財務數據信噪比較高，建模更有效。

價值選股策略

我們在11月介紹過J.P.Morgan關於機器學習進行股票策略開發的最新文章《Value Strategies based on Machine Learning》（基於機器學習的價值投資策略）。與常規演算法預測目標不同，該文選擇股票「公允價值」作為預測目標。作者選擇37個股票特徵作為輸入數據，使用由懲罰回歸(LASSO)，梯度提升（XGBoost)和線性回歸3個模型組成的組合模型，以MSCI國家指數中股票為投資標的，預測股票下個月的「公允價值」——市凈率。以預測市凈率與當前市凈率之差作為「錯誤定價」的判斷依據選股，買入被低估的股票，賣出被高估的股票。然後，作者發現使用毛利潤與資產之比（Gross-Profit-to-Assets,GP/A）而不是凈資產收益率（ROE）作為衡量盈利能力的標準，在需買入的低估值股票中，保留前40%GP/A的股票；在需賣出的高估值股票中，保留後40%GP/A的股票，能夠在價值策略的基礎上有所改善。最後，作者通過選擇RavenPack新聞情緒數據作為交易策略的補充，建立情緒型號: 選取時間相關性（「Relevance」）數值在70以上的事件，求取月份情緒值。通過計算不同情緒值閾值對組合效果進行驗證，發現移除買入組合中情緒值小於-0.3的股票，移除賣出組合中情緒大於0.3的股票的交易策略能進一步改善價值策略。

研究計劃

我們希望能夠將J.P.Morgan的價值策略運用在中國A股市場，驗證該策略的有效性。策略思路和J.P.Morgan一致，通過大量的股票特徵來預測市凈率因子，然後根據預測出來的市凈率因子與實際市凈率之差作為股票「錯誤定價」的依據，然後買入被低估的股票，賣出高估的股票。

數據和演算法

數據獲取

Morgan選股池是來自於39個國家的2000隻股票（見下表），但本文的選股池是全A股市場，目前已經超過3000隻股票。我們獲取2010年1月1日至2018年1月1日的全A市場所有股票數據，其中樣本內數據為2010年1月1日至2015年1月1日，樣本外數據為2015年1月1日至2018年1月1日。樣本外的數據段即為回測的區間段。

特徵確定

Morgan的原文中共有37個股票特徵，這些特徵主要反映了公司的盈利能力、運營效率、財務質量、成長性。見圖1。

A股的財務報表和美股存在一些差異，我們選取了共22個股票特徵來預測公司市凈率。見圖2。

數據標註

本文實驗的目的是預測市凈率來實現「公允價值」的建模，因此預測的重點是市凈率，於是在訓練集數據標註中，我們採取下一期的市凈率數據作為標註依據。這樣建模的直觀意義是，我們希望找到24個股票特徵與代表企業價值的市凈率的內在關係，然後能夠在樣本外根據公司的24個特徵預測市凈率，挖掘出哪些公司可能被低估。

模型選擇

本文選擇以XGBoost演算法建模，該演算法全稱為eXtreme Gradient Boosting，是在GBDT的基礎上對boosting演算法進行的改進，內部決策樹使用的是回歸樹，該演算法適用於分類和回歸，主要優點是：速度快，效果好，能處理大規模數據，支持多種語言和自定義損失函數。僅在2015年，在Kaggle競賽中獲勝的29個演算法中，有17個使用了XGBoost庫，而作為對比，近年大熱的深度神經網路方法，這一數據則是11個。在KDDCup 2015 競賽中，排名前十的隊伍全部使用了XGBoost庫。XGBoost不僅學習效果很好，而且速度也很快，相比梯度提升演算法在另一個常用機器學習庫scikit-learn中的實現，XGBoost的性能經常有十倍以上的提升。

特徵預處理

和Morgan思想一致，本文也是預測一年之後的市凈率。鑒於國內A股公司最遲在次年4月最後一天發布上一年財務報表，因此我們以次年5月第一個交易日為月份T，預測T+12月份的市凈率數據。本文會對24個股票特徵數據進行去極值和橫截面標準化處理。「公允價值」被定義為T+12月市凈率減去T期市凈率，為了保證數據的可比性，參照了Morgan的處理方法——也對「公允價值」進行了橫截面標準化處理以便發現哪些是低估股票，哪些是高估股票。

訓練和預測

模型訓練

我們將訓練集內80%的數據拿來訓練模型，剩下數據拿來驗證模型。為了防止機器學習演算法XGBoost對訓練數據過擬合，我們模型超參數採取了常規設置。其中比較重要的幾個參數為：樹的最大深度（max_depth設置為3），學習速率（eta設置為0.1），提升樹的數量（n_estimators設置為100），因為我們想預測市凈率的具體數值，所以採用回歸演算法（objective設置為reg：linear），預測連續性變數，迭代數量（num_round設置為100）。

模型預測

當我們訓練出XGBoost模型後，根據樣本外（2015年1月1日至2018年1月1日包含24個特徵的股票數據，直接將該模型用來預測該時間區間上的股票市凈率數據。

公允價值

「公允價值」的計算為預測市凈率數據和實際市凈率之差，具體計算公式為：

因為在訓練集數據標註時，我們採取的是T+12月的市凈率數據，因此預測市凈率即為T+12月的市凈率數據，實際市凈率為T月市凈率，為了便於股票之間的「公允價值」可以比較，我們對「公允價值」進行標準化——將預測市凈率與實際市凈率之差再除以過去12個月市凈率的標準差。

回測交易

我們根據預測的「公允價值」進行選股，「公允價值」越高的股票越值得投資。和Morgan選股處理一樣，選股時有兩個過濾條件，首先，不買入流通市值最小的10%的股票，其次，不買入過去一個月平均成交金額最低的10%的股票。

因為是通過年報出來之後的5月第一個交易日預測下一年的市凈率數據來計算「公允價值」選股，因此調倉周期為1年。持有一年之後，再根據新的選股結果進行調倉。回測結果如下：

策略年化收益10.27%，最大回撤為11.54%，年化波動率為9.22%。Morgan測試結果年化收益3.2%，最大回撤為6.7%，年化波動率為3.6%。相比之下，中國市場的價值投資策略收益更高、風險也更高。

參考文獻

《Value Strategies based on Machine Learning》
《Big Data and AI Strategies》
《XGBoost 入門系列第一講》
XGBboost Python API

附錄

代碼：基於XGBoost的價值選股策略代碼

《量化研究每周精選》每周一期，為大家提精選研報、前沿研究、熱門文章等優質內容。

查看所有 量化研究每周精選。歡迎投稿 (i@bigquant.com)。

前往 BigQuant社區 查看原文並參與討論：BigQuant社區
加入 人工智慧量化投資交流群，與大牛共討人工智慧量化話題：微信搜索 bigq100，添加微信群管理員微信，附上姓名、所在機構、部門和職位，審核後管理員會邀請您入群。

關注 BigQuant 微信公眾號，及時獲取新鮮資訊：微信搜索 BigQuant，獲取更多人工智慧、Machine Learning、量化投資相關文章。