「機器學習」和「MHKQ因子擇時模型」相關前沿研究丨優礦金工深度報告5月篇

「機器學習」和「MHKQ因子擇時模型」相關前沿研究丨優礦金工深度報告5月篇

來自專欄 量化哥

優礦金工團隊對優質量化研報和文章進行研讀,在優礦平台進行代碼復現,並開放源碼,提供「一鍵克隆」功能,助量化研究者開拓視野,高效的將新的研究思路融入到自己的模型當中。現在本月新鮮出爐的深度報告來啦!請查收下面的優礦5月深度報告速遞。

(一)機器學習預測企業併購重組

本篇深度報告用機器學習方法預測併購重組事件,獲取超額收益。參考Luo』s Quantitative Research, Economics, and Portfolio Strategy(作者:Luo)中的研究方法,從優礦因子庫、公告、併購重組事件庫中提取因子,對研報的結果進行了實證分析。研究結論如下:

  • 併購重組事件在發生後具有超額收益
  • 使用機器學習方法預測併購重組的準確率在4%左右
  • 對預測概率按大小進行分組,實際準確率、召回率均具有單調性

下面分別介紹報告的四大部分:

第一部分:數據準備和處理

1、構建併購重組樣本,進行簡單的統計分析

通聯併購重組庫中,包含多種類型,有"資產收購/資產剝離/資產置換/吸收合併/債務重組/股份回購/要約收購/股權轉讓"。

我們與研報一致,僅預測Merger這一類事件(對應資產收購/吸收合併且與上市公司存在股權轉移),Merger指企業之前持有某公司少於50%股權,經過操作後獲得100%股權。

何為樣本?樣本是在機器學習中的概念,由特徵、標籤兩部分組成。大家可以把"標籤"想像為企業下一期是否會發生併購重組,發生則標籤為"1",不發生則標籤為"0";同理也可以把"特徵"想像為企業當前時點的特點,比如公司當前PE=20.1、PB=15.0、資本負債率=0.8等等,用於描述當前企業經營狀況。

2、事件分析,驗證具有超額收益

  • 從上圖事件分析結果可以看出,個股在事件發生前,明顯存在負的超額收益。可能與這類個股往往是一些業績不好的小盤股有關;
  • 兩根紅虛線分別代表事件發生T+0及T+1時間點,可見個股在事件發生後4天,均有相對等權行業指數的明顯超額收益;但在20天後超額收益開始轉負;
  • 說明如果可以預先預測哪些企業會併購重組,可以為策略大幅增加超額收益;
  • 接下來尋找一些可能有預測作用的因子,進行測試。

3、從優礦的DataAPI中獲取46個已有因子的數值,公告、財務數據合成相關因子(挑選因子的原則為儘可能和研報中的因子相近),並將數據進行對齊,取得因子對應下一期是否發生併購重組的標籤。我們按論文中所提及,提取下列因子:

  • 價值因子: 股息收益率、earning Yield、自由現金流收益率、經營現金流收益率、市銷率P/S、自由現金流/總企業價值、有形B/P、EBITDA/總企業價值、B/P、收入/總企業價值;
  • 質量因子: ROIC、ROE、ROA、股息支付率、凈利率、息稅前利率、Altman』s z score、現金流/股本、應付賬款周轉率、應收賬款周轉率、長期負債/普通股本、會計應計量、berry ratio、毛利率;
  • 情緒因子: 分析師預測的3月or1月後收入、分析師預測3月or1月的評級散度、分析師預測3月or1月後的EPS、分析師預測3月or1月後的評級;
  • 成長因子: 歷史收入同比增長率、再投資增長率、固定資產投資增長率、總負債增長率、股東權益增長率、總資產增長率、其他資產增長率、分析師預測1年後EPS增長率、歷史EPS同比增長率;
  • 技術因子: MA20-MA60、股價動量、過去12月的平均流通股換手率、1年內日間收益率的skewness、amihud illiquidity、過去一年累計收益、過去一年日間真實波動率、過去3個月日間真實波動率、過去一年日間收益率kurtosis;
  • 關聯公告因子:由於上市公司併購重組前會發布相關公告,可以構建某類公告數量因子;
  • 併購重組動量因子:過去120個交易日,行業內平均併購重組數量。

第二部分:單因子測試

通過上圖可以看出,有些因子的Risk Adjusted IC並不是很高,說明這類因子線性預測能力較差。

  • 併購重組動量類因子,表現不錯,有正向預測能力。說明某行業or某個股之前經常併購重組,未來仍有較大概率繼續併購重組;
  • 情緒類因子,有正向預測能力。說明分析師對該公司未來盈利能力、評級給予正面評價,其越有可能進行併購重組。可能分析師有更早的消息渠道或分析能力;
  • 技術面因子,過去真實波動率較高、高換手率、流動性好的公司,更容易併購重組。其餘因子預測能力較差,比如均線交叉、價格動量、20日峰度、偏度;
  • 成長因子,經營相關所涉資產過去增長率越高,更容易併購重組。再投資增長率預測能力較差;
  • 公告頻率類因子,過去經常發股東大會、重大資產重組相關公告的公司,接下來更容易併購重組,符合我們預期;
  • 質量類因子,ROIC投資資本回報率、應收賬款周轉率越低的企業(反映企業經營狀況不良),更容易併購重組。但需注意,ROE、毛利率等卻是正向指標,這裡有conflict;
  • 價值類因子,自由現金流、經營現金流不好的企業,更容易併購重組。市銷率、市凈率、有形凈資產市凈率,預測能力不強。

第三部分:利用不同模型訓練/預測併購重組概率

接下來利用多種機器學習模型預測下期企業併購重組概率,並進行等權合成預測概率(稱作SMAP)。具體包括:

實現以下機器學習模型預測併購重組,劃分樣本內區間、樣本外區間,rolling進行訓練,Adaboost/RF/SVM Linear/SVM Radial/ANN 1-hidden layer/ANN 2-hidden layer/Logistic Regression。

從上圖各模型的風險調整IC柱狀圖,可以看出:

  • 機器學習模型,經過非線性組合因子後,可以進一步提升整體的風險調整後的IC,即預測能力;
  • svm-linear與svm-radial表現較差,是因為我們沒有劃分驗證集(validation dataset),每期去尋找最優參數,也說明svm模型比較難調;
  • 經過等權組合各機器學習模型的預測概率,得到的新模型SMAP,其預測概率依然維持在一個比較高的水平。

從SMAP各期IC時序圖,可以看出,各期預測能力平均在0.08左右,峰值可以達到0.16。

第四部分:機器學習合成因子分析

我們分析下列內容:

  • 按預測概率,劃分分位數,分為5組,Q1-Q5;計算各組內平均召回、平均準確率;
  • 等權合成的模型(SMAP),計算預測概率各期間的自相關,是否穩定;Rank IC。

從上圖可以看出,Q1~Q5表示預測概率值由低到高的分組:

  • Q1-Q5,各組內真實出現併購重組的次數,呈單調扇形。說明SMAP有預測能力;
  • 同樣,分組的真實準確率、召回率,也呈單調性。也說明SMAP有預測能力,並發現各組內真實準確率在3%~7%之間;
  • SMAP預測概率,前後兩期相關性,穩定在0.5左右,穩定性較好。當然這與我們選取的均是中長期特徵有關。

意猶未盡?到優礦客戶端和官網深度報告頻道獲取完整報告和源代碼!

(二)MHKQ因子擇時模型在A股中的運用

量化研究中因子的加權方式對策略的表現起著至關重要的作用,在2017年的價值投資行情中,之前一直長期有效的市值、反轉及特質波動率等因子紛紛失效,而傳統的因子加權方式不能及時適應市場短期的快速變化,從而導致很多量化多因子組合出現了較大的回撤,而好的因子擇時模型能及時調整因子權重,扭轉組合頹勢,參考天風證券:《MHKQ因子擇時模型在A股中的運用》,書籍:《量化投資策略——如何實現超額收益Alpha》,對研報中的基於條件期望的因子擇時模型進行了實證及分析,利用因子擇時構造能夠及時適應市場風格變化的穩健模型,改善多因子模型的表現。

優礦深度報告實證表明,通過優礦的因子庫及宏觀數據進行實證,我們的因子擇時模型能顯著改善市場風格切換帶來的回撤,通過擇時模型對量化因子進行加權複合構建全市場多因子組合,從2011年初回測至2018年4月,月度調倉,多頭部分年化Alpha24.8%,信息比率2.74,靜態組合在17年的絕對收益為-18.23%,而因子擇時模型在17年能獲得(16.14%)的正收益,能很好地適應市場風格切換,根據因子構建的500成分內增強組合在最大回撤不超過5%的情況下能獲得10.8%的穩健年化超額收益。

下面分別介紹報告的四大部分:

第一部分:數據準備及處理

1、每期股票池的選取(剔除ST及上市不滿半年的新股);

2、選股因子的構造,對因子的預處理(去極值、中性化、標準化)。

考慮到因子的全面性和代表性,我們在規模、技術反轉、流動性、波動性、估值、成長、質量這七個維度選取了7個典型因子來構造多因子組合,如下:

這裡採用市值當做因子之一的是考慮到,市值作為市場風格切換的最顯著特徵,通過對市值因子權重的跟蹤可以彰顯模型擇時的及時性以及有效性。這裡我們單獨計算單季度凈利潤增速,財務數據來源於合併利潤表,它是根據所有會計期末最新披露的數據計算的,可能部分股票會有未來數據,但考慮到這部分股票數量其實很少,而且對所有股票統一進行處理並不影響因子的質量,因此我們仍然採用這種構造方法,僅在此處說明。

3、Uqer的DataAPI中獲取本文所需的外生變數數據

外生變數的選擇:

本文在Ronald Hua,Dmitri Kantsyrev, Edward Qian設計的基於條件期望的因子擇時模型(簡稱HKQ模型)的外生變數的基礎上進行擴展,共選擇了如下幾類外生變數:

  • 漲跌幅類:上證50、滬深300、中證500過去20個交易日漲跌幅;
  • 時間序列波動率類:上證50、中證1000過去60日收益率標準差;
  • 截面波動率類:全市場股票單日收益率標準差,全市場股票過去20個交易日收益率標準差;
  • 利率類:SHIBOR1W、SHIBOR2W、SHIBOR1M、信用利差(1年AAA中短期票據收益率 - 1年期國債收益率);
  • 貨幣類:M1同比 - M2同比;
  • 通貨膨脹類:CPI同比 - PPI同比;
  • 工業產業類:採購經理指數PMI、工業增加值當月同比IAV;
  • 日曆類:月份;

外生變數的處理:

  • 由於GDP數據季度更新,因此我們選擇了對GDP數據有較高預測能力且按月更新的PMI和IAV作為替代;
  • 貨幣類、通貨膨脹類、工業產業類月底的數據公布時間是在下一月,因此我們取上月的數據;
  • 月份的取值為下月的月份;
  • 對除月份外的變數,其他的外生變數的取值都取當期值在過去24個月末的取值的相對位置並進行min-max標準化到0~100之間,即:

第二部分:因子擇時模型

該部分內容為本文因子擇時模型的核心部分, 具體包括:

1、基於條件期望的因子擇時模型原理說明

在2017年傳統強勢因子穩定性降低的環境下,市場對因子擇時模型的需求愈發強烈,而實際應用因子擇時模型則存在諸多困難:

  • 難以平衡穩健的傳統模型以及靈活的擇時模型:由於傳統的多因子模型極度適用於過去這種風格穩定的市場環境,基於傳統模型構建的組合在歷史上往往能夠獲得驚人的收益表現,但是因子擇時模型在2014年12月以及2017年初等風格明顯切換的市場環境能為組合帶來較好的收益表現。因此,傳統模型以及擇時模型間的平衡一直是一個重要問題;
  • 無法量化地將因子擇時觀點轉化為因子權重:沒有一個量化模型指導擇時因子權重的分配,更多的是基於人為的主觀判斷;
  • 無法有效篩選因子擇時指標:擇時指標並不是多多益善,缺乏一個穩定的篩選擇時指標的模型。

因子擇時的實質是因子權重的動態分配,我們可以看看常見的幾種因子權重分配方法:

可見,因子擇時這一問題實際上就是如何對於因子的收益以及協方差矩陣進行預測,而引入外生變數改變因子收益與協方差矩陣的估計,使得模型對市場反應更及時。

基於條件期望的因子擇時原理

我們認為因子收益和外生變數之間存在相關性,當給定外生變數取值時,可以求解出因子收益的條件期望,[Hua 2012]假設因子收益和外生變數滿足聯合正態分布,

那麼我們就能計算出因子收益的條件期望和條件期望協方差矩陣,進而結合因子權重的加權方法完成因子的複合。(HKQ模型)

傳統的最大化複合因子IC或者IR加權的方式其實可以看成對因子收益以及協方差矩陣的無條件期望,我們假設因子的收益向量R和外生變數向量V服從聯合正態分布,即:

根據統計中多元條件期望的理論,在給定當期外生變數向量v時,因子收益的期望和協方差矩陣修正為:

其中,

由此,

其中s是歸一化常數。

外生變數篩選原則

在實際的建模過程中,我們不會把所有的外生變數都納入HKQ模型中,過多的外生變數也會造成模型的過擬合問題,因此我們考慮使用AIC信息準則來衡量模型的擬合優度,以此為標準每期對外生變數進行篩選。

基於條件期望模型的AIC計算公式如下:

其中,T為樣本窗口長度,N為因子數量,K為外生變數數量,而當樣本窗口長度T不顯著大於外生變數K時,例如樣本期為24個月,16個外生變數的情形下,基於AIC準則的篩選方法可能會出現過擬合,這種情況下基於AICc(修正的AIC)進行變數篩選效果會更好,AICc是在AIC的基礎上增加了一個誤差修正量,如下:

每個月末的變數篩選步驟如下:

  • Step1:初始化時,最優外生變數集合??0為空,且初始AICc取值為AICc0 = T?log[|Σ????|];
  • Step2:對於每一個外生變數k,計算將其加入到????後的AICc取值;
  • Step3:如果第二步中的最低AICc比現有AICc要低,則跳轉步驟4,否則步驟結束,當前的外生變數集合????即為篩選結果;
  • Step4:將具有最低AICc的外生變數k加入到????,即 ????+1=????∪??,更新??????c??+1為使用????+1後模型的AICc值;
  • Step5:繼續執行Step2。

每個月末,我們基於T個觀察期的因子IC及外生變數數據,利用AICc準則篩選出當月的外生變數集合,利用MHKQ條件期望模型得到??|??,結合最大化IC的方法完成多因子的加權。(PS:協方差矩陣的估計誤差較大,因此這裡我們只用??|??來進行IC加權,讀者可自行根據壓縮估計等方法來降低Σ的估計誤差,進行複合IR加權。)

2、因子擇時模型構建

模型時間周期說明

我們將模型的觀察期T定為24個月,以第一個月(2010年12月末)為例,如下圖所示:

因子擇時模型結果分析:

市值因子

可見,基於IC加權時,因子權重是過去T個觀察期的IC的均值,權重序列一直很平穩,對市場的反應極為緩慢,現在看擇時模型的市值權重,模型在2014年底將市值權重由負轉正,並在15年一開始又立馬轉為負,這一段剛好契合A股在2014年底的短暫大盤行情以及2015年眾所周知的小票行情;不僅如此,模型在2017年初,迅速地將權重調由負轉正,並在2017年全年大部分時間裡面為正,這和去年的大盤行情完全一致,同時IC模型在2017年底才緩慢地將市值權重轉正,可此時行情已經結束,凸顯出擇時模型的優越性。

反轉因子

特異度因子

將這兩個因子放在一起是因為這兩個技術面的因子在歷史上一直穩定有效,直到2017年初兩者又同時開始失效,由圖可見,我們的擇時模型在17年初突然對因子進行正向調整,在年中半數以上的時間內將兩因子的權重定為正,結合市值權重的調整,使得量化多因子的回測組合在2017年不僅不虧,還能擁有不俗的表現。

3、策略回測

1、複合因子組合回測結果

使用計算出的facotr_IC進行回測

使用計算出的facotr_ MHKQ進行回測

策略結果分析

綜合對比兩種模型可以發現:

  • IC加權組合在2017年以前能獲得較高的超額收益,而在市場變化較快的2014年底相對於中證500指數有一個較大的回撤,並且在2017年初至今一直處於回撤階段;
  • 因子擇時組合的表現較為穩定,年化超額收益24.8%,略低於上述組合的27.6%,得益於因子的正確擇時,組合在2014年底及2017年全年表現均遠遠好於IC組合,凈值走勢很穩健;
  • IC加權組合2017年絕對收益為-18.23%,因子擇時組合2017年絕對收益為+16.14%,因子擇時在風格切換市場的優越性不言而喻。

2、基於擇時模型構建指數增強組合

由指數增強組合可以發現:

  • 由對沖凈值曲線圖可以發現,組合在整個回測過程中還是相當穩健的,指數增強組合年化多頭收益14.3%,最終年化Alpha為10.8%;
  • 組合在整個回測過程中都很穩健,可以適應市場的不同風格變化,最大回撤為5個點左右;
  • 因為本文的核心是因子擇時,所以選取的都是常見的極具代表性的因子,投資者可以使用自己獨特的Aphla因子搭配因子擇時模型,使得組合在市場風格切換過程中也能實現穩健超額收益。

意猶未盡?到優礦客戶端和官網深度報告頻道獲取完整報告和源代碼!!

專業版的用戶可以查看並一鍵克隆所有的深度報告,試用專業版的用戶可以查看並一鍵克隆當月的兩篇報告,社區版的用戶可以查看我們的報告,尋找研究思路。


推薦閱讀:

打造你的機器學習團隊:三種模式和角色分工
kaggle Talking Data 廣告欺詐檢測競賽 top 1%方案分享
決策樹實戰:Titanic 生還預測
80後職場媽媽學習數據分析-第一篇
用戶畫像——搜狗用戶挖掘:文本分類

TAG:機器學習 | 深度學習DeepLearning | 數據挖掘 |