『多因子』多因子模型水平測試題(強答上)
試題地址:多因子模型水平測試題
因子
1.nA股市場驅動因子能分為哪幾大類?
從大的角度講,可以說風格因子和行業因子,詳細參見下一題。
2.n常見的因子類別?
風格因子又可以分為基本面因子和技術類因子,諸如估值、質量等屬於基本面因子,這些因子的計算原料均取自財務報表,而技術因子則一般僅用價格和成交量這兩個基礎數據來計算。當然還有一些其他用的比較多的因子,比如分析師預期、大數據以及高頻因子等。
3.n除了最常用的回歸法,還有沒有其他方法可以進行單因子測試?各自優劣是什麼?註:下面問題均針對回歸法。
其他常用的方法比如有直接計算因子rankIC,通過IC來檢驗因子的預測效果和對股票的區分度;另外還有用分組法來測試因子效果,選取不同分位因子構建投資組合,然後對比各分組收益表現。
4.n單因子測試是否需要糾正版塊、市值偏離等問題?如何糾正?
是否行業中性和市值中性取決於個人,行業中性和市值中性可以幫我們更好地理解收益的來源,也許某個財務因子表現好,但很可能是其與市值因子相關性極高。行業的糾正可以使組合中各行業的佔比和基準保持一致,市值的糾正可以在優化限制條件中加入市值暴露為零的限制條件,或者簡單的按市值加權構建組合。
5.n行業歸屬因子是否應選擇動態變化的數據?
是,因為同一家公司在不同時期可能主營業務發生變化,導致的行業分類會發生變化,若用靜態的數據一方面不合理,另一方面是隱含的用到了未來數據。
6.n混業經營的上市公司,其行業因子有哪些處理方式?利弊?
一個常見的處理方法是繼續用虛擬變數來代表行業因子,只是對於混業經營的公司而言不是簡單地0和1,而是根據某個財務指標(比如營業收入佔比)來決定各行業的分配比例。
7.n行業因子採用GICS、證監會、申萬、中信等第三方數據更好?還是利用相關性、聚類分析等演算法來動態確定更好?各自利弊?
個人建議用市場通用的第三方數據更好,比如申萬;相關性和聚類分析等演算法有可能存在偽回歸的風險,缺乏踏實可靠財務經營邏輯,而且第三方數據都會根據公司的經營狀況進行動態更新,在市場上也會形成一致預期。
8.n規模因子(Size,也叫市值因子)為什麼在中國具有如此重大的影響?選擇長期暴露小盤股有哪些利弊?
一是小盤股的殼資源效應;二是小盤股可操作性強,在A股市場散戶居多而且內幕交易盛行;三是小盤股成長性更高,如三因子中提到,長期來看,小盤股確實較大盤股有超額收益。
流動性危機比如14年12月份,而且註冊制實施後,Size因子肯定不會一直表現這麼搶眼。
9.n市值因子應該怎麼取?取市值本身、市值對數、市值平方根有什麼區別,哪種更好?你認為流通市值和市值哪個信號更強?
市值取對數會拉近個股間的差距,很多股票就近乎與等權重;至於哪一個好,得看實際的回測效果,從個人經驗和直覺來看流通市值的代表性更強。
10.換手率應該怎麼計算?如遇長時間停牌,如何處理?
對於個股一般用成交量/總流通股本來計算換手率,對於一個策略而言換手率一般是來衡量手續費的高低,常用每天雙邊交易總額/前一天收盤總資產來計算。停牌沒有交易,可以簡單置零處理。
11.若某一因子包含長期平均數據(比如5年平均凈利潤),而中間有數據缺失的片段(比如最近5年中有2年的年報缺失),應該如何處理?現有兩種參考方法:設為空值,或取現有數據的平均值充作長期均值。哪種更好?還是無所謂?
對於缺失值的處理沒有完美的方法,不同的情況應不同分析;以文中例子來說,要計算5年平均的凈利潤,若企業的利潤是線性增加的,那麼取現有數據則會高估平均利潤,同樣若企業利潤時線性減少的,那麼取現有數據則會低估平均利潤,具體情況要具體分析。
12.財務數據應該在哪個時點進行更新?比如月頻的多因子模型,年報公布時間可能為3月或4月,是在3月底的時候即時更新那些已出的數據,還是在4月底統一更新使用?
為了更好獲得信息的時效性,通常的做法是隨時公布隨時更新。
13.有哪些指標可以用來衡量單因子測試的結果?
回歸法中,用t絕對值均值,|t|>2佔比,t序列方差,beta均值,beta方差等
構建組合法中,用信息比IR、夏普值、最大回撤、換手率等通用指標。
14.依據單因子測試結果,如何對因子的有效程度進行排序?或者說,如何用單一指標衡量因子有效性?
若評估風險因子,則用abs(mean(t))/std(t)
若評估alpha因子,則用information ratio
15.所謂的「alpha因子」和「風險因子」,應該怎麼進行區分?
風險因子更在乎於對股票收益來源的解釋,從經濟金融角度講也是合乎投資邏輯,從統計角度講,如上一題列示,abs(mean(t))/std(t)是顯著的,比如大於2的比例非常高;而alpha因子的要求更高,統計上可以表示為mean(t)/std(t)是顯著的,直觀上講是說,風險因子對方向沒有要求,只要求因子值對股票的解釋性、區分度,而alpha因子則要求因子方向保持穩定且要顯著,這樣才能獲取穩定的超額收益。
16.你理解中有效且有邏輯的因子應該包括哪些?有邏輯但效果較差的因子應該包括哪些?如果採用某種方法組合出一個古怪的因子解釋力很強,但是看不出因子的經濟意義,你該怎麼辦?
有效且有邏輯的因子比如有估值、市值;有邏輯效果差可能是因子已經反映在價格裡面,也有可能是市場並不是那麼有效(尤其A股);對於複雜因子,可以通過歸因分析來細看因子的風格偏向。
17.如何打磨舊的因子,提高其有效性?
一個簡單的想法是多測試舊因子的不同使用場景,比如估值因子在不同行業間的表現差異;又或者構建動態情景模型(dynamic contextual alpha model),在不同情境下看舊因子的表現;當然最直接的是進行舊因子的擇時。
18.構建因子的新信息源如何尋找?有哪些思路?
比如現在市場上很火的高頻轉低頻因子;又或者一些還沒有被其他投資者利用到的數據(非結構化,需要很輕的技術把這些數據變為結構化的因子形態),比如熱度數據、情感數據、支付數據等大數據領域。
19.現在常用的因子都是易於量化的因子,對於基本面因子、事件驅動因子、市場情緒因子等不易量化的因子,有無合適的處理方法?
具體問題具體分析,不好量化的因子可以根據經驗直接分層打分來處理。
模型擬合
1.擬合多因子模型的綜合目標是什麼?
增強模型的解釋能力,提高模型對風險的預測。
2.如何選擇樣本空間?例如對初上市股票、ST股票、指數成分股變動、停牌股票等異常情況的處理方法。
每一期進行回歸時的樣本空間都需要動態處理,對於明顯不合理且沒有代表性的股票可以直接剔除,比如初上市的股票,ST股票、停牌股票等,保證最終所選出來的股票是最具有代表性的。同時需要注意,剔除時需要考慮行業問題,不能剔除不合理之後某個行業下面就沒有代表股了,比如A股的保險業,對於這種情況就需要綜合考慮。
3.如何選取因子組?有什麼可以參考的經典理論?
所選取的因子要保證合乎投資邏輯且經過長期市場檢驗,參考理論多來自於經濟金融教科書、論文期刊等,比如Fama-French三因子模型。
4.從選擇因子到多因子策略回測,一般有哪幾個環節?哪些可以省去,哪些不能?
單因子測試,多因子合成,預測個股收益率、交易成本估算、組合構建
5.每一期的因子暴露度,如果不進行離群值、缺失值以及標準化處理,會有什麼後果?如果選擇進行處理,又會帶來哪些需要注意的模型扭曲?
極值在回歸中會影響整體的情況,若不進行標準化處理會導致因子間的量綱相差甚遠,缺失值過多也回影響模型整體情況;對於極值的處理要考慮合理性,特別異常的極值可以直接去掉,缺失值剔除太多也不行,標準化要考慮行業之間在某些因子上固有的差異。
6.離群值處理方法有那幾種?一種比較常用的辦法是將離開均值N倍標準差距離以外的離群值拉回N倍標準差的位置上,這時候N一般取值多少?
離群值處理有分位數去極值、標準正態分布去極值;若用標準正態分布,常見的N取3。
7.缺失值的處理方法有哪幾種?現提供三種參考方式:一是把空置設為NaN,回歸涉及NaN項時用程序自動忽略;二是把所有含NaN項的個股從當期票池中剔除;三是把所有NaN(在標準化後)設為零(或中位數)。它們有什麼區別?哪種好?或者有沒有更好的?
回歸時有NaN的項,程序也會自動忽略,和剔除所達到的效果一樣;直接將NaN設置為0或者中位數也是一個可選方案,但這種替代是否合理還要具體情況具體分析;個人經驗是,若因為某些原因缺失值不能直接去掉則建議用某個值替換,反之沒有這個限制則可以剔除。
8.標準化的方法有哪些?標準化後數據近似呈現何種分布規律?各種標準化方法的利弊?
常用的是假設因子值服從正態分布,用(x-u)/sigma來進行標準化;在因子值明顯不服從正態分布時,可以採用中位數標準化方法。
9.帶權重的標準化,權重怎麼設置?是否需要和回歸時的個股權重保持一致?
可以選用流通市值作為權重,回歸時個股設置的權重是為了剔除異方差的影響,沒有必要和帶全標準化這時的一樣。
10.標準化、離群值處理、缺失值處理,三個環節如何確立先後順序?
一般來說,處理順序為極值處理、缺失值處理、標準化。
11.因子之間或多或少具有一些相關性,若把所有因子進行正交化處理,會發生什麼情況?這樣做或不這樣做的理由是什麼?
類似於主成分分析法,若把所有因子進行正交化則會失去因子的投資邏輯,會使得模型的解釋性不夠強也沒有原始因子那麼直觀。
12.如何選擇截面回歸的頻率?依據是什麼?
截面回歸的頻率決定了對風險預測的horizon,這也對應了後續構建組合的調倉頻率,需要聯繫起來考慮;常用的計算截面回歸的一般是日頻。
13.回歸模型涉及的個股收益率怎麼計算?最簡單的(又能保證一定精確度的)方法是什麼?
可以用復權收盤價,精確結果應該是利用市場價格和分紅、配股等影響收益的因素結合計算。
14.回歸模型是否需要加入截距項(即常數項)?在什麼情況下可以取,什麼情況下不能取?
有行業因子時不能加入截距項,因為行業因子之和為全1向量,再加截距項就會導致回歸係數不唯一確定
15.回歸時用OLS和WLS的區別在哪裡?使用WLS的依據是什麼?
WLS主要是消除異方差的影響,得到的factornreturn更有效,在現實中確實存在不同市值股票的波動表現差異很大,大市值藍籌股波動明顯小於小市值股票,WLS有其合理的意義。
16.如何評估或衡量多因子模型的效果?
常見的有兩種方式,一個是進行典型的bias test,構建組合計算BS統計量,看其波動率是否為1;另一個是直接繪圖,xy軸分別為組合實際波動率和組合預測波動率。
17.如何判斷現有因子是否足夠解釋收益率?
R^2,值的絕對水平以及穩定性
18.中國股票市場多因子模型的R^2通常在什麼量級?
0.4~0.5
小小打個廣告:
優礦自己有400+的因子庫,有基本面因子、技術因子也有文中提到的分析師因子、券商常見因子、特色因子等等。
歡迎各位朋友查閱
優礦因子數據
優礦特色數據
推薦閱讀:
※混沌價值二號凈值從9月30日狂跌不止,這是動用了多大的頭寸做什麼品種才會跌成這樣??
※時間序列分析----結合ARMA的卡爾曼濾波演算法
※請問是否有辦法可以對中國市場的債券違約風險進行量化的度量,計算出違約的可能性?
※【信號】神策alpha No.2