關於Alternative Data的一些想法(2)

正文之前先打個廣告:有人去QuantCon NYC 2018嗎?希望可以認識一下同去的夥伴。

上一次介紹了幾類常見的dataset,這次準備回顧一下可能的使用場景。

數據對於作為來源的企業的價值

企業作為原始數據的提供者,通常也是數據分析的用戶,在這樣的場景下這些數據的作用通常是為企業管理所用,性質就更接近business analytics、data analytics,比如

  1. 從運營的角度:日活有多少?App用戶和網頁用戶流量分別怎麼樣?主頁bouncing rate怎麼樣?常見的瀏覽轉化鏈和環節轉化率怎麼樣?
  2. 從CRM的角度:用戶RFM數據什麼水平?不同cohort的留存率怎麼樣?羊毛黨有多少?酒店一類occupancy rate怎麼樣?loyalty program還有frequent flyer program用戶的質量是否會顯著更好?
  3. 從市場營銷的角度:不同渠道的投入產出比怎麼樣?是否值得在搜索關鍵字上花那麼多錢?

還有很多使用場景,根據企業性質不同和戰略不同對於數據的需求也不一樣。不是很熟悉這一塊的業務所以不再列舉。

數據對於二級市場投資的價值

這就是一個仁者見仁智者見智的話題了。本質上來說,新的數據就像新的因子一樣,有什麼樣的策略完全取決於分析員的研究結果,可以實現的策略依賴於對數據的不同處理也不盡相同。

從一個更抽象的角度看,對這些數據的使用有這樣幾種

行業輪動分析,近期是否某幾個行業的數據更強勢?某個行業近期的趨勢如何?

    • 對於同行業來說,縱向上可以比較行業周期性和季節性,同時通過年增長看去除季節性後的整體趨勢,橫向上可以比較不同公司的表現
    • 對於不同行業來說,可以比較不同行業不同的周期從而從基本面的角度判斷不同行業趨勢上的不同,實現板塊層面的一些基礎優化;然而這樣的風險是有很強的industry tilt

基本面指標預測,包括季度營收、可比銷售、流量等等

    • 數據如果是季度性的那麼可以直接做統計分析,比如線性回歸
    • 如果是更高觀測頻率的數據(月、周)那麼還需要做一定的整合到季度,從而和財報數據可比
    • 從實際角度出發線性模型在這裡非常夠用,甚至可能因為觀測樣本太少(數據採集時間短)以及異常值原因,甚至可能有過擬合風險;所以各種統計學習的模型基本都可以靠邊了,3年12個樣本真是完全沒法從統計的角度進行預測。。。

量化因子信號,因變數不再是季度性基本面指標而是對應時間區間的股票收益率

    • 這就是一個傳統的將數據因子化的過程,由此可以做單因子模型、更大因子庫的多因子、在已有因子模型的基礎上加overlay等等
    • 對數據頻率和延遲有更高的要求,統計處理更為複雜(標準化、異方差處理、異常值處理),模型選擇也更為多樣(線性模型、降維以後線性模型、簡單非線性模型、甚至深度學習模型)
    • 本質上可以認為問題退化成了一個傳統的因子模型開發,只不過因子的來源是alternative dataset而不是傳統金融數據而已

有了數據和模型,然後可能需要考慮的問題就是:

  1. 這些數據和因子有多有效、有多大的解釋能力?這不僅只是一個統計上顯著的問題,也是基本面邏輯上有多有意義的問題;由於這些數據通常會和實際業務直接掛鉤(這也是能做基本面指標預測的原因),因子的顯著性也應該有相應的基本面解釋,從而也可以從兩個方面驗證因子的有效性而降低偽回歸的風險
  2. 如果數據暫時還沒有效果,以後會有嗎?這是一個投資者博弈的問題,而且帶有一定的反身性;比如如果大家都覺得股價會隨著數據走,於是按照數據交易,那麼最後形成的結果就是推動股價沿著數據走,那也許在這種情況下需要做的就是知道別的投資人在怎麼研究這些數據、他們會從這些數據得出什麼樣的結論
  3. 市場環境是否會允許這樣一種data-driven trading?這一點和第二點類似,但更多在於大體的市場環境,如果機構用戶的比例繼續過低、或者真正市場化的程度也仍然太低,那麼股票價格的主要驅動因素就不大可能來源於這類數據,於是數據價值就又降低了

前路漫漫,希望數據市場在國內能發展到有投資價值的那一天。

推薦閱讀:

spark VS Hadoop 兩大大數據分析系統深度解讀
sqoop簡單介紹
為啥熟客就要多花80元開房?「佛系」大數據為何舉起殺熟的刀
大數據開發培訓課程零基礎能學嗎
《數據架構》閱讀筆記(五)作業環境

TAG:數據分析 | 大數據 | 量化研究 |