關於Alternative Data的一些想法(1)

從Facebook到京東,這兩天不斷聽到關於數據濫用的新聞,Alternative Datasets的第一次大型出場展露出了無比負面的形象。這些數據集的存在和被使用已經不是新聞,雖然關於用戶隱私權的問題一直沒有定論,但這些第三方數據供應商確實從合法的渠道得到了用戶的信息,並且將這些數據匿名化處理然後產品化出來賣。比如在

Data Provider Database - AlternativeData.org?

alternativedata.org

上貼出來的200多個供應商,基本上已經包含了你日常大部分有商業價值的行為(如果知乎上有AD.org的朋友請給我打錢)。對於商家來說這些信息是提高業務質量的數據支持,對於市場交易來說這些信息就是全新的alpha來源

本文暫時不討論這些數據可能的道德或者隱私問題,基於其合法的共識,只單純從一個投資者的角度去認識一下這些數據集,對數據性質、可能的使用方式、風險以及發展方向做一個簡單的回顧。估計一次寫不完,從回顧數據集開始,權當整理工作筆記。

幾類常見的Alternative Dataset

單論美股市場,我目前接觸過的數據包括

1. 信用卡/借記卡消費數據

這一類數據已經被大範圍使用,據說已經接近「大家都在看這個數據我不買不行」的地步。通常數據的來源有兩種

  • card processor授權,用爬蟲和NLP爬匿名後的用戶信用卡對賬單。這種方式獲取數據的準確度很大程度上依賴於數據供應商對信用卡店家標記的準確性,要從簡短的交易附註中標記交易的店家、支付方式(比如是實體店還是網購),一旦附註的結構甚至用詞發生一些變化,那麼數據集則會面臨失去某個公司某個支付方式整塊數據的風險;比如三月份時有一家department store做了信用卡交易附註的微調,在片語中去掉了數據集原本關注的關鍵字,導致其網售渠道的所有交易都沒有被捕捉。
  • 更直接的來源,直接從processor和銀行拿交易數據。由於是銀行直接給,所以省去了從交易附註摳字做tagging的一步,因此數據更準確;然而卻是數據也會更貴因為成本會更高。

2. 電子郵件收據

舉個例子:在亞馬遜買了一件東西,然後亞馬遜會給用戶發送一封訂單確認郵件,這封郵件的收據信息就會被數據供應商獲得;他們同時獲取的還有物流信息,精細化甚至到物流的幾個主要節點(訂單確認、發貨、配送、確認收貨),由此不僅對ecommerce的銷售數據有掌握,同時對其物流渠道的質量也有了解。然而這一塊數據應用量還不算大,一方面由於銷售方式,傳統零售商的線上銷售比例還佔不到足夠影響全局的比例,另一方面由於數據採集質量的問題,實際可用有價值的數據太少,從數據回測結果看辣雞太多。。。

3. 地理位置數據(geo-location)

大概是最fancy的數據之一,宣傳時糅雜了各種computer vision的技術名詞,同時又隱約給人一種「big brother is watching"的緊張感(其實從數據內容和質量來看暫時他們還什麼都看不見。。。)數據大概分為兩類

  • 衛星數據:通常號稱有40顆左右衛星覆蓋全球,數據內容包括停車場數車、煉油廠油罐陰影等,然而又因為技術原因只能覆蓋比如從早上十點到下午兩點的數據(基本上也就只能看見不上班的了),數據歷史覆蓋極短,數據質量受天氣影響波動也大。
  • 手機定位數據:GPS ping,後台服務刷新,數據更新頻率很高大概15分鐘到半小時就會刷新,單就美國而言有近千萬POI,細思極恐。。。不過綁定的都是設備ID,按合規數據供應商應該拿不到個人的信息。相較於衛星數據,定位數據的準確度要高很多;尤其針對大型商場(多商家擁擠在同一小塊區域)可以做更準確的定位和區分,而衛星數據沒法區分停的車是來吃飯還是買東西的因而通常都會放棄這塊。目前主要技術難點在去重,似乎device double counting的問題還比較嚴重。

4. 網頁爬蟲和點擊流(click stream)數據

這兩種數據其實還不太一樣,但通常都針對PC端且目標監測是網站流量和轉化率,所以放在一起討論。

  • 爬蟲數據:爬某些URL的訪問量(這個機制其實我至今還不太能理解),爬商家網上的SKU,爬網頁上顯示的KPI相關數據(當前活躍人數、同時在線人數、過去30天銷量、目前庫存等等);對於業務重點在線上端的公司(OTA,car rental,online grocer)來說,這類數據就比其他數據要更有價值一些。然而爬蟲風險也極高,技術上要應對各種反爬機制(代理池成本、時間成本),質量上還要擔心公司會不會在網上放出虛假信息(對於一些不是必須放的信息公司很可能沒有動機放真實數據),一旦虛假信息的事情發生,那麼爬蟲數據供應商的業務模式都將」面臨崩潰「。
  • click stream:簡而言之就是監測你在點擊了x頁面之後點擊的下一個頁面是什麼,然後通過一整條點擊的長鏈近乎還原出你在該網站上的瀏覽過程。優點是對網站的流量有更精細的了解,包括各頁面的bouncing rate和transition matrix、不同環節上的轉化漏斗、各個營銷渠道的有效性,同時基於用戶信息可以深入到不同的cohort、segment、geo-location去看行為上有什麼差異;缺點是數據量大了以後噪音也非常大,而且最後的數據和web traffic關聯比較好但由於conversion rate估計的誤差導致和財報KPI的相關性還不夠(web traffic -> conversion rate -> average ticket,層數太多誤差累

5. App使用數據

類似點擊流,只不過在移動端,URL endpoint以及記錄cookie的方式不大適用。數據直接從Google Analytics和Adobe Analytics購買,依賴於商家必須有用這些analytics提前在App里埋tracking points否則沒法追蹤,但如果埋過點那麼數據還是比較準確的。類似上一條,主要關注的也是流量數據,對於主營移動端的產品來說對DAU/MAU的追蹤也更加準確。Points of interest規模在幾億左右,風險同時包括了雜訊大、歷史短和設備重複計數

6. 其他數據

  • data broker:大概算是做各種數據集集成的,什麼都插一腳,數據來源大多是其他數據供應商加上一些in-house datasets
  • consensus datasets:更針對二級市場投資,通常是以上數據集需要去關聯的KPI的市場一致預期數據;傳統來源包括Bloomberg的賣方統計,但由於樣本比較少且有sell-side bias,有時會需要聽到更多的聲音來對市場預期有更準確的把握
  • 具體行業相關的數據,比如餐飲業traffic數據、物流港口吞吐數據、航空航線和occupancy rate數據、OTA預訂和occupancy rate數據等等,大概是只有想不到沒有買不到。。。

以上只是我目前見過和接觸過的數據集類型,如果有人對此了解更多也希望能再多聽取一些觀點和見解。客觀來看目前美國在大數據挖掘和合法產品化的道路上做得比國內要快且好很多,不過趨勢都已經形成,模式成熟化只是時間問題,希望能早日看到國內有更多類似的產品。

推薦閱讀:

讀「切莫空談大數據,解讀需要走出物流大數據應用的誤區」有感
在輿情引導中發揮大數據技術優勢
從頭學習大數據培訓課程 NOSQL 資料庫 hbase(五)讀取 hbase 的 hfile 文件並生成 hive 使用的 orc 文件
阿里巴巴大數據之路-數據同步
產品經理:一張表格理思路,行為數據打輔助

TAG:數據分析 | 大數據 |