No.19 關於小數據 - 摸清底子,再談理想

大數據折騰了這麼幾年,很多企業在興奮感過後,更多的是無力感。畢竟有能力、有體量、有資源可以探索大數據的公司實在是鳳毛麟角。不過經歷了這一波大數據的狂熱,給市場最大的啟發就是喚醒了大家的覺悟:更多的人、更多的角色開始意識到數據的價值。相比大數據的虛無縹緲,日積月累下來小數據是真實可持續的,市場目光開始逐漸由外轉內,小數據變的尤為珍貴。

但從實際情況看,很多企業會對小數據過分樂觀,尤其是在數據體量比較大、積累時間比較長的公司里尤為嚴重。由於前期沒有對數據有系統性地思考和規劃,數據定義不唯一、缺少必要信息、數據採集不規範、存儲結構不合理等問題,在數據使用過程中都可能會出現。在沒有嚴格地評估過數據質量之前,很容易用數據量這個指標來粗略代替數據質量,導致最終在數據應用時,疏漏百出,功虧一簣。舉個例子,用戶在APP的行為數據是24小時持續記錄,體量之大無可厚非,但可能由於暫時想不到應用場景或還沒有精力處理,常常會先把這部分數據據先記錄下來以後再說。等到真的想去分析使用的時候,才發現iOS、安卓數據口徑不唯一,記錄時間不一致,採集過程中數據丟失。最後由於這些數據質量太差,就放棄掉了。

負責的說,沒有實際使用過的數據,一定存在問題,而且這個問題可能會存在在數據流的各個環節。所以任何一個用到數據或想要以數據為基礎做產品的角色,務必先要認清現實,對已知數據的質量嚴格評估、瞭然於心;對未知數據隨時保持質疑,謹慎決策。

那如何去有效評估數據質量,衡量數據價值?一般我會把它分為三部分按重要性排序依次為:數據廣度、數據深度、數據精度。

數據廣度:空間領域內的維度多樣性&強關聯關係

理論上來說,描述一件事物的數據維度越多,越是能更加精準、全面的了解事物。能夠在同一時間區間里獲取盡量多維度的數據,便會更加清楚事物本質。衡量數據最終能發揮多大的價值,維度的多樣性常常是關鍵性因素。

從現狀來看小數據常有兩個問題:一是數據維度過於同質化。雖然數據源很多,顆粒度很細,但都在從一個維度來說明或驗證同一件事。二是數據關聯性太弱,很難從中推演得出維度之間的定量關係。

當然,找到這些維度、定義關係,離不開數據科學家大量的模擬計算,行業內專家性意見等等,這個過程是極為漫長、成本風險性也比較高。但一旦在市場早期能在多維度的數據里找到影響市場的關鍵維度,並掌握之間關聯關係,就越容易佔領市場高地,形成自己的數據壁壘。在後期不斷豐富數據維度的過程中,讓數據之間產生物理甚至化學反應,可能會有更準確或是更新奇的發現。

數據深度:時間軸上的數據完整性&合適的數據量

數據的完整性是追根溯源的前提,聯繫上下文總能多多少少找到事物發展的一些規律。在同一數據維度下,能夠收集到截止當下足夠的歷史數據。在前期可以不用過分追求數據實時性,只要保證後續會有持續性更新。

但能夠完整準確的留下數據也並不容易。數據不是自生成,每一條是從外部寫進來,來源、方式也會隨著業務發展、人員安排有所變化,如果在前期沒有系統的約定好統一的數據處理機制,那最後數據很容易東一塊、西一塊。各自可用,合在一起就玩不轉了。最明顯的就是數據兼容性差;老數據可用,新數據一加,資料庫又要重構。

另一方面,數據量確實是衡量數據質量的要素,但他絕不是最大。這個「足夠」的量級到底有多少一般和能夠到說明問題中找到供需平衡點。在沒有合理假設的數據使用場景,大量收集和儲存數據只會讓資料庫越來越冗餘,維護成本越來越高。

數據精度:高效使用結構化數據&準確記錄數據

在記錄層面,能夠真實準確地記錄數據發生的時間、地點、內容等是最基本的要求,也是數據可使用的前提,關於這部分主要功底還是在技術層面,目前行業內也有很成熟的技術方案,術業有專攻,這就不詳說。

這部分更想強調的是在分析層面,結構化數據在精準度上比非結構化數據有著天然優勢。無論在輸入還是輸出,結構化數據可以相對容易並準確的描述問題嚴重性、解決方案的有效性。在非結構化數據上,要得出精準的數據結果需要經過大量的定性定量分析,而且結果和標註的樣本屬性息息相關。

不過這並不代表非結構化數據不重要,據統計,當今世界非結構化數據的增長率65%,結構化數據僅為30%,隨著人們行為、消費、生活模式的轉變,非結構化數據在互聯網整體的佔比只會增不會減。況且信息皆有結構,非結構化的數據一定也存在著一種目前還未識別的結構規律,能夠處理非結構化數據是一件難度更高、也是更有意義的一件事。

只是在早期儘可能的先收集並用好結構化數據,非結構化數據作為輔助,可能是個更加「經濟實惠」的做法。


小結

最近接觸了一些關於數據應用的新項目,對數據的整體理解和應用層面有了一些想法,同時也有新的困惑。例如,怎麼樣將自家產品積累的數據盤活,找到新的應用場景?歷史數據對未來的數據表現預測能力到底怎麼樣? 每天產生的數據能否賦予新的意義回爐再造形成自循環?跨行業的數據以什麼樣的維度找到共性標籤,聯合去拓展新的可能性等等... 數據質量算是第一個找到自己方法論的一個,也是最基礎的一部分,僅以分享,後面的慢慢總結摸索。

推薦閱讀:

TAG:数据分析 | 产品经理 | 数据挖掘 |