數據與模型
模型,是我們理解對象的一種結構化方式。所謂的建模,是基於一定的假設對分析對象展開簡化分析的過程。所有的分析,必須時時刻刻記住我們的假設是什麼,其中哪些假設可以放寬不會影響主要結論,哪些假設一旦不成立整個模型會分崩離析。帶著這樣的模型和假設,從數據裡面找到可以證偽或不能證偽模型的證據,得出結論的過程,即從數據中尋求模式(pattern)的過程,也就是我們日常所講的數據分析。以下簡單聊聊數據分析過程中大部分人理解存在誤區的地方。
第一,數據分析的本質是驗證而非探索得到一個結論。從數據中尋求模式的過程,具備無限發散的可能。因此,首先必須有脫離於數據的模型以及模型的假設。不帶任何假設看數據,得不出任何有價值的結論。即便是最純粹的數據挖掘或機器學習,同樣需要對樣本有必要的假設。給定假設結合邏輯,可以演繹出一組結論,數據分析的過程便是基於數據來驗證這一組結論的過程。
第二,數據分析中的驗證,本質上只能是證偽而非證實。嚴格來講,所有基於數據來驗證模型和假設的可靠性,都需要關注P值。P值不是給定樣本結果時原假設為真的概率,而是給定原假設為真時樣本結果出現的概率。因此,通過數據分析來產出結論時,嚴謹的思考方式應該是:基於已有的數據,我們的假設沒有被挑戰,故而可以在一定程度上認為數據支持了我們的假設。只能在一定程度上說明這一點,是因為一個模型最大的假設是模型本身。
第三,一個模型,最大的假設是模型本身。這是CCER計量經濟學教授朱家祥講授的所有知識裡面對我影響最深的一條。大部分人意識不到這一點,是因為在他們看來,來自於教科書的模型,默認應該就是對的。然而,在應用數據分析的過程中,模型從來都談不上正確或者錯誤,只有合適或者不合適的差別。問題是,模型選擇本身在大部分時候無法通過假設檢驗得到有效的反饋,只能依賴於建模者的經驗和品味。對很多缺乏品味的數據分析師而言,這是一個悲劇。
第四,一個模型沒有被數據證偽,不能說明該模型對,別的模型錯。更可能出現的情況是,一個模型沒有被數據證偽,說明該模型還湊合,但不排除還有別的模型更合適。大部分情況下我們不知道還有多少潛在的備選模型可能更合適。這時候,奧卡姆剃刀原理可以幫上忙,優先考慮簡單的模型。在沒有明確的領域知識時,模型越複雜,可能犯錯的地方越多。絕大部分時候,最簡單的模型,就是線性模型。
第五,模型不是越複雜越好,而是,在可以解釋問題的前提下,越簡單越好。甚至,在一些情況下,犧牲少許解釋力可以大幅降低模型複雜度時,我們應該優先選擇簡單的模型。使用簡單的模型對樣本進行擬合的過程中,不可避免會出現殘差。如果某項變數可以有效說明殘差裡面的一部分內容,把該變數納入模型中可能是值得的。帶著這樣的思路,我們大致可以知道什麼樣的變數有必要進入模型。
第六,找到有價值的變數,依賴於領域知識和DGP(數據生成過程)的掌握程度。很多互聯網行業數據分析師的領域知識匱乏到了令人髮指的程度,不理解業務的目的,業務的發展階段,業務開展過程中所面臨的約束,業務變化可能會帶來什麼樣的預期結果。這樣的數據分析師,更合適的title是跑數據工程師。理解DGP的數據分析師更是鳳毛麟角,只有兼具業務和技術視野,才能深入理解DGP。遇到了理解DGP的數據分析師,請珍惜TA。或者,請推薦給我。
推薦閱讀:
※大數據殺熟憑的是什麼?
※產品經理:一張表格理思路,行為數據打輔助
※物聯網、大數據、雲計算三者之間的關係為何?
※AI若無人性 你我只是被任意曲解的數據碎片
※為啥北上深的年輕人總覺得房租高?