【深度長文】互聯網人必須要懂的「倖存者偏差」

02-02

據說，在標題里加上【深度長文】四個字，會將點擊率提升一個等級，而文章到底是否深度其實並不重要！——尼古拉斯*趙四（本文轉自公眾號衛夕聊廣告，稍有刪改，點擊查看原文）

不管你是否聽過這個詞，這篇文章都會讓你對「倖存者偏差」理解的更加深刻，先讓我們來看幾個段子：

學校組織郊遊，老師問：沒來的同學舉個手，好，人齊了，我們出發吧！
央視記者在一輛高鐵上問：您買到票了嗎？買到了！您呢，您買到了票了嗎？買到了！
媽媽為什麼不挑食？因為她買菜的時候已經挑過了！
降落傘的電商店鋪為什麼都是好評？因降落傘有問題而失事的人想給差評也給不了！

這些都是關於倖存者偏差的段子，大家看完都哈哈大笑，是因為我們都太容易識別它了，然而我列出下面的案例，我們可能未必能得出正確的結論了：

1936年，美國總統大選，《文學文摘》雜誌通過140萬人的電話調研顯示蘭登會贏得大選，這個調研有多大的可信度？
在古埃及的文物中發現了莎草紙，而在同期其他地中海文明如腓尼基、古希臘、古羅馬則沒有發現莎草紙，能否說明該時期莎草紙在埃及應用廣泛而在其他地中海文明則沒有應用？
某新遊戲上線一個月，遊戲策劃隨機找了遊戲中高度活躍用戶進行調研，確定了遊戲下一步迭代的核心方案，會不會存在致命缺陷？
某記者在網上搜出「民國小學生作文」，文采極好，於是記者總結道：現在的小學語文教育和民國時沒法比啊！

事實上，以上的案例都極有可能得出錯誤的結論：

1936年美國大選的調查，由於是電話調查，而電話在30年代的美國還是富人的專利，而這些富人並非美國選民的隨機樣本，最終羅斯福而不是雜誌預測的蘭登當選。
古埃及的發現了莎草紙而其他地方沒有，真實原因是其他三個地方——腓尼基、古希臘、古羅馬氣候比古埃濕潤，而埃及則比較乾燥，而這些莎草紙在潮濕環境中並沒有保存下來。
新遊戲上線一個月，有留存用戶，也有流失用戶，關注留存用戶需求固然重要，但對於一個新遊戲而言更重要的是關注那些流失用戶的流失原因。
民國小學生作文之所以能流傳到今天，必然是當時就是佼佼者，它是倖存者，代表不了當時民國小學生的整體水平。

在我們日常工作的決策中，倖存者偏差是如此普遍，常常在不經意中影響我們的決策與判斷，那麼這個概念的本質是神馬？它容易在哪些情況下發生？它的作用機制是怎樣的？我們如何避免它？今天的文章我們就一起來探討一下這個問題：

「倖存者偏差」的歷史

「倖存者偏差」來源於二戰中一個著名的故事：

1941年，第二次世界大戰中，空軍是最重要的兵種之一，盟軍的戰機在多次空戰中損失嚴重，無數次被納粹炮火擊落，盟軍總部秘密邀請了一些物理學家、數學家以及統計學家組成了一個小組，專門研究「如何減少空軍被擊落概率」的問題。

當時軍方的高層統計了所有返回的飛機的中彈情況——發現飛機的機翼部分中彈較為密集，而機身和機尾部分則中彈較為稀疏，於是當時的盟軍高層的建議是：加強機翼部分的防護。

但這一建議被小組中的一位來自哥倫比亞大學的統計學教授——沃德（Abraham Wald）駁回了，沃德教授提出了完全相反的觀點——加強機身和機尾部分的防護。

那麼這位統計學家是如何得出這一看似不夠符合常識的結論的呢？沃德教授的基本出發點基於三個事實是：（1）統計的樣本只是平安返回的戰機；（2）被多次擊中機翼的飛機，似乎還是能夠安全返航；（3）而在機身機尾的位置，很少發現彈孔的原因並非真的不會中彈，而是一旦中彈，其安全返航的機率極小，即返回的飛機是倖存者，僅僅依靠倖存者做出判斷是不科學的，那些被忽視了的非倖存者才是關鍵，他們根本沒有回來！

軍方採用了教授的建議，加強了機尾和機身的防護，並且後來證實該決策是無比正確的，盟軍戰機的擊落率大大降低，這就是「倖存者偏差」故事的來源。

「倖存者偏差」的本質

廣義的倖存者偏差用統計學的專業術語來解釋是——「選擇偏倚」，即我們在進行統計的時候忽略了樣本的隨機性和全面性，用局部樣本代替了總體隨機樣本，從而對總體的描述出現偏倚。

統計學的簡單描述是這樣的：統計全集為A，觀察到A的子集A1有特徵X，A1為倖存者，而A另外的子集A2並沒有觀察到或者被人為忽略，於是判斷全集A都有特徵X，事實上A2的特徵為Y。

用上述記者調查買火車票的案例來代入解釋為：A為全體想買火車票的人，A1為已經在火車上的人，A2為想買但沒買到的人，特徵X為買到票，特徵Y為未買到票，即倖存者偏差將一小部分顯性樣本代替了隨機樣本，從而導致了統計的偏差。

有了這個框架，我們就能從理論的角度理解這些「倖存者偏差」的具體案例了：

亞裔學生案例：美國學生會發現亞裔同學在數學方面要超出其同齡孩子很多——「倖存者偏差」：能到美國上學的孩子在中國的教育水平和成長環境通常都會相對優越，要是中國的母語是英文，想必語文成績也會優於美國同齡學生。
住院研究案例：假如北京長庚醫院對心臟病人住院病人的飲食習慣進行研究，從而發表一篇《心臟病與飲食習慣之間的關係》的論文，該論文是否有可信度？答案是沒有！因為長庚醫院為北京高端私立醫院，該院病人和普通病人的飲食習慣會存在差異，同時住院的病人也並非能代表所有病例（不住院就已經去世的、住不起院的等等），事實上，排除這些干擾因素是現代醫學研究的基本準則。
健身房案例：我每周一三五中午都會去公司的健身房，這個習慣堅持了很長一段時間，然而有一段時間我一度沮喪——因為我發現公司健身房的同事基本上身材都比我好，這其實就是典型的「倖存者偏差」——那些健身房的人身材好當然是大概率事件，身材不好也不鍛煉的人通常很少去健身房。
章魚保羅案例：2010年世界盃最大的明星不是來自某個球員，而是來自德國奧博豪森海洋館的章魚」保羅「，它神奇地連續7次百發百中地預測了世界盃德國隊的比賽結果，章魚保羅成為那個夏天世界媒體熱情追逐的對象，然而事實上它就是一次典型的」倖存者偏差「，那年夏天其實有很多動物都參與了世界盃的預測：菲律賓的猴子、墨西哥的羊駝、非洲的大象、保加利亞的奶牛甚至還有中國的熊貓，只是因為這些動物預測失敗了於是並沒有媒體報道，而章魚保羅成為那個幸運兒。

在以上四個案例中，全集A分別為：中國的所有孩子、所有心臟病患者、我公司的所有同事、預測世界盃的所有動物；

倖存者A1分別為：有條件去美國念書的孩子、在長庚醫院的心臟患者、去健身房的同事、章魚保羅；

特徵X分別為：數學好、飲食獨特、身材好、預測准；

特徵Y分別為：數學平庸、飲食正常、身材一般、預測不準。

這就是「倖存者偏差」的分析框架。

警惕「倖存者偏差」的濫用

很多人對「倖存者偏差」這個名詞一知半解的時候，往往會造成它的濫用，在作者看來，警惕「倖存者偏差」和警惕「倖存者偏差」的濫用同樣重要。

很多人看到一些媒體報道的創業「成功故事」立馬嗤之以鼻——「這是倖存者偏差，不知道有多少個失敗的案例呢？」，然後對成功者的方法和經驗一概摒棄；

很多行賄的工作人員看到「某人行賄被抓」的新聞見怪不怪，認為這是倖存者偏差——「媒體只會報道那些行賄被抓的人，其實還有更多沒抓住呢！」於是他們繼續行賄。

那麼「倖存者偏差」這個概念是如何被濫用的呢？還是舉記者調查高鐵買票的例子，明白「倖存者偏差」理論，只能讓我們明白——"記者在高鐵上進行調查來判斷所有人都買到票"這種方法是不科學的。

注意——它並不能直接推斷出"所有人都買到票"這個結論一定是錯的，因為剩下的人有沒有買到票這一信息——我們不知道：春運的時候我們能根據常識判斷他們可能買不到票，但平時的高鐵，基本上是想買到票的人都能買到票，因此，直接判斷「肯定有人沒買到票」就屬於「倖存者偏差」的濫用，錯誤的反面不一定就是正確。

從統計學的角度我們來看我們是如何濫用倖存者偏差的——我們觀察到了A1有特徵X，同時我們意識到可能存在倖存者偏差，我們預先把A1定義為倖存者，於是直接判斷非倖存者A2一定不會有特徵X，而真相是：A2是否有特徵X這個信息我們並不知道，可能有，也可能沒有。

警惕「倖存者偏差」濫用非常重要，事實上前面提到的二戰統計學教授沃德的故事也只是後人及其簡化之後的版本，稍微思考一下就會知道，一個受過科學訓練的統計學教授是不可能只憑直觀判斷就直接給出結論的。

事實上沃德教授關於飛機擊落問題先後提交了八份不同方面的報告，其中主論文為《A Method of Estimating Plane Vulnerability Based on Damage of Survivors》，即《一種根據倖存飛機損傷情況推測飛機要害部位的方法》。

這篇論文就有80多頁，僅後人對他貢獻的綜述就有10多頁，（公眾號回復關鍵詞——「沃德教授」獲取論文），這位寫過巨著《序列分析》的權威教授顯然是對框架中A2的特徵做過詳細而嚴謹的分析才得出結論滴！

如果拍拍腦袋就能成為統計學家，那大家都是統計學家！

互聯網人如何避免「倖存者偏差」？

「倖存者偏差」是數據分析的常見邏輯錯誤，而數據又是驅動互聯網的動力之一，那麼互聯網人應該在分析數據、決策判斷時如何避免「倖存者偏差」的存在呢？衛夕總結了三個步驟：

一、判斷樣本的隨機性，即必須知道樣本是否是隨機的。

二、判斷樣本和剩餘樣本中會不會存在顯著差異。

三、分析剩餘樣本數據，驗證結論。

我們來看幾個案例直接進行訓練：

微信公眾號打賞案例：「衛夕聊廣告」既開通了公眾號也開通了微博賬號「衛夕君」，這時候我發現同一篇文章在相同的閱讀的情況下微信的打賞特別少，而微博則多一些，因此我起初大致判斷微信粉絲的打賞意願低於微博，直到我想起來微信的iOS用戶由於蘋果的政策限制目前並不能打賞之後才明白我之前的猜想是錯滴，這存在倖存者偏差，於是我嘗試在最近的兩篇文章末尾專門加上IOS讚賞碼，文章的讚賞金額果然提升了接近4倍。

在這個案例中避免倖存者偏差的標準三步為：1.判斷樣本的隨機性，即看微信公眾號的打賞用戶是否能代表整體？答案是否定的，因為只覆蓋了安卓用戶。2.判斷樣本和剩餘樣本會不會存在顯著差異？即安卓用戶和iOS在打賞這件事上會不會存在差異？答案是：可能存在差異。3.分析剩餘樣本數據，驗證結論，即加上iOS的打賞碼再次驗證結果。

視頻網站案例：某視頻網站在VIP中新上線了一部美劇，該美劇每一集的觀看人數之前一直穩定，但當它播到第七集的時候，觀看人數有一個相對明顯的流失，運營人員開始分析認為是該部美劇從第七集開始劇情急轉直下主角忽然掛掉引起的，然而當他們仔細分析流失用戶的時候，發現流失的都是因為三個月前某次大規模贈送的免費會員到期引起的，只是時間正好和第七集重合而已，普通會員根本沒有流失。

在這個案例中三步分別為：1.判斷樣本隨機性，即分析流失用戶是不是所有會員的隨機樣本。答案是否定的——流失的都是免費會員。2.判斷樣本和剩餘樣本會不會存在顯著差異？即正常會員和免費會員有沒有差異？當然有。3.分析剩餘樣本數據，驗證結論，即看正常會員是否流失。

Facebook視頻廣告案例：2016年9月年Facebook關於視頻廣告數據偏差的問題變成了該公司廣告歷史上不大不小的負面新聞，Facebook在其官方博客中承認：其提交給廣告主的數據報告中，視頻廣告平均播放時長的數字只統計了那些播放時長超過3秒的播放行為，也就是說，如果視頻播放沒超過3秒，Facebook居然就把它捨去了，很顯然，廣告主的平均播放時長被拉長了，因為播放時間短的壓根不統計，而這一偏差居然存在了長達兩年之久。

這個案例中，分析依然分為三步：1.判斷樣本隨機性——廢話！3秒以下的都捨去了！當然沒有隨機性！2.判斷樣本和剩餘樣本是否存在顯著差異？廢話，3秒以下和3秒以上肯定有差異！3.分析剩餘樣本數據、驗證結論。這.....就不用驗證了吧！

以上的分析前提是我們需要對我們的業務進行深刻的理解，只有你深刻理解了你業務中具體重要的影響因素你才能做出正確的猜想和判斷。

好了：以上就從理論到實踐的角度介紹了倖存者偏差，這時候有人會問衛夕，你覺得中文互聯網上哪一個平台的內容出現倖存者偏差的概率會比較大？哈哈哈，毫無疑問是知乎！我們來感受一下：

搜索並關注微信公眾號：weixiads 或衛夕聊廣告，每周一篇長文深度剖析廣告及互聯網的常識、邏輯或思維。
如果覺得有用，還請點贊支持，您的支持是我們更新的動力！
本文已進行版權登記，侵權必究，轉載請聯繫作者微信：huweixi