標籤:

「數據會說謊」的真實例子有哪些?

究竟是數據在說謊,還是邏輯在說謊?最好是你遇到的真實案例,你是如何判斷數據表明的錯誤的?


當奧巴馬說「我國經濟 09 年以來增長 13%」的時候,他沒有告訴你其實美國人只有最富的 1% 收入增長了——剩下 99% 的人收入反而比之前略微下降。

會出現這種情況是因為收入不是正態,而是冪律分布的(即大家常說的 「20% 擁有 80% 的財富」)。所以最富人群的收入變化對經濟總量影響最大,而剩下大多數人的收入變化對總量幾乎沒有影響。

舉個具體的例子。假設有兩個人,一個人有 100 塊錢,一個人有 2 塊錢。如果前者財富增長 10%(來到 110 塊),後者減少 50%(來到 1 塊),整個經濟還是增長了 8%。

美國現在的情況就是這樣,「經濟整體復甦」但「多數人可支配收入沒漲」。奧巴馬誇自己經濟政策有效確實沒錯,但特朗普、桑德斯也靠「拯救經濟」的口號吸引了大量選民。這兩個看似矛盾的事實其實都是對的。

冪律分布的數據在很多地方都會誤導人。比如一家「成功」 VC 的業績其實完全由所投公司中表現最好的一家決定。基金整體增長,只是因為投對了一家有 100 倍回報率的公司,而這家明星公司比該 VC 投的其他所有公司加起來都值錢。

--

另一種常見的「數據說謊」是調查問卷設計不合理。

英國政府 2015 年開始同意讓父親和母親共休產假。但一年後的統計數據卻顯示,只有 1% 的父親選擇了休假。BBC、《衛報》等各大媒體報道之後引發強烈社會反響。

真的是這樣嗎?

原來,這個 「1%」 的分母不是「有資格休假的父親」,而是「所有男性」。有人指出,如果這麼算,即使當年所有新生父親都選擇休假, 調查得到的數字也只不過是 5%。

可以從調查結果中獲利的商業機構就更不可信了。之前有新聞說,一項對 2,000 人的調查發現,16 到 25 歲女性每周花 5 小時自拍——這聽起來挺科學吧?但看過真正的調查報告之後你會發現,這個「5 小時」的數據沒有涵蓋「從不自拍」的女性。再仔細看,你會發現這份調查是由一家美妝電商發布的,其目的可想而知。

除了在「分母」上做手腳以外,改變調查結果的方法還有很多。例如,不給出「其他」或「不知道」這類選項,問題題干加入誤導性語言,調查對象有針對性選擇等等。

一個很有意思的例子是,如果在問題中提到「奧巴馬」(民主黨執政八年的總統),更少的民主黨人會說貧富差距過去八年變大了,而更多的共和黨人會說過去八年經濟變差了。簡單地在題干中加上一個人名就改變了調查的結果。

要說離我們更近的例子,可以參考我之前寫的這個回答——為什麼一家民調說 59% 的台灣民眾認為自己「只是台灣人,不是中國人」,而另一家卻說 57% 有「泛中國認同」?

--

我想說的第三種「數據說謊」是暗示因果關係。

2015 年開始,英國衛生大臣亨特頻繁引用《英國醫學會期刊》的一項研究,說周日住院的病人比周三住院的病人死亡率高 15%,每年英國有 6,000 到 11,000 人因為醫院周末人手不足而死亡。

這聽起來既科學、又可怕,對吧?

但問題在這裡:雖然確有此研究,雖然這個 15% 的數字也是準確的,可這並不代表死亡率高就一定是因為醫院周末人手不足。有沒有可能周末住院的病人本身病情就比周中住院的重呢?(英國很多人平時可以請帶薪病假。)在控制病人病情等其他因素之前,我們無法確定周日住院的死亡率高就一定是因為醫院人手少。

衛生大臣亨特暗示這個因果關係也有他自己的原因——他所在的保守黨競選時承諾會增加公立醫院周末員工數量,但因為保守黨同時也削減了公共醫療開支(他們承諾會削減政府開支),所以必須要求年輕醫生工作更長時間、照顧更多病人且不領加班費。由此一來年輕醫生非常不滿,亨特和他所在的保守黨便希望通過這些數據來增加輿論對醫生的壓力。

另一個類似的問題是同工不同酬。你可以經常在奧巴馬、希拉里的演講中聽到「做同樣的工作,女性工資是男性 77%」這個數字。但是,「同工不同酬」引用的美國勞動統計部報告第一頁就寫明他們「沒有控制很多可能顯著影響男女工資差異的因素」,比如工作時長,受教育程度,效率等。事實上,美國同種工作內的性別工資差異並不是因為僱主歧視,詳細原因請看這裡:「男女同工不同酬」是事實,為什麼公司不全部招聘女性,以獲得同等的生產力並節約成本? - Yiqin Fu 的回答。

--

政治新聞看多了,各類「誤導」方法很容易就積累一打:

GDP 數字漂亮的時候強調 GDP,通貨膨脹數字好看的時候強調通貨膨脹。誇自己就說「失業率低」,批評對手就說「失業率低只是因為很多人都不找工作了,所以沒算在經濟活動人口裡面」。

絕對數字漂亮的時候強調絕對數字,百分比好看的時候強調百分比。希望增長的數字和去年相比有下降,那就和過去五年相比。希望下降的數字還在不停增長,那就說「增長率下降」:

某地商品房連續四年的均價分別為 1 萬、2 萬、3.8 萬、7 萬。看到這組數據,你必定會大叫:天哪,房價真是漲得越來越厲害了!不過事實卻恰恰相反:這四年的房價增長率竟在逐年降低。

不過也不僅是政客。只要是做 PPT 的行業,大家這種事都干過不少吧。

--

最後一類「數據說謊」我都不太好意思放在這裡。如果前面只是誤導的話,下面就是赤裸裸的謊言了。

例如特朗普轉發的這張圖片,信息來源「舊金山犯罪統計局」根本不存在,數據也每個都是錯的。(但居然在他轉發九小時後就有 5,800 個贊和 7,700 次轉發!)

所以再一次提醒大家:
不是只要帶圖帶數字的就是真相!請仔細核查信息來源!不談解讀,很多數據本身就是錯的。最後送上一個餅圖:

其他數據話題下的回答:
為什麼有時候我們以為有很多人追的女生實際上不僅單身還沒人追?
如果「男女同工不同酬」是事實,為什麼公司不全部招聘女性,以獲得同等的生產力並節約成本?


有好事同志專門搞了一個網站來收集「八杆子打不著但看著賊拉靠譜的相關關係」,幾乎就是專門讓大家來扯淡裝叉用的。
幾個例子:

尼古拉斯凱奇在電影中的出鏡次數和淹死在游泳池裡的人數:

肯塔基州的結婚率和從漁船里掉出來淹死的人數:

全美滑雪場的總收入與被床單纏住致死的人數:

所有例子圖片都來自20 Insane Things That Correlate With Each Other


截圖說話——嘩眾取寵的美國Fox news經常用的一些招數。

這些招數更多的是從視覺上給人一種「錯覺」。比如說,本來不大的差異,截掉Y軸的一部分,瞬間差異就會讓看的人覺得——差得這麼多!!!

想像你明天要跟你的經理作報告,手裡有一堆結果,但是顯然這些結果對於之前的方法只有邊際的增長——好消息是,你幾乎一定可以找到一個方法,在數據變化不大的時候卻給人造成視覺的衝擊。

例子:
1)在趨勢圖中,為了說明增長趨勢多明顯,把Y調成不從0開始。這樣差距會看起來很大,增長很大,但是如果把Y軸從0開始看的話,會顯得基本沒有差距。

差距夠大吧!!!巨量增長啊!我們公司的財務情況這樣的話,公司明年就得IPO啊!!

可惜Y從0開始的話,這圖應該看起來的樣子是:

p.s.剛發現在用Excel畫這圖的時候,excel都自動把Y軸的起始值調成比最小值多一點!這樣看起來差距真是巨明顯有沒有!看來M$真是很懂畫圖的真正需求啊:D

2) 另外一個例子,作兩兩比較的時候把Y的值從高位開始,造成倆差距巨大的錯覺

看啊,右邊比左邊高了4倍不止!!!咦,等等,不是就39.6%跟35%的差別嗎....這...

3) 分數加起來不等於一,放大差距。

圖上的數據normalize一下的話那麼佩林是36.2%,32.6%,31.0%,直觀差距不大。但是在這個餅型圖裡瞬間變成了10%的差距!這個比較明顯的話那看下面

這裡

一掃的話沒發現這裡百分數加起來不等於1了吧。

4) 挑取x軸的數據以捏造趨勢

假設數據的波動性很大,比如說如下

10, 1, 20, 3, 30, 4, 50
看起來應該是

擦勒,公司的財務狀況這麼不穩定!!!怎麼辦!

沒關係——如果我只抽取奇數項的話(挑取x軸,雖然挑得好像是很有系統地——奇數,但是你總能想到一個看著挑得系統的方法)
就會看著像

TMD明年又可以上市了。。。

等等等等...

部分圖片來源於http://simplystatistics.org/2012/11/26/the-statisticians-at-fox-news-use-classic-and-novel-graphical-techniques-to-lead-with-data/


很多人覺得飛機更安全(飛機是最安全的交通工具嗎? - 飛機),都是看了維基百科上這個國際數據(我也曾是其中一員),三欄分別是每10億次旅行事故死亡人數,每10億旅行小時事故死亡人數,每10億公里事故死亡人數:

數據來源:The risks of travel;Motor Vehicle Crash Injury Rates by Mode of Travel, United States: Using Exposure-Based Methods to Quantify Differences

註:在交通政策界,一般認為最合適的比較口徑是每人公里。因為實際旅行者面臨的出行選擇是對一個確定的A點到B點的旅行是坐火車還是飛機,這是里程相同(或者相近),但旅行次數和時間都可能不同。飛機因為飛得快,所以雖然技術上風險大,但對於同樣的里程,通過縮短旅行時間而降低了風險。當然,飛機的事故率一般不會隨里程增加而線性增加,所以如果真的對一個確定旅行要比較火車和飛機的安全程度,可能要根據鐵路的每人公里的死亡率乘以旅行距離後,跟飛機的每航次事故率比較,會更合適。後面會舉例。籠統的比較的話,還是按每人公里比較合適

受過統計學訓練以後,就知道直接這麼比較就是扯淡。在民航運量集中的發達國家,管理水平普遍較高。而鐵路客運的運量以中等收入國家為主,特別是印度的鐵路周轉量佔全世界的比例很大(三分之一強),死亡率又很高。所以很大程度上民航相對鐵路的低死亡率是國家管理水平的不同造成的。

換句話說,民航的運量遠比鐵路客運運量集中在發達國家,全球的民航安全數據好於鐵路,很可能只是說明了發達國家公共交通安全水平高,未必能說明民航本身比鐵路安全。

為了解決這個問題,我們可以在同一個國家內部比較(可能樣本數過少,只是為了說明文章開頭數據的誤導性)。比如我們可以統計一下中國的民航和鐵路的周轉量和死亡數的數據。
先統計下2001-2014 十四年內民航和鐵路分別的事故死亡人數,我根據List of accidents and incidents involving commercial aircraft
和List of rail accidents in China統計,只記入了乘客死亡:

然後根據每年的交通運輸行業發展統計公報,根據旅客周轉量計算死亡率:

註:此處鐵路死亡人數不包含鐵道邊被撞的人數(這部分比例也很小)。只對比乘客死亡,因為只有乘客死亡率是對旅行者選擇出行方式時有意義的。

也就是說,在這個粗略的計算中,在中國民航的每人公里的死亡率大概是鐵路的5.3倍。不過不管怎麼說,各種公共交通的死亡率肯定都遠遠低於私人交通的死亡率。這主要是由嚴格的系統監管和專業的駕駛技術決定的。如果你能接受自駕車的風險性,那麼也應該能夠接受民航的風險性。但如果你一定要追求最安全的旅行方式,那麼起碼在中國大概是鐵路。

當然,各個國家情況有所區別,比如我猜測美國民航死亡率更低,但鐵路死亡率可能比中國高。但起碼差距絕不像本文開頭的那張表表現的這樣,飛機遠比火車安全。

跟其他交通方式的單次旅行死亡率基本與旅行距離成正比不同,絕大部分飛機故障發生在起飛和降落過程中,即使是中途發生的故障,也往往跟飛行時間長短沒多少關係。整體上,長程航班因為使用的飛機更大,公司管理更嚴格,事故率並不會高於短程航班。

中國民航的平均每億人次的死亡率是13.4(根據死亡人數和2001-2014年旅客運輸總數計算)。我們可以假定這個數值不隨距離增長而變化。而中國鐵路每億人公里的死亡率是0.0014。我們用這13.4除以0.0014,得到9631公里,也就是說當鐵路的旅行長度是9631公里時,它的死亡率跟民航一樣也是億分之13.4。那麼只要到目的地選擇火車的里程大於這一數值,民航就更安全

所以如果是北京到倫敦,可能確實是飛機安全一些,當然實際上沒有這麼遠的直達火車,如果轉車的話,中間可能還要走路或搭其他交通工具,中間也有可能會經過鐵路管理更落後的國家,火車的風險會進一步上升。

回復一些評論的質疑:
這個簡單的實驗肯定存在事故數太少的問題。如果大家硬要選05-09年比較,那麼航空是0死亡,低於火車很多。近20年,我國鐵路在提速,事故在高鐵發展初期在增加;航空安全管理水平卻在很快地變得更加嚴格。所以可能存在航空和鐵路的安全差距在不斷縮小的情況。我們可能需要更長的時間才知道究竟按照現在的技術哪一個的安全性更高,我個人傾向於鐵路,但也沒有依據。但如果要做健壯性檢驗,提前比較的起始年份,航空的劣勢其實會更大。

不過我這裡只是要說明文章開頭的數據肯定是有誤導性的,鐵路不可能安全性只有民航的12分之一。至於鐵路和航空真實的安全對比,這個可能最好的辦法是使用面板數據,控制國家管理水平不同的因素,可是我沒有條件去搜集面板數據,還望大家見諒。


說到數據會說謊,最有欺騙性的的例子莫過於統計學中著名的辛普森悖論(http://en.wikipedia.org/wiki/Simpson"s_paradox)了。

看看來自斯坦福講義里的一個簡單例子(http://plato.stanford.edu/entries/paradox-simpson/#Causation)。某大學歷史系和地理系招生,共有13男13女報名。

Men Women
History 1/5 &< 2/8
Geography 6/8 &< 4/5
University 7/13 &> 6/13

歷史系5男報名錄取1男,8女報名錄取2女。地理系8男報名錄取6男,5女報名錄取4女。分析數據,會發現以下問題:

1)整個學校統計,男生錄取率(7/13)高於女生錄取率(6/13)。

2)但是,按系統計,每個系的女生的錄取率卻都高於男生錄取率。歷史系女生的錄取率(2/8)大於男生錄取率(1/5)。地理系女生錄取率(4/5)也高於男生錄取率(6/8)。


多應景


Numbers don"t lie.
最近發現大家對如何成為一名數據科學家?的答案比較關注,表示受寵若驚。最近有點小忙,但作為一名DMer鄙人決定繼續分享一些知識來回報各位厚愛。下面是看統計報告時要注意的點。

一、數據來源如何說謊
最簡單的層級,在查閱統計報告之前首先應該關注的是報告出處以及數據來源。以工業品和消費品為例主要的數據來源如下所示:

關於數據的來源我們需要注意四點:

(1).數據發布機構是否權威?(代表性)
網上主流的數據資源太多,以下列舉一些,不一而足。

  • 國研網:行研報告,各類數據(需要付費T T)。
  • 國家統計局資料庫:宏觀數據、金融、教育、行業數據等,包含國家一級、31個省以及200多個市的數據。
  • 《中國統計年鑒》:歷年統計年鑒以及普查數據、專題數據等。
  • United Nations Statistics Division:聯合國資料庫
  • Data | The World Bank: 世界銀行資料庫
  • Federal Reserve Economic Data:美聯儲資料庫
  • Socioeconomic Data and Applications Center:美國航空航天局NASA的地球觀測系統數據

(2).是否是發布機構原版文件?(可信度)

(3).數據採集面向的對象?(調研主體)
舉例說明。產品可分為工業類產品和消費類產品,它們在基本屬性、購買特徵、營銷理念等方面有本質的不同,所以需要調研的主體不同。

  • 工業類產品:供需雙方一般都是企業,需要了解總產值、總產量、銷售總額、銷售總量,所以調研主體以企業為主。
  • 消費類產品:面向大眾消費者,統計口徑一般是零售市場消費總量、總額,所以調研主體以個體消費者為主。

(4).數據是一手數據還是二手數據?(時效性,相關性)

  • 一手數據(Primary data)也稱原始數據。指通過人員訪談、詢問、問卷、測定等方式直截獲得的,時效性和相關性更好。
  • 二手數據(Secondary data)利用文獻,統計年報以及資料庫等前人統計好的數據資料。優點是獲取成本低,且現成可用。一般可以長時間保存,生成數據趨勢圖方便。

栗子:研究人員希望了解工人在遇到工傷後返回工作的情況。

  • 一手數據:通過電話採訪工人,詢問他們多久時間能回到工作、以及返回到工作流程等問題。研究人員得出結論,包括返回到工作流程包括提供優惠住宿,以及為什麼一些工人拒絕了這樣的提議。
  • 二手數據:包括政府,企業的健康和安全記錄,例如工人的受傷率,以及工人在國內不同行業的數據。研究人員發現了工傷索賠額度與全職工人工資額度之間的數量關係。

最後將兩個數據源相結合,研究人員便能夠找到那些能夠讓受傷的工人願意馬上回到崗位的因素。

通過例子可以看出,一手數據提能夠提供量身定製的信息,但往往是需要很長的時間以及昂貴的成本。二手數據通常是能夠廉價的取得,而且可在更短的時間內進行分析,但由於數據獲取的初始目的可能與研究目的不相關,需要梳理信息來提取您要找的內容。數據研究人員選擇的類型時候應該考慮很多因素,包括所研究的問題,預算,技術和可用資源。基於這些因素的影響,他們可能會選擇使用一手數據或二手數據,甚至兩者兼備。

(5).數據採集方式是什麼?(投票方式)
在網路上進行投票還是在現實中分發問卷有很大的不同,兩者都有很多細節點需要注意。

  • 網路投票:如何防止機器人,惡意投票以及UI的設計是關鍵。可以參考推薦系統的用戶反饋設計。
  • 現實問卷:如何設計題目(邏輯性、完整性、非誘導性)以及投放方式(時間、地點、對象)是關鍵。可以參考調查問卷的設計與評估 (豆瓣)。

二、數據統計如何說謊

數據統計中常常會出現的謊言,這是因為雖然原始的數據相同,但是數據處理的過程不同。具體情況通常可分為四種:抽樣方法、樣本選取、離群值處理及統計指標設置。


(1).抽樣方法的區別

整體樣本的維度,粒度和取數邏輯相同的情況下,不用的樣本抽樣規則會使數據看來更符合或不符合「預期」,從而實現特殊目的。我們知道最基本的定量研究的抽樣方法分為兩類,一類為非概率抽樣,一類為概率抽樣。其中概率抽樣方法分為四種:

  • 隨機抽樣(Simple random sampling)

方法:將調查總體的觀察單位全部編號,再隨機抽取部分觀察單位組成樣本。
優點:操作簡單,均數及相應的標準誤計算簡單。
缺點:總體較大時,難以一一編號。

  • 系統抽樣(Systematic sampling,又名機械抽樣、等距抽樣)

方法:先將總體的觀察單位按某一順序號分成N個部分,再從第一部分隨機抽取第k號觀察單位,然後依次使用相等間距,從每一部分各抽取一個觀察單位組成樣本。
優點:易於理解、簡便易行。
缺點:總體有周期或增減趨勢時,易產生偏差。

  • 整群抽樣(Cluster sampling,整體抽樣)

方法:總體分群,再隨機抽取幾個群組成樣本,群內全部調查。
優點:便於組織、節省經費。
缺點:抽樣誤差大於單純隨機抽樣。

  • 分層抽樣(Stratified sampling)

方法:找到對觀察指標影響較大的某種特徵,從而將總體分為若干個類別,再從每一層內隨機抽取一定數量的觀察單位,合起來組成樣本。有按比例分配和最優分配兩種方案。
優點:樣本代表性好,抽樣誤差減少。

缺點:抽樣過程繁雜。

各種抽樣方法的抽樣誤差一般是:整群抽樣≥單純隨機抽樣≥系統抽樣≥分層抽樣。

栗子1:在建立客戶流失模型時,使用分層抽樣。假如兩次調研的抽樣樣本分別是最近一年未消費流量的客戶和最近一年未消費流量但經常收發簡訊的客戶,不用做測試基本上就可以確定後者的流失可能性更小。而如果使用隨機抽樣則很難得出上述結論,所以數據抽樣方法的選擇對結論影響較大,實際操作時具體需要深入到SQL查詢邏輯的研究。

栗子2:普林斯頓大學的信息技術政策中心(CITP)和北卡羅萊納州大學教堂山分校(University of North Carolina at Chapel Hill)在2013年發表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大數據:一個新興領域的陷阱、方法和概念》。通過實驗對一些市場營銷人員發出警告:請首先確認抽樣的方法是否能夠真正地覆蓋的整個市場,不要對從社交媒體渠道(如Twitter和Facebook)收集的消費者數據過於自信。

1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).

2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.

3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).

4.Most big data analyses come from a single platform (hence missing the ecology of information flows).

作者Zeynep Tufekci(博客地址:technosociology,北卡羅來納大學教授)通過描述對果蠅進行生物測試的方法,質疑很大程度上依賴社會化媒體形成的大數據方法論。大多數的大數據集(Big datasets)研究只包含「節點到節點」(Node-to-node)之間的信息互動;然而面對社會中的群體性事件,無論是通過經驗分享或通過廣播媒體傳播,「場」(Field)效應的地位更加重要。一個典型營銷活動(Twitter、Facebook上)的用戶參與百分比只有10%,只代表一定的細分市場,可能扭曲調查結果。這些市場調差報告不能準確反映市場的數據,所以無法據此制定出可靠的未來計劃。

(2).樣本選取的區別

從嚴格意義上來說統計範圍的選擇問題並不一定是故意欺騙,因為在數據採集的實踐中確實存在樣本量失衡的情況,如果遇到這種情況一般使用欠抽樣(Under-sampling)和過抽樣(Oversampling)進行樣本平衡。通常來說樣本的問題主要分為以下三種情況:

  • 樣本抽取的數量。這一點很容易理解,數據樣本量差距越大,可比性越小。尤其是在樣本分布不均時,數據結果可信度低。
  • 樣本抽取的主體。為了製造某種統計結果而故意選擇對結果有利的樣本主體。如針對農村用戶和城市用戶統計某手機市場佔有率,後者結果肯定優於前者。
  • 樣本抽取的客觀環境。比如做運營商網站用戶體驗分析(User Experience,簡稱UE),ISO 9241-210標準中對用戶體驗的定義有如下補充說明:用戶體驗,即用戶在使用一個產品或系統之前、使用期間和使用之後的全部感受,包括情感、信仰、喜好、認知印象、生理和心理反應、行為和成就等各個方面。三個影響用戶體驗的因素:系統,用戶和使用環境。如果測試方法都沒有完全相同的客觀環境,即使選的是相同樣本和用戶,分析結果可信度依然較低。

更多資料推薦:
抽樣調查設計導論 (豆瓣)
Sampling (豆瓣)(豆瓣版本老,現在有09年新版)

(3).離群值處理方法的區別

離群值(Outlier,異常值):指樣本中的個別值,其數值明顯偏離其所屬樣本的其餘觀測值。

離群值與非離群值之間並沒有明顯的區別。實際上,用戶必須指定一個閾值,以便界定離群值。偏差度高於這個閾值的所有集群被標記為離群值集群,它們的成員都是離群值。如上圖中所示。如果設定閾值600,則Cluster3為離群值。

目前對離群值(Outlier)的判別與過濾主要採用兩種方法:物理判別法和統計判別法

  • 物理判別法:根據人們對客觀事物已有的認識來判別由於外界干擾、人為誤差等原因造成實測數據值偏離正常結果。
  • 統計判別:給定一個置信概率,並確定一個置信限,凡是超過此限的誤差我們就認為它不屬於隨機誤差範圍,將其視為異常值過濾。

通常面對樣本時需要做整體數據觀察,以確認樣本數量、均值、極值、方差、標準差以及數據範圍等。極值很可能是離群值,此時如何處理離群值會直接影響數據結果。


栗子:某一周的手機銷售數據中,存在異常下單行為導致某一品類的銷售額和轉化率異常高。如果數據分析師選擇忽視該情況,結論就是該手機非常熱銷抓緊供貨,但實際情況並非如此。通常需要把會把離群值拿出來,單獨做文字說明。

(4).統計指標的區別
數據統計的業務指標成百上千,根據不同目的選擇合適的指標組合,就能實現說謊的效果。

我們都知道,平均數是表示一組數據集中趨勢的量數,它是反映數據集中趨勢的一項指標。解答平均數應用題的關鍵在於確定「總數量」以及和總數量對應的總份數。在統計工作中,平均數(均值)和標準差是描述數據資料集中趨勢和離散程度的兩個最重要的測度值。

平均數在數學中可分為,算術平均數(arithmetic mean),幾何平均數(geometric mean),調和平均數(harmonic mean),加權平均數(weighted average),平方平均數(quadratic mean)等。一般人大家所說的「平均數」就是算術平均數,即N個數字相加然後除以N。而「平均數」在統計學中包含三種:算術平均數、中位數、眾數,都是用來描述數據平均水平的統計量。

  • 算術平均數(Arithmetic mean):一組數據中所有數據之和再除以數據的個數。

  • 中位數(Median):將所有數值從高到低排列,最中間的數值。

栗子:1,2,3,4;排序後發現有4個數怎麼辦?
若有n個數,n為奇數,則選擇第(n+1)/2個為中位數;若n為偶數,則中位數是(n/2以及n/2+1)的平均數。所以此例中位數為2.5。

  • 眾數(Mode):所有數字中出現頻率最高的數值。

栗子:1,1,2,2,3,4的眾數是1和2。如果所有數據出現的次數都一樣,那麼這組數據沒有眾數。例如:1,2,3,4沒有眾數。

通過公式我們可以看出:算術平均數易受極端數據的影響。中位數不受分布數列的極大或極小值影響,在一定程度上對分布數列的具有代表性。但缺乏數字敏感性,有些離散型變數的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。眾數不受極端數據的影響,而且具有明顯集中趨勢點的數值,能夠代表整組數據的一般水平。在這三個平均數中,算數平均數是能夠取得最大數字的平均數,所以,一般的統計調查都用的是這個做結論,比如平均工資。所以有時候大家會發現自己的工資「被平均」了,或者拖後腿了就是這個原因。2013年北京月平均工資5223元

結論:對於不同的統計平均值的方法,得出的數據結論是不一樣的。有太多人利用本來正確的統計數據來穿鑿附會得出自己需要的結果,有些原始的統計數據往往是由權威機構或人士做出的,只是被其他人賦予了原調查目的之外的其他意義。 所以一般見到平均數後,首先查明使用的是哪種平均數計算方法,然後試著用另外兩種分析一下,看看是否有破綻。

更多資料推薦:
Mind on Statistics (豆瓣)
統計學 (豆瓣)
Applied Multivariate Statistical Analysis (豆瓣)

三、數據可視化如何說謊
統計數據的表現方法千差萬別。雖然數據相同,但表述方式不同,呈現的效果也不同。

(1).圖表長寬

由《系統事務平均響應時間趨勢圖》可見,將圖表的長寬比(長=橫軸,寬=縱軸)從1:1拉伸到2:1後,數據發展趨勢明顯變緩。如果需要突出數據的爆發性增長,可以縮短時間間隔或記錄次數(橫坐標)。

  • 左圖暗示「系統事務平均響應時間在測試場景開始以後快速突破150秒」
  • 右圖暗示「系統事務平均響應時間隨著測試場景執行時間延長逐漸增加」

(2).取值間隔

由上圖可知,如果數據的取值間隔劃分過大(等比數列1,10,100,1000,10000)而不是標準等差數列(1,2,3,4),則數據之間巨大差異會被縮小。

  • 左圖暗示「湖北、河南、江蘇總產值排名前三遠超其他省市」
  • 右圖暗示「各省市總產值相差並不太大」

(3).數據標準化
數據標準化也是歸一化的過程。在數據分析之前通常需要先將數據標準化(Normalization),目的是去除奇異樣本數據(相對於其他輸入樣本特別大或特別小的樣本矢量),將數據按比例縮放,使之落入一個小的特定區間。或者去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權,而且能保正程序運行時收斂加快。

如上圖所示,正態分布中的各類分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(Standard score)

數據標準化常用方法有「Min-max」、「Z-score」、「Atan」和「Decimal scaling」等。

  • Min-max標準化(Min-max normalization)

適用於原始數據的取值範圍已經確定的情況,缺點是當有新數據加入時,可能導致Max和Min值變化需要重新定義。設MinA和MaxA分別為屬性A的最小值和最大值,將A的一個原始值x通過Min-max標準化映射成在區間【0,1】中的值,公式為:

  • Z-score 標準化(Zero-score normalization)

又名標準差標準化。經過處理的數據符合標準正態分布,均值為0,標準差為1。設μ為所有樣本數據的均值,σ為所有樣本數據的標準差。公式為:

  • Atan函數轉換

使用這個方法需要注意的是如果想映射的區間為[0,1],則數據都應該大於等於0,小於0的數據將被映射到[-1,0]區間上。所以通過atan標準化會映射在區間【-1,1】上。

  • 小數定標標準化Decimal scaling

通過移動數據的小數點位置來進行標準化,小數點移動多少位取決於屬性A的取值中的最大絕對值。這個方法比較容易理解

一個簡單的例子對比如下圖所示:

了解更多:

  • 數據可視化的優秀入門書籍有哪些?
  • 數據可視化是讓信息易讀,還是更複雜?

數據可視化經典例子:

  • googlecode-birdeye
  • Axiis : Data Visualization Framework

四、結束語

數據如同金礦,需要人使用工具來開採、提煉、加工。

所以數據不會說謊,使用數據的人才會說謊;有些人是無意,有些人是蓄意。

祝每一個DMer都挖掘到金礦和快樂:)

參考文獻:
[1].維基百科Sampling (statistics)
[2].數據抽樣方法(浙江大學《數據統計》)
[3].常見的「數據說謊」(TonySong,Webtrekk Business Consultant)
[4].融合過抽樣和欠抽樣的不平衡數據重抽樣方法
[5].《Asking The Right Questions:A Guide to Critical Thinking:學會提問-批判性思維指南》
[6].《How to Lie with Statistics:統計數字會撒謊》
[7].《Big Data: Pitfalls, Methods and Concepts for an Emergent Fielde》
[8].primary data and secondary data
[9].性能測試中常見的loadrunner analysis誤導
[10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber

[11].Data Normalization and Standardization

-----------2017年1月更新-----

歡迎關注我存儲知識的地方:預見未來——Han Hsiao的知乎專欄Foresee


世界上有三種謊言:謊言、十足的謊言、和統計數字(There are three kinds of lies: lies, damned lies, and statistics)。——馬克·吐溫

以下例子來自我寫在自己博客上的一個案例——

【壞球同學:你統計學這麼好,你老師知道嗎】

環球時報旗下專業從事輿情調查與監測的研究諮詢機構——環球輿情中心27日發布一份調查報告稱:在安倍參拜靖國神社後,有74.6%受訪者傾向對日本強硬反制(環球輿情調查:74.6%受訪者傾向對日本強硬反制)。這份調查被其它媒體(如中國經濟網,網易新聞)轉述時,標題變為「7成中國人傾向對日強硬」。改寫標題的其他媒體的小編,你們要麼是存心扭曲,要麼就是統計學沒學好。

我們先來看看環球時報報道的原文:

本次調查所選取的7個城市分別是北京、上海、廣州、成都、西安、長沙、瀋陽。調查時間為27日14時至17時,共回收有效問卷1077份。本次調查採用在線會員庫隨機抽樣的調查方式進行數據收集,所有樣本均通過在線調查會員庫隨機抽取,受訪者自願填答問卷。所有受訪對象為18歲以上普通民眾。本次調查為簡單隨機抽樣,在95%的置信度下,樣本的允許抽樣誤差為3.0%。

然後再補充一下統計學的基礎知識(上過統計學課的同學可以跳過這部分)。統計學分為描述統計(descriptive statistics)和推斷統計(inferential statistics)。前者是對數據的整理、歸納和展示,後者是在描述樣本的基礎上,將其結論推及總體

描述統計是推斷統計的基礎,推斷統計是描述統計的提高。如果只停留在描述統計,從樣本(sample,總體的一部分)數據得到的結論只能就這個樣本而言,而不能推廣到其它個體,換句話說,如果想知道其它個體的信息,就必須重新收集和整理數據。

推斷統計的作用,就是讓僅憑一個樣本做出的結論,也能推廣應用到整個總體,而無需收集全部個體的數據。但必須提到的一點是,只有採用概率(隨機)抽樣(probability sampling調查方式得到的樣本,其結論才能推及總體,非概率抽樣(non-probability sampling)得到的樣本則不行。

回到環球時報發布這篇報道的標題「有74.6%受訪者傾向對日強硬反制」,你會發現,環球時報的報道比較謙虛(心虛?)的:只停留在就樣本論樣本的層次——確實他們調查了一些人,這些人的數據也的確提供了這樣的結果,結論也僅適用於他們調查的這些人。

但其它媒體的轉述就不同,它們將樣本的結論推廣到整個總體——「全體中國人」,這就是問題所在。推斷統計過程中,把從樣本得到的結論推廣到總體,還需要滿足一些條件,回答一些問題(見附錄2「相信某個抽樣調查結果前該問的問題」)。

其中最重要的一點是:調查有否採用隨機抽樣(random sampling)。從文章中,我們的確找到了「隨機」二字,而且不止一處提及。不過且慢,接著看下去就會發現文章後面提到「受訪者自願填答問卷」,玄機就在這裡,這個調查的價值至此明了——該調查結論僅限於它所收集數據的樣本,而不能推廣到總體,因為這是一個有偏的自願回應樣本(voluntary response sample,見附錄1名詞解釋)

環球輿情調查中心和環球時報的結論發布者,一看就是學過統計學的,他們羞羞答答地把這唯一的「自願填答」藏在一堆「隨機抽樣」字眼中,同時還像模像樣地提供了「95%置信度」和「3.0%的允許抽樣誤差」,即使這樣做已經毫無意義。

而網易新聞、中國經濟網的小編們,一看就是沒修過統計學原理這門課的,或者上統計學課沒好好聽的,一下子就跳進了前者布下的陷阱,把非概率抽樣方式得到的結論,應用到整個總體:壞球同學不敢推出的結論,卻給你們給引申出來了。

壞球輿情調查中心和壞球時報,你們真的很壞!不帶這樣欺負沒學過統計學的同學的。David S. Moore在《統計學的世界》里提到:有許多抽樣調查不能提供準確地和有用的結果,特別是那些設計來影響、而不是記錄公眾意見的 (especially those designed to influence public opinion rather than just record it),說的就是你報吧?


~~~~統計學常識分割線~~~

附錄1:名詞解釋【自願回應抽樣 voluntary response sampling】

指的是通過來電來信(write-in, call-in,在網路時代還包括click-in)方法收集而來的民情民意。這樣的樣本往往加入了被取樣者的好惡,從而得到與真實的客觀情況相差甚遠的「有偏(biased)」——註定偏向某個答案的樣本。

David S. Moore在《統計學的世界》裡面舉了一個「自願回應抽樣」例子:專欄作家Ann Landers在報紙上呼籲其讀者就「假如能夠重來,您願意再要小孩嗎?」進行投票。在收到的來信回應中,70%的答案是「No!」,有些來信還附帶了催人淚下的故事,講述父母如何含辛茹苦、子女如何背信棄義。

真的有70%的父母后悔生了小孩?相信您也不會認同。這個抽樣結果之所以有偏,就是因為採用來信來電的抽樣方法,使得一些對某個問題具有強烈看法的讀者——這種強烈看法往往是負面情緒居多——會不厭其煩地站出來發表自己的見解和感受,從而構成樣本的主體。

據估計,這些人在人群中估計佔到15%的比例。從而受電台、電視台、報紙等媒體的呼籲而感召的,經常就是這類人。而那些對問題看法中立或者具有正面意見的人(比如願意再要小孩、或對此無所謂的父母),雖然人數往往更多,他們就不太會站出來回應,只會樂享天倫、充當沉默的大多數。

因此,自願回應抽樣方法得到的結果會發現「70%」的父母不願意再要小孩。在該樣本中,帶負面意見的父母被過分代表了。

~~~~~~~~~

附錄2:相信某個抽樣調查結果前該問的問題 Questions to ask before you believe a poll

若調查者使用好的統計技巧,準備一個儘可能完整的抽樣框,注意提問的措辭,減少無回應,則抽樣調查確實能能提供準確和有價值的信息。但亦存在許多抽樣調查不能提供準確地和有用的結果 (especially those designed to influence public opinion rather than just record it)。為此,在你更多關注某個抽樣調查結果之前,有必要先問幾個問題 :

  1. 誰做的調查(Who carried out the survey)?——遵從良好調查習慣的專業抽樣機構更值得信賴。
  2. 總體是什麼(What was the population)?——想反映何人意見。
  3. 樣本如何選擇(How was the sample selected)?——有否提及隨機抽樣。
  4. 採用多大的樣本(How large was the sample)? ——好能提供誤差界限與置信度。
  5. 回應率多高(What was the response rate)?——無回應(no response)同樣能帶來有偏。
  6. 如何與被調查個體進行接觸(How were the subjects/units contacted)?——不同的聯繫方式(面對面、電話訪談等)影響到回應率、回答的真實性、調查的成本。
  7. 有否受突發事件影響(Was it just after some event which might have influenced opinion)?——是否在某件會影響民意的事發生之後就進行調查?
  8. 提問的具體措辭(What were the exact questions asked)?——比如採用誘導性的「加料問題(loaded question)"?

許多民意調查、學術調研、政府負責統計官員在宣布抽樣調查結果時,會回答這些問題。但新聞編輯和播音員卻有一種壞習慣,省略這些「無趣的真實(dull facts)」,而只報道抽樣的結論。更有一些有利益集團、新聞媒體由於本身採用了不可靠的抽樣方法,所以根本就不能回答上述問題。嚴謹的抽樣調查如蓋洛普(具體例子請到http://www.gallup.com/home.aspx查找)會告訴我們真相:「除了抽樣誤差外,問題的措辭以及執行調查時遇到的實際困難,會導致調查結果有偏或產生其它誤差」。若某政治家、廣告人、或某個媒體宣稱某個民意調查結果卻沒有提供完整的信息,要當心

—— 資料來源:David S. Moore,《統計學的世界》

~~~~~~~~~~~~

附錄3: 統計金句買一送二

數字不會說謊,但說謊的人會想出辦法。——Charles Grosvenor

統計數據就像比基尼,暴露出來的部分固然重要,但沒暴露的部分更加重要。——佚名


你一定聽說過「酸男辣女」的說法,就是媽媽愛吃酸就生男孩,愛吃辣就生女孩。當然,大多數人把這個當做玩笑話——如果媽媽愛吃酸辣土豆絲難道就要生個不男不女的了?
但是,你覺得媽媽的飲食情況會影響到孩子的性別嗎?
2008年,在權威雜誌《英國皇家學會學報》上發表了一篇文章:《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人員就打算回答上面的問題。他們通過對740名女性進行分組研究,考察她們孕前、早孕期、中晚孕期的飲食情況對於胎兒性別的影響。研究人員對133種食物進行問卷調查研究,結果發現,懷孕前早飯吃更多燕麥的女性,更容易生男孩!而除了燕麥,調查的其他食物都和男女性別沒有明顯關聯。
這篇文章一發表,馬上引起廣泛關注,Google點擊超過50000。要知道,這可是一篇純學術文獻,也可以有如此之高的點擊量!
如此高的關注度,自然逃不過學術界的質疑。2009年,同樣在《英國皇家學會學報》上,一篇針鋒相對的質疑文章發表出來:《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出質疑的,是三位統計學家:Stanley Young,Heejung Bang和Kutluk Oktay。他們撇開實驗設計中的數據獲取的問題,比如回憶偏倚、測量誤差、精確測量的困難性等等,直接針對前一篇文章的統計學方法提出質疑。他們在對前一篇文章中提供的原始數據進行重新統計之後發現,那些數據其實全部沒有相關性,而所得出的「吃燕麥生男孩」的結論,其實只是一個偶然事件。
也就是說,之前研究的那133種食物,對於生男生女的影響都是隨機分布的;但是在那一次研究的時候,恰好發現那一批研究對象吃了燕麥更容易生男孩,這純粹屬於偶然事件。那篇文章把一個偶然事件當做結論報道出來了。

但是,做實驗和統計分析,不就是為了儘可能的避免偶然因素的影響,來找到實際的關聯性嗎?那為什麼在統計了這麼多樣本量和分析了這麼多因素之後,竟然最終還是找出個偶然事件呢?

問題就在統計方法上。2008年那篇文章的統計方法用的還是p值,但是,Stanley Young他們指出,在做多重檢驗(multiple testing)的時候,使用p值是不正確的,而應該用校正後的p值(ajusted p-value),也就是要考察一個錯誤發現率(False Discovery Rate,FDR)。
這到底是怎麼回事呢?
如果從統計學角度,原假設、備擇假設、一類錯誤、二類錯誤的可能比較複雜,我盡量用最簡單的話解釋一下基本思想。

我們做的每一個判斷都是有可能出錯的,但是,我們希望經過我們的努力,使我們的判斷出錯的概率儘可能小。就是說我們允許自己犯錯,但是不能太離譜,老是犯錯就不對了。
我們在做統計研究的時候也一樣,也是有一定的「容錯率」的,比如說1%。也就是我們做這項研究,按照這樣的統計方法得出的結論,雖然有可能是錯誤的,但是錯誤的機會不超過1%。這種小概率事件在一次試驗中實際發生的機會其實微乎其微,於是我們認為結果是可信的。
但是,當我們研究的因素多起來,對這些因素同時進行統計分析的時候,本來一個因素1%的出錯機會就被放大了。比如每個因素有1%的出錯可能,當我們的研究因素增加到100個,那麼就會存在一個結果是100%錯誤的。就好像如果一個疾病的發病率是1%,那麼在100個人當中,就會有一個是患病者。本來的小概率,當遇上更大的基數時,小概率事件就發生了!所以,就出現了上面提到的,雖然那133種食物的影響其實都是隨機的,但是當對他們進行研究時,竟然出現了一個「有意義」的結論。
這樣一來,本來只是一個很小的犯錯幾率,結果因為分析因素的增多,竟然真的出現了錯誤!

因此,在1995年,Benjamini和Hochberg提出在多重檢驗時要考察FDR的概念,就是要限制這個被增大的錯誤機會。而當把FDR控制在一個可以接受的範圍內時,再對2008年那篇文獻的原始數據進行統計,就會發現那133種食物對於胎兒性別其實都沒有特異性的影響。

目前,FDR的概念被用於高通量的基因相關研究。因為基因片段實在太多了,量級可能不僅是幾百幾千,甚至上萬,這時候如果繼續使用p值檢驗,那麼就會錯得離譜。但是,試驗在定FDR時,也不是越低越好,因為過低的話,可能本來有意義的結果,也因為過低的FDR而顯示無意義了。所以,FDR的確定,應該在一個平衡點,因此當我們考察FDR的時候,可能就有某個因素其實已經出錯了,只不過這個錯誤的數量尚在可接受範圍內。
這讓我想到前些天,因為Angelina Jolie繼乳房切除後又切除雙側卵巢輸卵管,讓有些人感覺依靠基因治療癌症預防癌症好像指日可待。而且,很多科幻電影上,也不乏通過基因測定或者改造來判斷和影響人體某些特性,或者治療疾病。
確實,基因的發現對於生物醫學來說,可謂意義重大;當科技領域的進步讓人充滿期待的時候,基因的出現讓生物醫學不至於太過寒磣。但是,作為醫生我得說,我們可以期待科技領域的「日新月異」,但是在臨床醫學上,最好還是保守一些。基因確實對醫學有幫助,但研究的同時,即使改進統計方法,也會帶來實際出錯的機會。而在生命和健康這麼一個特殊的領域,我們的容錯率是很低的。即使是實驗室研究已經獲得了令人欣喜的結果,在臨床醫學領域,我們還是要老老實實的設計嚴格的臨床試驗去驗證,而很多時候,醫學上的驗證是需要時間的。
這還讓我想到大數據。現在是一個逢人必說大數據的時代,而且大數據確實給我們的觀念帶來巨大的衝擊。但是,大數據不牛逼,分析數據獲得信息才更重要。因為有瑕疵的分析方法,就有可能會得出前面提到的「吃燕麥生男孩」的結論。如果這樣的分析結果用在投資上,大不了就是一次投資決策失敗,最多某人破產,他還尚有東山再起的機會。而如果這樣的問題出現在醫學領域,那麼受影響的恐怕就是健康和生命,結局的可逆性就沒有那麼好了。

1988年,Russell Ackoff提出了DIKW金字塔。這個金字塔的最底層是數據,而塔尖則是智慧。在從數據通往智慧的路上,是信息和知識。所以,我們這個世界上不缺乏數據,缺乏的是通過合適的方法從數據中獲取信息,進而從信息中提煉知識,上升到智慧的能力。

其實數據不會說謊,它們只是一些毫無意義的數字而已;但是當你對這些數字進行解讀,從獲取到分析,這個過程就可能出現問題,即使你的每個步驟都是合乎邏輯的。在醫學上,這就是醫學的不確定性帶來的。
而且,醫學還有它的特殊性。醫學解決問題都是滯後的,一定是先出現疾病,然後我們才能認識到它,再去想辦法去解決它。我們不會去預測新的疾病。當你已經知道事情的結局,企圖對這個結局進行解釋的時候,總是難免會不自覺的帶入自己的偏見。而我們每個人都更容易發現別人的偏見,對別人的解釋傾向於懷疑。這時候,數據就出現了。因為數據是最客觀的東西,於是它就變成了最好的說服別人的方法。所以有時候我們分析數據的目的,可能還不是為了解釋現象獲取信息,其實僅僅是為了說服別人或者說服自己。
所以,當把大數據引入醫學的時候,更應該時刻保持警惕。大數據分析的時候,可能出現問題的地方遠不止前面提到的FDR,還有很多,這就需要我們對結論時刻保持懷疑,並且留出足夠長的驗證時間。


聽過這麼一個「故事」:

台灣科學家做了個有趣的實驗,他們讓台灣和大陸的小朋友抄寫「憂鬱的台灣烏龜」100遍,經過觀察他們發現台灣小朋友抄了十幾遍後就不耐煩了, 而大陸小朋友每次都能堅持抄完,科學家由此斷定大陸小朋友缺乏反抗精神。對此結論我一直很懷疑,直到看到一份台灣小朋友抄寫的作業:憂鬱的臺灣烏龜……


做投資的時候,遇到Portfolio公司需要IPO,就會有各種投行上門來搶項目。每個投行都能找到一個角度說自己是業內第一,遠勝其他投行,而且依賴於各類數據統計至證據確鑿。最搞笑的是,投行精英們跳槽非常頻繁,甚至在打單同一個項目的時候,都會出現某個人剛代表G記來爭奪項目,說G記如何第一;隔幾天同一個人又會跑到M記而代表其來爭奪項目,說M記如何腳踩G記一統江湖,自己打臉真是啪啪得響。

做過IBD的同學們一定懂我在說什麼,也知道在pitch book撒下了多少汗水和熬白了多少頭髮

於是問題來了,各家公司為啥都能找到第一的位置,這源於數據統計的技巧和選擇的維度,所謂的數據會說謊。

首先,多種限定條件:全球、亞太、亞洲、科技行業及互聯網行業、精品投行圈等等。

其次,多種統計角度:

  • 融資額度(阿里巴巴IPO融資了200多億美元,我幫他融資了2美元,按照200億還是2美元來計算,都可以有各自的統計維度和排行榜)
  • IPO數量(可以搞一堆小公司上市來攢積分)
  • 各個「權威」媒體對最佳投行的評選
  • IPO後公司股價的上漲幅度(上漲幅度怎麼計算,平均值還是中位值等等)

總而言之,套路是很深很深的,如同心機們搞自拍,總能找到角度把自己拍得最好看,同時把自己的夥伴搞得很醜。秘訣就是選好角度,搶好姿勢。實在不行就扭曲一下圖片得了。比如前一段時間,沈夢辰(左一)和超模劉雯(右一)《全員加速中》第二季相遇並大秀恩愛。然而在下面的合影中,169cm的沈夢辰竟然看起來比178cm的劉雯看起來還高,腿還長(模特可是以身高、腿長和腿直為嚴格要求的)。眼尖的網友就發現了多處疑似液化和PS的地方,沈夢辰不僅疑似把自己PS高還把別人PS矮了,許多地方都PS得變形和扭曲了,這心機堪比各類投行。

…更多文章請到數據冰山 - 知乎專欄

…更多回答請看何明科


存活者偏差
二戰時英國皇家空軍邀請美國的統計學家分析德國地面炮火擊中聯軍轟炸機的資料,並且從專業的角度,建議機體裝甲應該如何加強,才能降低被炮火擊落的機會。但依照當時的航空技術,機體裝甲只能局部加強,否則機體過重,會導致起飛困難及操控遲鈍。
統計學家將聯軍轟炸機的彈著點資料,描繪成兩張比較表,研究發現,機翼是最容易被擊中的部位, 而飛行員的座艙與機尾,則是最少被擊中的部位。

作戰指揮官由此認為,應該加強機翼的防護,因為分析表明,那裡"密密麻麻都是彈孔,最容易被擊中"。但是統計學家卻有不同觀點,他建議加強座艙與機尾部位的裝甲,那兒最少發現彈孔-----因為他的統計樣本是聯軍返航的受損飛機,說明大多數被擊中飛行員座艙和尾部發動機的飛機,根本沒法返航就墜毀了

所以如LS幾位所答,不是數據說謊,而是沒注意到沉默的數據(缺少了的樣本),需要分析者有足夠廣的視角和邏輯,才能從數據里挖掘出足夠正確的東西。


轉發
1.哥斯大黎加是世界盃史上為數不多能夠戰勝中國隊的國家
2.即使是巴西隊這樣的世界強隊也僅戰勝過中國隊一次
3.自2002年韓日世界盃後,中國隊在世界盃正賽上不敗紀錄已經延續12年
4.縱觀漫長的世界盃史,中國隊也僅輸過三次
5.中國隊從未在世界盃點球大戰中失利過
6.中國隊在領先的情況下從未丟過球
7.還沒有任何一直亞洲球隊能夠在世界盃上戰勝中國隊
8.世界盃神奇定律 歷史上跟中國同組的球隊除了一支以外不是冠軍就是季軍
9.自1930年至今,中國隊在近一個世紀的世界盃歷史中僅輸過三場 讓人肅然起敬
10.自12年前土耳其爆冷戰勝中國隊後,他們至今都沒有機會與東方紅魔交手
11.沒有一支球隊能夠在世界盃上擊敗中國隊兩次以上
12.面對歐洲諸強:德西荷法英意葡等 中國隊至今保持不敗金身
13.世界盃淘汰賽的點球大戰中 中國隊完成恐怖的零失球
14.中國隊在世界盃上的丟球數遠少於足球之國巴西和以防守見長的義大利
15.中國隊在世界盃正賽階段的不失球記錄已延續12年
16.在世界盃史上沒有任何一支球隊能將中國隊拖入加時賽
17.沒有任何一支非洲球隊能在世界盃上戰勝中國隊,哪怕是逼平
18. 除了足球王國巴西隊,世界上還沒有另外一支球隊敢跟中國隊一樣在球衣上印上五顆星。
19.強如C羅梅西里貝里這樣的超級巨星也從未在世界盃上攻破過中國隊的大門 世界盃歷史第一射手克洛澤也沒能對中國隊取得進球
20.整個美洲也僅有巴西與哥斯大黎加在世界盃上戰勝過中國 阿根廷 厄瓜多 智利 墨西哥 美國等美洲強隊都未能擊敗中國
21.邵佳一是唯一一位在世界盃上獲得紅牌的中國球員
22.至今沒有任何一位球員在世界盃上兩次攻破中國隊大門
23.中國神鋒郜林在世界盃進球跟伊布一樣多
24.縱觀中國足球未來10年的規劃 世界諸強想在世界盃上擊敗中國隊也毫無可能
25.中國與巴西義大利豪奪9次世界盃 幾乎佔到總數一半
26.世界盃史上沒有任何一支球隊在打平就能出線的情況下逼平過中國隊
27.世界盃史上共產生八支冠軍球隊 僅巴西層戰勝過中國隊
28.世界盃史上對陣中國隊的球隊僅三支保持零失球
29.中國隊在世界盃上僅小組賽品嘗過輸球的滋味
30.世界足球聯合統計協會最新報告世界盃史上丟球最少的球隊 中國隊榜上有名
31.南非世界盃冠軍西班牙因在世界盃上對中國隊零進球而被認為實力不如韓日世界盃冠軍巴西隊


簡單幾條,肯定不全:
1、數據生產環境是否有偏差?
2、數據取樣是否完全?
3、數據統計策略是否合理?
4、數據相關性是否存在?


分享一個工作中遇到的數據解讀案例吧。

這個案例是使用公司內部的數據分析系統給一個珠寶類品牌廣告主(寶格麗)做品牌用戶群分布分析。
預期用戶群分布:有一定購買力的中年高端人士。
按照正常的分析流程獲得以下年齡分布數據:

依據得到的數據,正常的解讀結論是「該品類的用戶群主要年齡段為:18-24歲」

顯然,但這一數據結果跟預期年齡分布相去甚遠。

然後逐個排查原因:
首先,排除客觀性錯誤,確認了下數據源及整個數據提取分析整理過程的正確性。

然後,排除主觀性錯誤,找來第三方數據參考,通過「百度司南」(百度司南_百度百科 )得到該品牌數據結果如下:

通過「百度司南」的結果側面印證了預判結論的正確性,這樣就排除個人主觀判斷的錯誤。

再次,對比兩個分析系統得出的結果,還是有一些差異的,相較於「百度司南」,公司自有的數據分析系統統計結果少了部分30~39歲人群的覆蓋。
這是什麼原因呢?進一步對比下兩家數據數據分析系統的數據收集來源,分析下各自人群的覆蓋範圍:
公司的數據分析系統的主要數據來源為:社交網路數據、廣告投放數據(DSP、SEM、直投)、媒體網站的tracking數據。
百度司南的主要數據來源為:搜索數據、廣告投放數據、媒體網站的tracking數據、其它數據。
對比發現,相較於「百度司南」,造成結果差異的原因應該出在社交網路數據這部分數據源。

最後,提取了這部分數據源樣本,同時查看數據採集源是否存在異常,經過一番努力,發現一個異常現象:在社交網路(微博等)中,分享、轉發該品牌的人群中,有相當大一部分人是年輕的網路代購、買手、代理商等。

謎底終於揭開了!該品牌的用戶群分析不僅要考慮實際消費者,還應考慮中介代理的存在。

在這個案例中,數據源、提取過程、分析及結果均正常。如果僅僅按照數據結果及主觀判斷去簡單解讀,顯然不完全正確。

大多數時候,並不是數據欺騙了我們,而是我們不夠全面的了解數據,錯誤片面的解讀導致自己欺騙了自己,而非數據!


舉一個事關200萬人死因的例子,來自Drixler(2016)。核心結論在最後一段。

出生後幾天內已經死去的嬰兒,統計有可能歸入三類。一是胎死腹中(stillbirth),二是出生後死亡(death in postpartum),三是殺嬰(infanticide)。1868-1945年,日本一部分縣的死胎率異乎尋常地高。從下圖可以看到,有許多郡都在10%以上,少數甚至在部分年份超過20%。

日本當時的戶籍制度很嚴格,採集的數據大部分比較可靠。不過,死胎這部分是居民自己報告。因此,有可能是新生兒父母殺掉孩子,再用死胎名義上報。這裡,死胎這個數據撒謊沒有?如果有,怎麼找出問題?接下來的分析可能比較繁複冗長,望諸位多一點耐心。

上面這張圖把數據畫到了日本地圖上。顏色越深,死胎比率越高。有三個地方尤其聚集:一是關西兵庫縣附近,二是關東千葉縣附近,三是西本州廣島附近。日本不算大國,這麼一塊地方,有幾個點死胎率比其它地方高5%甚至10%,不尋常。如果數據真實,這幾個地方應該有特別之處。

第二個疑點是數據本身高得離譜。上圖來自Drixler附表的一部分,表中有全球各地大量記錄1578-2010年死胎率的數據。幾乎沒有國家這個數字會超過10%,歐洲迄今為止最高是1809-1810年的斯塔拉斯堡,9%。超過10%而不屬於日本的例子只有三個:1923-1924年美國22個州的非裔、1915-1949年的模里西斯、1867-1946年安提瓜的殖民者。大範圍長時段超過10%,亘古未有。

第三個疑點是性別比。見上圖,黑點是除日本外世界各國死胎的性別比,白點是日本死胎的性別比。除日本外所有樣本,只有3.5%性別比低於115,每100個女胎對應115個男胎。而日本超過50%的數據低於115。女孩子消失了。見下圖,隨時間推移,總死胎率下降,性別比也慢慢恢復正常。

儘管疑點多多,學者傳統上還是接受這套數據,並且找了很多很多解釋,比如經濟差距、營養不良和傳染病等。但是,簡單的回歸就可以瓦解這些解釋。把死胎率對人均GDP、城市化率、10年後新兵身高、女性維生素B1缺乏症患病率、孕產婦死亡率和梅毒死亡率回歸,無一顯著。

可以進一步做更有力的批評。首先,現有估計表明日本在1900年前後人均卡路里日攝入量達2000大卡。其次,對比其它幾次著名饑荒,1866-1868年芬蘭饑荒餓死全國7%人口,死胎率從3%上升到了4.3%。1899-1900年印度饑荒期間死胎率估計是5.1%,中國三年饑荒期間這個數字不到2%。

另一種常見的解釋是日本婦女乾重活。問題在於:首先,大範圍研究顯示重體力活實際上減輕了死胎率;其次,死胎率高發地區大部分集中於城市,而承擔體力活較多的一般是農村婦女。實際上城市整體死胎率比農村要高1.15倍。

另一常見解釋是環境污染。日光銅礦(the Ashio Copper Mine)恰好與關東地區死胎數目最多地區重合。但是,如果把圖畫得更細一些,受銅礦污染影響地區與死胎比例最高地區並不重合。對神岡鋅礦(the Kamioka Zinc Mine)的類似研究得到了一致的結論。

貧血、梅毒、天花、猩紅熱、瘧疾等疾病也是常見解釋。不過,有數據的,做回歸都不顯著。國際比較也不支持這些解釋。以梅毒為例,坦尚尼亞研究顯示,患梅毒導致死胎率升高不超過1%。玻利維亞梅毒產婦,整體死胎率是2.3%。

也可能是政府編造了數據。但是,死胎率高地區傾向於集聚,邊界處死胎率數據變化平滑,數據整體服從本福德法則,各地區編造幾無可能同時滿足這幾點。最後一項可能是個人為了逃避死亡登記麻煩(當時規定出生後死亡要額外報告填表),把出生後幾天胎兒報成胎死腹中。這有可能,但這部分數目相比死胎不大。同樣有可能的一點是出生後死亡里也掩蓋了一部分殺嬰。上面這張圖顯示:死胎率高的地方,嬰兒剛出生就死亡的比率也高。這裡和前面的誤報可以抵消一部分。

因此,所謂的死胎數據很可能騙了人,其中很大一部分可能幹脆就是被殺死,然後說成是出生前就死了。作者用國際數據作了推算,按最保守假設,日本這段時間內有170萬殺嬰報成了死胎;按最松的假設,這個數字是280萬。數據僅供參考,詳細步驟見原文。這也是開頭第一句話的來源。

最後說一點。儘管拿出了這麼多證據,作者是不是真的證明了這個數據在騙人呢?沒有,只能說這個數據很可能不靠譜。對殺嬰的估計更加只能是參考了。日常生活中,我們可能沒有精力,也沒有能力去從這麼多方面檢查我們要用的數據,最好的辦法是什麼?

我的答案是用博弈的觀點看數據,看彙報數據、使用數據的人有沒有激勵操縱。他們有計策,自己有對策,把數據從偏離方向往回打個折。至於具體打多少,這也算是數據分析大師和菜鳥間的區別之一。如果對面知道你會打折扣,問題就更複雜了。數據有坑的另外一些例子可見知乎專欄。

參考文獻:Drixler F F. "Hidden in Plain Sight: Stillbirths and Infanticides in Imperial Japan"[J]. The Journal of Economic History, 2016, 76(3):651-696.


沒來的人請舉手。


一個笑話:人均收入


數據真冤枉,數據還會說謊。

數據生了病(數據採集不正確),不會哭不會笑,只能任由人評說。

我對數據的理解:1越接近第一手資料的數據越可靠。2.數據本身不能說明正確錯誤,但數據可以了解以前,預知未來。


題主要真實案例,那我就說一個:

今年春節回家的時候,我媽告訴我,她最近讀了一個「權威」社會學調查,說研究發現男女年齡差在十一歲的人離婚最少,男女年齡差在一至三歲的人離婚幾率最高。

我一聽就覺得不對勁,影響兩人感情的原因多種多樣,怎麼能單純歸結在年齡上嘛對不對,隨便都能舉好多例子反駁嘛。

但我沒隨便舉例,而是跟我媽講了一個有關「大數據」的段子:

有一個美國數學教授平生最怕坐飛機,他研究了近20年的統計數據,發現恐怖分子帶炸彈上飛機的幾率其實非常低,但是他還不安心,他又進一步研究數據發現,兩個人同時帶炸彈上飛機的幾率幾乎為零,於是從此他坐飛機都自己攜帶一枚炸彈。

最後終於成功挫敗了我媽準備在所住小區里幫我留意剛中考完的妹子的企圖_(:з」∠)_

所以如題主所見,數據不見得撒謊,但是解讀這些數據的人,卻可能因為動機初衷目的和對其他因素的忽略而做出類似「撒謊」的結論。


推薦閱讀:

如何看待中國近 25 年森林面積增加量世界第一?

TAG:數據 |