數據會說謊，我們如何鑒別真假數據？

05-11

有人說，當一個行業人人都在談數據時，這個行業離死也不遠了。

　　在這個人心浮躁的時代，各行各業都充斥投機資本不斷吐出的泡沫。科技越來越進化，人性卻越來越退化，處處依賴機器與數據，卻忘記了去分析事物的本質。

　　不可否認，數據已經成為現代商業不可分割的一部分，但人人卻也陷入了數據的迷霧，動輒強調「用數據說話」，甚至陷入「唯數據論」，不看事實、不看現象、不聞民意，走向任何結論都要靠數據說話的極端。

　　言必稱數據且大者，實際上忘卻了數據的根本。任何行業新盛的核心原因，都是人的創造力，數字只是錦上添花的推動力。當你不假思索地拾起遍地皆是的數據並且加以應用，那麼，在絕大多數情況下你都會死的更慘。

你真的相信市場調研？樣本偏差可以顛覆調研結果

　　邏輯上講，大多數市場調研的本質都是等距抽樣，就像我們要看清下面一張圖，我們需要看到每個像素的信息，才會看的非常清晰。但如果費用或者其他資源讓我們沒有能力看到每個像素，我們就必須採取抽樣的方式，也就是每個一個固定的舉例，掃描圖片上的一個點，然後把這些點按照原來的相對位置加起來，最終我們看到的就是一張打了馬賽克的有碼照片。

　　但在實際的市場調研中，往往受到預算或者抽樣能力的限制，我們最常犯的錯誤有兩種：其一是受制於預算約束，我們只能抽取很少的樣本，這樣我們看到的就是一張馬賽克很厚的圖片。由高清無碼到薄碼影片已經是一種不爽，但是由薄碼一下子變成了厚碼影片，你說看片的人會是何種感受？

　　第二種常見錯誤就是抽樣範圍不合理，尤其是當今社會，願意接受調研的人原本就是少數，最終你調研可以抽取的樣本全都是一小部分特定群體，最終反饋回來的圖像就像看了之前被廣電總局剪輯過的大頭貼一樣。

人的真實需求遠非數據可以回答，用戶都不知道自己的未來

　　除了樣本偏差等客觀條件制約外，還有調研對象——人的主觀因素。人是很複雜的一類動物。以調研問卷為例，可能產生誤差的原因就是，每道問題其實都是帶有情感色彩的，雖然相同的含義，但換一種問法通常會得到完全不同的答案，提問本身就會產生偏差。

　　大家都希望通過數據調研來預測未來，但事實是，用戶都不知道自己的未來。這也是普遍做樣本調查容易產生的誤區。

　　如果時間前溯10年，你問一個用戶，你會去買蘋果手機嗎？他肯定會說，你是不是瘋了。但是當真的很酷的蘋果手機放到他手上，他才會有感覺。這是有真實案例的，十幾年前，手機還叫大哥大，還是大款們才特有的玩物，真有調查公司跑到路邊採訪行人，說你需要買手機嗎，行人紛紛表示不需要。他們不知道這玩意對他們人生的改變有多大。10年前，又有類似的事情，上網當時被認為是不務正業的表現，報紙媒體開始憂心忡忡年輕人的網癮和被網路的傷害；然後又有媒體去採訪，很多人表示，上不上網無所謂。這些都是當年一些新聞電視里出現過的典型場景。如果你相信，你就真完了。

凡是和計算機相關的數據，都可以造假

　　計算機的普及以及互聯網的飛速發展，使得互聯網廣告行業以及基於此的效果評估等第三方公司，都得到了空前繁榮。在這個數據為王的時代，數據造假也如同癌症一樣，侵入到各行各業的縫隙中，有人甚至提出這樣的觀點：凡是和計算機相關的數據，都可以造假。

刷量遍地而在，互聯網反造假的監測成本太高

　　我們說個微信公眾號自媒體的例子吧，自從閱讀數出現之後，微信的很多數據就出現在了人們的眼中，當然隨之而來的另一個弊端就是刷量平台應運而生，很多賬號存在閱讀量造假的問題，但是閱讀量造假這事兒目前來說還沒有平台監測可以做到，因為伺服器成本太高，且並無多大意義，本身互聯網的水就很深，所有內幕大白於天下終歸是不好的。

　　真正能夠監測到閱讀量造假的技術是將監測閱讀數的時間無限細分，時間段無限取中位數，最後描繪出較長時間周期內的閱讀走勢。而這樣以來會大大增加伺服器的成本，刷閱讀量的伺服器成本是遠遠低於監測成本的，因而有人感嘆：有水分的互聯網還是不要太過吹毛求疵的好，睜一隻眼閉一隻眼，你高興我也自在。

數據邏輯更改，可以使點擊率高估一倍

　　點擊率欺詐是互聯網的熱門話題，但這裡卻有很多細節並非如大家想像那樣。比如，我們通過可控的客戶端採樣監測，得到了一定樣本的，包含google搜索url特徵的日誌記錄，得到google的搜索量；同樣的樣本下，採集到包含google adwords廣告url特徵的日誌記錄，得到google的廣告點擊數。那麼，理所當然&一廂情願的用點擊數/搜索量，得到點擊率。

　　但是，這個點擊率是顯著錯誤的，理由是，google的adwords廣告點擊，並不只發生在google的搜索結果中！當時的情況是，點擊率被高估了一倍。（其實已經區分了adsense和adwords廣告點擊的url特徵，但是adwords也會出現在其他網站。

　　對數據邏輯及相互關係的理解不透徹，就會帶來錯誤的解讀。

單純數據推算，可能與實際結果背道而馳

　　我們來舉個簡單的例子，當欺詐點擊出現時，業界又提出反欺詐點擊的方法來應對。簡單來說，就是用一定的點擊過濾策略來進行。當你引入一種新的過濾策略，勢必會帶來更加嚴格的過濾，於是按照新的策略跑一遍舊的日誌，得到結論，額外過濾了若干點擊，價值若干，會導致收入下降若干。

　　但是這個結論是徹底錯誤的。當嚴格的策略執行之後，客戶對該系統信心增加，競價價格提升，廣告預算提升，收入不降反升。

　　但這種單方面做數據推算，卻忽略了與用戶、客戶的交互影響，最後導致做出錯誤的推斷。

數字化生存時代，我們是否有足夠的能力來處理數據？

　　即便是作為科技領域的執牛耳者，谷歌的大數據預測也是不準的。為什麼呢？發表在2014年3月14日《科學》雜誌上的一篇文章指出了兩個主要原因。一是大數據浮誇，二是演算法變化。大數據浮誇指的是，以為大數據可以完全取代傳統的數據收集方法，而非作為後者的補充。大數據浮誇的最大問題在於，絕大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的差異。

　　另外，搜索引擎演算法的改變和用戶的搜索行為會影響到預測結果，比如媒體對於流感流行的報道會增加與流感相關的詞語的搜索次數，進而影響GFT的預測；相關搜索演算法也會對GFT造成影響。例如，搜索「發燒」，相關搜索中會給出關鍵詞「流感」，而搜索「咳嗽」則會給出「普通感冒」。

　　此外，互聯網數據基本處於各大平台各自壟斷，數據支離破碎的情形。對於全平台數據的使用，還存在著很多問題，具體表現為：

　　第一，目前大數據存儲於多個獨立的平台之中，打通、整合這些數據亦然非常困難。於是目前的大數據服務提供者只能做到各有千秋，但誰也無法提供一個全套服務。

　　其次，當下的大數據模型還只是剛剛服務於市場，我們積累的經驗還不足夠充分，很多不可預知的錯誤隨時都會發生，這裡仍然需要足夠經驗豐富的人進行方向把控。

　　第三，大多數大數據的技術團隊仍然與數據需求者脫節，也就是研發人員自嗨，需求人員只能看熱鬧。而真正有價值的模型必須是一個跨界團隊共同完成的。

寫在最後：

我們遺憾地發現，本因充滿創造力和想像力的影視行業和廣告行業，越來越為數據所捆綁，從業者沉迷於各種數據，希望挖掘出消費者的喜好與價值的最大化，而結果卻常常背道而馳。數據並不是越多越好，還要看如何分析和利用數據，進而得出最契合實際的結論，並且有效利用這一結論。還是那句話，一個跪舔數據的行業，是看不到前途的。

原文鏈接：http://www.chinamedia360.com/News/NewsDetail.aspx?nid=9C88E19FDD83898D#rd

相關鏈接：

虛假數據中的真營銷

營銷假戲真做里奮鬥 | 專題

洞察 | 數據還是做數據？資本到底喜歡什麼

（媒介360原創文稿詳情點擊閱讀原文）

（如需轉載請在後台留下您的公眾號信息獲得授權後方可轉載更多回饋歡迎私信或投稿 tougao@chinamedia360.com）

寫留言