川普贏了，但美國的數據同行們卻輸了

05-17

川普贏了，但美國的數據同行們卻輸了

來自專欄數據蟲巢

文·blogchong (微信公眾號「博客蟲大數據」，微信號blogchong)

川普贏了！

今天全世界都在討論一個事，那就是美國大選。是的，川普贏了！

我也很意外，因為前幾天我還看到的是這個：

結局有點出乎意料，說好的預測希拉里成果率80%的呢？

那個網上做大選預測的那個傢伙，還有畫這個好看蛇形預測圖的傢伙，你給我站出來！我保證不打死你！

是的，美國那邊的數據同行們，被「啪啪」打臉了！

說好的「啤酒與尿布」呢？哦，對了，還有說好的「成功預測流感」呢？咋就不好使了。

莫非，是美國那邊的數據同行們，水準下降了？！

好了，打住，不要偷偷得意了。

盆友圈裡，有個數據同行盆友發了這樣一個狀態：「美國大選出乎意料的核心在於數據的不完整性。我們以為全世界的人都在互聯網上，其實沒有在互聯網的人是多數。所以這個時候的大數據分析技術就是個偽命題，無法預測也是合理的。」

一語中的！

很多分析這次美國大選結果的盆友，很喜歡用的一個句話「農村包圍城市」。

我們來看這張圖，相信已經有不少盆友都看過：

從地圖上可以看出，支持希拉里的藍色部分，分布在西部沿海，以及東北部，當然其中包括了我們耳熟能詳的紐約，以及加州。這些地方人口相對比較密集，也是美國經濟比較發達的地區。

就算在一個州里，只有相對發達的城市對希拉里的支持是比較徹底的，例如佛羅里達州：

所以，確實是印證了「農村包圍城市」的說法。

那麼，這個現狀對於之前我們說的數據預測有什麼影響呢？

不可否認，互聯網在美國的普及率也算是足夠高了，但不得不承認的一個事實是：互聯網上相對活躍的人群，肯定是經濟能力相對較高，整體學識素質相對比較高的群體。

從這點來說，基於互聯網的數據去做大選預測，本身就存在數據樣本的不公平性。

也就印證了，盆友圈中的那句「其實很多人都不在互聯網上的」，那部分人群是沒有參與到預測中的。

還有一個比較重要的點就是：關鍵意見領袖(KOL)再加上社交媒體的影響力，使得數據預測進一步偏離了正確的方向。

我們都知道，現任美國總統奧巴馬公開為希拉里拉選票，而蘋果、Google、臉書等互聯網領袖也都公開支持希拉里，當然還包括很多體育、娛樂明星等為希拉里站台。

這些人在互聯網的公開影響力是不可忽視的，再結合社交網路的病毒式擴散，以「精英」階層為主體的互聯網，於是就這樣被偏向了希拉里。

且不論國外，就算在國內。

就以微信熱點傳播為例，一些微信大號發表的一些對時事熱點的看法，是很容易大面積覆蓋朋友圈的，而作為吃瓜群眾的我們也很容易受到這種意見領袖的影響(不受影響，你會轉發嗎)。

而今天雖然智能手機的普及率已經算是比較廣了，但是作為經常吃瓜群眾的我們，其實也算是「精英人士」了，我們是無法想像三四線城市的情況的，更何況那些農村地帶呢？

你朋友圈中經常傳播的熱點，你那些依然拿著諾基亞的七大姑、八大姨聽過嗎？

你造中國農村人口有多少嗎？

所以，基於互聯網數據的選舉預測，不可避免的使用了本身成分就不全面的基礎數據，哪怕美國同行們用"看似"再精準，再智能的預測演算法，結果一樣是錯的。

這裡又回歸到了我們的原始話題，並不是說預測的過程或者說演算法存在問題，而是數據源存在問題。

這裡告訴我們，作為大數據領域裡開挖掘機的我們，在苦練開挖掘機技術的時候，不要忽視了前期數據收集，以及數據預處理的重要性。

很多時候，數據源的選取，以及數據的預處理過程，將會對你的後續挖掘結果產生巨大的影響，包括我們經常說的推薦。

當然，包括對數據源要求更嚴格的預測模型等。

最後，作為數據領域的我們，要正確的看待這一次的美國大選數據預測事件，一方面要嚴謹對待數據選擇的問題，另一方面也不要就因此而否定數據挖掘的價值！

(全文完)