川普贏了,但美國的數據同行們卻輸了

川普贏了,但美國的數據同行們卻輸了

來自專欄 數據蟲巢

文·blogchong (微信公眾號「博客蟲大數據」,微信號blogchong)

川普贏了!

今天全世界都在討論一個事,那就是美國大選。是的,川普贏了!

我也很意外,因為前幾天我還看到的是這個:

結局有點出乎意料,說好的預測希拉里成果率80%的呢?

那個網上做大選預測的那個傢伙,還有畫這個好看蛇形預測圖的傢伙,你給我站出來!我保證不打死你!

是的,美國那邊的數據同行們,被「啪啪」打臉了!

說好的「啤酒與尿布」呢?哦,對了,還有說好的「成功預測流感」呢?咋就不好使了。

莫非,是美國那邊的數據同行們,水準下降了?!

好了,打住,不要偷偷得意了。

盆友圈裡,有個數據同行盆友發了這樣一個狀態:「美國大選出乎意料的核心在於數據的不完整性。我們以為全世界的人都在互聯網上,其實沒有在互聯網的人是多數。所以這個時候的大數據分析技術就是個偽命題,無法預測也是合理的。」

一語中的!

很多分析這次美國大選結果的盆友,很喜歡用的一個句話「農村包圍城市」。

我們來看這張圖,相信已經有不少盆友都看過:

從地圖上可以看出,支持希拉里的藍色部分,分布在西部沿海,以及東北部,當然其中包括了我們耳熟能詳的紐約,以及加州。這些地方人口相對比較密集,也是美國經濟比較發達的地區。

就算在一個州里,只有相對發達的城市對希拉里的支持是比較徹底的,例如佛羅里達州:

所以,確實是印證了「農村包圍城市」的說法。

那麼,這個現狀對於之前我們說的數據預測有什麼影響呢?

不可否認,互聯網在美國的普及率也算是足夠高了,但不得不承認的一個事實是:互聯網上相對活躍的人群,肯定是經濟能力相對較高,整體學識素質相對比較高的群體。

從這點來說,基於互聯網的數據去做大選預測,本身就存在數據樣本的不公平性。

也就印證了,盆友圈中的那句「其實很多人都不在互聯網上的」,那部分人群是沒有參與到預測中的。

還有一個比較重要的點就是:關鍵意見領袖(KOL)再加上社交媒體的影響力,使得數據預測進一步偏離了正確的方向。

我們都知道,現任美國總統奧巴馬公開為希拉里拉選票,而蘋果、Google、臉書等互聯網領袖也都公開支持希拉里,當然還包括很多體育、娛樂明星等為希拉里站台。

這些人在互聯網的公開影響力是不可忽視的,再結合社交網路的病毒式擴散,以「精英」階層為主體的互聯網,於是就這樣被偏向了希拉里。

且不論國外,就算在國內。

就以微信熱點傳播為例,一些微信大號發表的一些對時事熱點的看法,是很容易大面積覆蓋朋友圈的,而作為吃瓜群眾的我們也很容易受到這種意見領袖的影響(不受影響,你會轉發嗎)。

而今天雖然智能手機的普及率已經算是比較廣了,但是作為經常吃瓜群眾的我們,其實也算是「精英人士」了,我們是無法想像三四線城市的情況的,更何況那些農村地帶呢?

你朋友圈中經常傳播的熱點,你那些依然拿著諾基亞的七大姑、八大姨聽過嗎?

你造中國農村人口有多少嗎?

所以,基於互聯網數據的選舉預測,不可避免的使用了本身成分就不全面的基礎數據,哪怕美國同行們用"看似"再精準,再智能的預測演算法,結果一樣是錯的。

這裡又回歸到了我們的原始話題,並不是說預測的過程或者說演算法存在問題,而是數據源存在問題。

這裡告訴我們,作為大數據領域裡開挖掘機的我們,在苦練開挖掘機技術的時候,不要忽視了前期數據收集,以及數據預處理的重要性。

很多時候,數據源的選取,以及數據的預處理過程,將會對你的後續挖掘結果產生巨大的影響,包括我們經常說的推薦。

當然,包括對數據源要求更嚴格的預測模型等。

最後,作為數據領域的我們,要正確的看待這一次的美國大選數據預測事件,一方面要嚴謹對待數據選擇的問題,另一方面也不要就因此而否定數據挖掘的價值!

(全文完)


推薦閱讀:

關於conda的使用
對於面試演算法工程師的想法
通俗易懂說數據挖掘十大經典演算法
大數據告訴你「錢多事少離家近」的工作在哪?
用戶畫像——搜狗用戶挖掘:文本分類

TAG:大數據 | 數據挖掘 | 美國大選 |