玩轉大數據,重要的是思維的變革
作者:糖澀爾
微信公眾號:弈囈(ID:YiYi_TANG7980)
不知從何時開始,大數據這個詞從初次問世的新奇高逼格,變成了現在的爛大街。好像凡是家互聯網公司,就敢言必稱「大數據」。
那麼,我們聽了這麼久的大數據,到底什麼是大數據?既然有大數據,那麼是否就有小數據?一個新的概念的提出,必然是對原本概念的一個挑戰,那麼大數據和小數據相比又有什麼區別呢?
我想這兩者的本質區別並非只是數據量大小的差異,更是我們我們思維層面的變革。
今天,筆者就借舍恩伯格的《大數據時代》來和大家聊聊對於大數據的一些理解。舍恩伯格在書中提出來3個關於大數據時代思維變革的觀點。
一、 更多:不是隨機樣本,而是全體數據
我們從中學時候,就開始接觸「抽樣」的概念。而抽樣其實就是小數據時代通用的一種方法。基於當初的數據收集和處理的困難,我們無法做到對所有的研究對象進行數據分析,因此就選擇抽樣的方法,隨機抽取部分樣本,希望通過對隨機樣本的研究來說明整體的情況。這種方法最重要的就是在樣本的選擇上,如果選擇樣本的時候不符合「隨機」性,那麼其最終的研究結果便很有可能和事實相差甚遠。
而隨著互聯網時代的到來,技術的飛速發展,我們記錄收集信息的成本越來越低。從事互聯網這一行的基本都知道,只要我們在產品內進行埋點,便能知道所有我們想知道的用戶在產品上的行為,而具備強大的數據分析能力的計算機,更是使對所有數據進行分析成為了可能。解決了數據收集和分析的難題,使「樣本=全體」得以實現,而這也是大數據時代第一個特點,我們再進行相關研究的時候無需進行抽樣,對全量的研究是我們的結果更加全面。
二、更雜:不是精確性,而是混雜性
在以往的小數據時代,因為樣本容量的有限性,為了保證最終結果的可信性,分析人員務必需要保證所選擇樣本數據的準確度。因為基於小樣本的數據分析,如果其中不幸參雜了一個錯誤的數據,那很有可能導致最終的結果完全偏離現實。
而到了大數據時代,我們所收集到的數據越來越多,而其中必然會慘雜著為數不少的錯誤數據。但是在如此龐雜的資料庫中。只有5%的數據是結構化且能用於傳統資料庫的,這也就意味著,如果我們還是如以往一般執迷於精確性,那麼剩下95%的的非結構化數據都無法被利用,這將是一個多大的損失,我們坐擁寶山而不自知,白白讓這麼豐富的數據浪費。而如果要使用這些數據,我們就必須接受不精確性,接受數據的混雜,這樣才能打開一扇從未涉足的世界的窗戶。
當然,我們不再追求精確性,並不是意味著我們放棄準確。恰恰相反,接受數據的混雜,正是為了能夠通過對更多數據的使用,來獲取更有說服力、更加準確的結果。雖說混雜的數據中會參雜錯誤數據,但在龐大的全樣本下,個別錯誤的數據對最終結果的影響也將被無限地縮小。
三、更好:不是因果關係,而是相關關係
今日頭條根據用戶以往的閱讀數據來判定其感興趣的內容,並進行針對性的推薦,但從不去糾結用戶為什麼喜歡這些內容;支付寶年度賬單會根據各個省市的消費情況製作相關的排行榜,但也並不深究是什麼導致了各個省市消費情況的差異......
諸如此類,絕大部分的互聯網公司都是通過數據的分析,向我們傳遞著「是什麼」的信息,而非「為什麼」。而這也正是大數據時代所帶來的第三個思維的變革:我們更多的開始關注相關關係,而不是因果關係。我們不必非得知道現象背後的原因是什麼,我們更多的是讓數據自己「發聲"。
當然,這並不意味著因果關係已經沒有作用。在大多數情況下。一旦我們完成了對大數據的相關關係分析,往往不會僅僅滿足於知道"是什麼」,我們會繼續像更深層次進行探索,去研究因果關係,找出背後的「為什麼」。
我們只是不會再把因果關係作為意義來源的基礎。在大數據時代,即使很多情況下,我們依然指望用因果關係來說明我們所發現的相互聯繫,但是,因果關係實際上只是一種特殊的相關關係。相反,大數據推動了相關關係分析,相關關係往往能取代因果關係起作用,即使不可取代的情況下,它也能指導因果關係起作用。
大數據時代的來臨,是我們測量、記錄、分析世界的一個契機,他能幫助我們更好的認識社會,認識我們所生存的這個世界。而如果我們有意去抓住這個機遇,就務必需要從思維上去改變,去適應大數據時代的生存法則。
推薦閱讀:
※大佛:查詢網貸平台數據的簡單方法!
※安客誠成為阿里數據銀行首批認證服務商 助力數據營銷新生態
※「數據摺疊」:人工智慧背後的人工
※數據分析:IMDB電影分析報告
※今日數據行業日報(2017.7.26)