你讀得懂的大數據時代下的思維變革
5 人贊了文章
首先認識一個人,他叫維克托·邁爾-舍恩伯格,十餘年潛心研究數據科學的技術權威,是最早洞見大數據時代發展趨勢的數據科學家之一,也是最受人尊敬的權威發言人之一。
他說「世界的本質就是數據,大數據將開啟一次重大的時代轉型。大數據發展的核心動力來源於人類測量記錄和分析世界的渴望。從因果關係到相關關係的思維變革才是大數據的關鍵,建立在相關關係分析法基礎上的預測才是大數據的核心。」
他在很多年前,大家還沒有做大數據的時候,他就預言了大數據時代的到來,他的這幾句話就是大數據體系的核心,大數據的數據來源,是來源於測量和記錄,也就是我們爬蟲可能爬取的東西。大數據的作用主要是用來分析,大數據所要實現的功能主要是預測,預測是大數據的核心的功能,包括我們的推薦系統等等,其實都是基於預測來做的。
07年的時候,人類開始來做DNA檢測,然後發現DNA檢測居然有30多億對鹼基需要做匹配;早些年,美國想通過谷歌的記錄來對流感的人群來做一次預測,發現有幾百T的數據需要進行分析。 也是從那個時候大家開始真正的意識到大數據有可能給我們的生活帶來變革。大數據裡面,思維變革才是我們這個大數據時代的關鍵。我們來看一下,在大數據時代,我們會迎來哪些思維變革?
第一,我們在思考的時候,樣本數據不再是隨機樣本,而是全體數據。
比如說以前我們如果想檢驗一個產品是否合格,我們會從1萬個產品裡面來抽檢一百個,如果一百個裡面有98個合格的話,合格率就是98%。這個方法在以前數據量實體特別小的時候適用。但是如果我們把數據放得很大,比如我們所有的上網用戶,不再是檢驗基數為幾百或者是幾萬的產品,而是幾千萬,甚至幾億用戶數據的時候,使用隨機樣本做分析的結果就會變得非常不準確,這個時候我們就需要依據全體數據。
第二,在思考方式上,我們不再考慮精確性,而是要考慮混雜性。
什麼是混雜性?以前我們更多的是精確的判斷,比如基於DNA檢測或者病毒檢測方式來判斷這個人是否患了某種病,或者基於血液分析的方式來判斷這個人是什麼血型,這都是非常精確的結果。只要給它放到機器裡面去,就可以立刻出結果。但是在大數據時代,我們更多考慮的就是概率的問題。比如某人有多大的概率,可能會喜歡什麼樣的歌曲;有多大的概率,會患某種疾病。以判斷某個人的血型為例,我們可能會錄入這個人的一些行為,以及性格等方面的信息,然後由此來判斷他的血型。這個判斷血型肯定不是必然準確的,這就是一個概率的問題。除了概率以外,還有一個能體現混雜性的地方,就是翻譯。不管是英文翻譯還是中文翻譯都一樣,同樣語句翻譯結果肯定是不一樣的。一個人翻譯英文的水平的高低和他的中文水平高低是有著直接關係的,就是說每個人翻譯的結果都是不一樣的,也不能是精確而論的。
第三,不再是因果關係,而是相關關係。
以前我們考慮的問題是基於一些條件得到一個結果,在大數據時代,我們考慮的更多的是兩個物體之間的相關關係。更有可能是本來沒有什麼關聯的東西,我們把它關聯起來。比如說一首歌和一個人,小明喜歡A這首歌,小紅喜歡B這首歌,我們判斷小紅是否會喜歡A這首歌。在大數據時代我們確實可以推測出來了。首先分析一下A這首歌的一些標籤和用戶等,再分析一下B這首歌。然後如果A和B之間,兩首歌會有很強的關聯關係,那我們就可以假定(當然也不是準確的,跟前面說的混雜性是有關係的)小明有可能喜歡B這首歌,小紅也有可能喜歡A這首歌,因為這兩首歌是相像的,所以說如果某個人喜歡這首歌的話,就有可能喜歡跟他相似的歌。這樣的邏輯,就不是原來那種基於條件式的,得到一個結果。
第四,基於大數據,我們會有更多的、無限的可能。
以前不能想像的事情,我們現在都可以把它做出來。以前是絕對想不到機器是可以寫詩的、可以作曲的,或者拍一朵花、一個動物,APP就告訴你這個動物或者花是什麼。可以想一下,我們現在日常用的任何一款產品,其實都是基於大數據的。比如小黃車,可能會通過大數據的方式來判斷哪一片區域的車的使用率很低,哪一片區域的車不夠用,運營者就可以定期的把使用率低的車去拉到不夠用的那個區域,這樣來達到資源的最大利用率。或者小黃車賺錢的方式是什麼呢?有可能並不是真的是收我們的押金以及包月的費用(當然這也是一部分),它也可能靠數據賺錢。通過分析你騎車的路徑,分析出來你在哪上班、或者你家住哪,或者知道你常去的店之後,得出你的消費水平、消費習慣等等,其實這些東西都是可以賣錢的。如果把這些東西賣給別的公司,比如賣給淘寶賣家,然後淘寶給你推薦東西,最後促成消費。數據有很多可以玩的方式,只有可能是我們想不到的,但是沒有它做不到的。
第五,在大數據時代給企業帶來一個核心價值,就是轉型。
前面說的都是一些比較新興的互聯網公司,但是對於一個傳統企業來講,比如說運營商、銀行、保險公司這種很有錢、又比較獨角獸的公司,雖然起步很晚,但其實都已經開始轉型了。比如說招商銀行的信用卡中心,就已經在成都成立了一個大數據研發中心。那麼這些傳統企業要大數據來幹什麼呢?最早的時候是為了檢驗運營效果。在這之前運營的效果好不好是沒有辦法評定的,比如說運營部門出了一個運營方案,但是帶來了多少用戶、這個用戶帶來多少收益,都是無法計算的。但是基於大數據就變得可以計算了。具體怎麼計算,其實是數據挖掘的一部分。再比如銀行,除了運營效果以外,更多的會給用戶推理財產品,根據用戶的消費習慣、經濟承受能力等進行推薦,這些也都是基於數據挖掘出的用戶屬性。大數據給這些企業帶來了很多變革,當然同時也滋生了很多崗位。
大數據時代的來臨,是我們測量、記錄、分析世界的一個契機,他能幫助我們更好的認識社會,認識我們所生存的這個世界。而如果我們有意去抓住這個機遇,就務必需要從思維上去改變,去適應大數據時代的生存法則。在小數據時代,我們會假想世界是怎麼運作的,然後通過收集和分析數據來驗證這種假想。而大數據時代,我們會在大數據的指導下探索世界,不再受限於各種假想。我們的研究始於數據,也因為數據我們有了更多的無限可能。
知了堂原創,轉載請私信授權
推薦閱讀:
※為啥北上深的年輕人總覺得房租高?
※技術專欄 | DMap——實戰Vue百萬條數據渲染表格組件開發
※國際視野下的大數據政策與個人信息保護
※2018智能周報 | 02.17-02.25 | 附資源地址 | AI作惡、CVPR會議、IBM量子計算揭秘……