大數據思維
書接上回,我們闡述了什麼是大數據。那麼今天我們主要介紹大數據帶給了我們什麼?我認為大數據帶給我們最有價值的東西就是大數據思維。因為思維決定一切。那麼什麼是大數據思維呢?
第一由樣本到全量思維;第二由精確到模糊思維;第三由因果到關聯思維。接下來,我們需要對這三個思維進行深度剖析,才可能深度理解並轉化為自己的思維。
樣本到全量
以前我們進行數據分析時通常是用樣本數據進行研究,樣本是指從總體數據中按隨機抽取的原則採集的部分數據,所以至今樣本思維還是很常見的。究其本質我們很容易發現樣本分析是因為傳統的手段很難進行大規模的全量分析,因為成本會很高並且效率低下。例如,我們小的時候經常看到幾年來一次大規模的人口普查,需要大量基層人員挨家挨戶的入戶登記,工作周期長、效率低下。登記完成後,一個階段內分析人員都是基於樣本思維在做分析和推測。而到了大數據時代,很多信息已經實時數據化、聯網化,加上新的大數據技術可以快速高效的處理海量數據。我們花費更低的成本、更低的代價很容易就能做到全量分析。樣本分析是以點帶面、以偏概全的思維,而全量分析真正反映了全部數據的客觀事實。
精準到模糊
傳統數據分析的時候由於數據量小,分析人員可以對數據做精準分析,甚至細化到單條記錄。並且出現異常的時候,還能對單條數據做異常原因等深究工作。但等到了大數據時代,隨著數據的爆發,已經很難讓分析人員能夠關注更多細節。精準性思維是建立在少量數據的基礎上,基於精準得出的規律,在海量數據面前也會產生變異甚至突變。所以在大數據時代我們分析更強調大概率事件,也即所謂的模糊性。這不是說我們要拋棄嚴謹的精準思維,而是說我們應該增加大數據下的模糊思維。最典型的案例莫過於Google預測流感一樣,Google通過大家的搜索記錄,預測某個地區發生流感的可能性就是一種模糊思維,他不可能絕對精準,但概率會很高。
因果到關聯
我們每個人開始上學的時候,語文課上學的句式中就有一個因為什麼所以什麼,典型的因果關係。從小的數學課上,學了大量的公式,通過公式的推理和證明,也是一直在強調因果關係。至此我們每個人在看到問題和現象的時候,總是不斷問自己因為什麼。所以可見因果思維在我們每個人腦中已經形成了很深的烙印。但學習數據挖掘的人都知道一個「啤酒與尿布」的故事。故事的內容是這樣,沃爾瑪的工作人員在按周期統計產品的銷售信息時發現一個奇怪的現象:每逢周末,某一連鎖超市啤酒和尿片的銷量都很大。為了搞清楚這個原因,他們派出工作人員進行調查。通過觀察和走訪後了解到,在美國有孩子的家庭中,太太經常囑咐丈夫下班後要為孩子買尿片,而丈夫們在買完尿片以後又順手帶回了假期看球賽時自己愛喝的啤酒,因此啤酒和尿片銷量一起增長。搞清原因後,沃爾瑪的工作人員打破常規,嘗試將啤酒和尿片擺在一起,結果使得啤酒和尿片的銷量雙雙激增,為商家帶來了大量的利潤。通過這個故事我們可以看出本來商品中尿布與啤酒兩個風馬牛不相及的東西,關聯在一起銷量增加了。數據挖掘中一個演算法叫關聯規則分析,就是來挖掘數據關聯的特徵。通過數據的挖掘我們能夠看到數據的關聯現象,但我們不一定知道他的因果關係。因為關聯關係體現了數據思維視角看現象,而因果關係體現了從業務視角看現象。
通過以上的內容我們不難看出,大數據時代的到來,給我們帶來了思維的改變。但這種思維的改變絕對不是拋棄已有的思維,而是應該學習新的思維,掌握它。讓它成為你的思維庫里的又一項武器。只有你的思維升級了,你才可能在這個時代透過數據看世界,比別人看得更加清晰。
推薦閱讀:
※礦工代碼篇(2):Python插入資料庫mysql
※如何自學大數據?先對自己來一個深度剖析
※大數據時代的愛情是一場精確的匹配遊戲
※大數據下的中國女人,看完驚呆了
※破解癌症未解之謎,天元數據網基因大數據有話要說!
TAG:大數據 |