大數據是什麼

最近這段時間有很多人問我,大數據到底是什麼。當然實際上問題沒有那麼直接。更多的問題是,飛總啊你看我親戚家的那個企業是不是可以上個大數據啊,用起來就能發財了。或者說這個大數據的新開源項目是不是對我提高這個那個有幫助啊。諸如此類的問題問多了,我也就在問我自己,寫大數據系列寫到現在了,大數據到底是個什麼鬼。

這就讓我想到了很多年前看到的Dan Ariely關於大數據的名言:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

這位普度大學的叫獸主要是做行為經濟學研究的。但是聰明人到哪裡都一樣,這段大數據的名言到今天來看依然是非常的精彩。

今天如果我們以大數據作為關鍵詞去搜索的話,那麼我們可以搜出來的東西不但很多而且很精彩。各行各業的磚家叫獸們有著各種各樣的精彩言論。各種白皮書紅皮書黑皮書綠皮書滿天飛。無論是做技術的做投資的做商務的搞經濟的乃至做地震的搞生物的開發石油的開車的,但凡你能想像得到的領域,都可以掛上大數據。死數據活數據各種術語滿天飛。這是一個大數據的年代,雖然有點過氣了。這是一個沒有大數據就沒有這個世界的年代。有些文字讀起來是頗有激揚文字糞土舊時代的感覺。但是你要真的問問這些專家們叫獸們,還有組團賣產品的各大公司們,說法五花八門,誰也沒搞明白到底什麼是大數據。於是乎,Dan Ariely的名言拿到今天的各行各業,頗有一番照妖鏡的味道。

我記得當華為準備進軍雲計算市場的時候,2015年的宣傳裡面是沒有大數據的,只有雲計算,所謂大數據相關的服務只是作為雲計算的各種服務之一來提供的。而到了今天再看華為的宣傳,大數據已經是作為一個獨立的東西提出來了。這從業務邏輯結構來看,華為顯然從2015年到2017年完成了一個從大數據等於雲計算的一部分到大數據不等於雲計算的轉變。至於這種轉變背後說明了什麼,作為一個大數據市場上的後來者的這番變化,我們這些吃瓜群眾們可以好好想一下。

我們在大數據甚囂塵上,乃至於現在人工智慧甚囂塵上的時候,到底能夠從這裡面看到點什麼。我們需要注意的是,在歷史上從來都不缺乏新概念。互聯網行業也從來不缺乏新概念,比如網格計算,比如web service。然而技術其實就那麼多,新概念裡面到底是在玩舊酒裝進新瓶的玩意,還是真的推陳出新是每個人應該具備鑒別能力的地方。所謂大數據和聚集在大數據這個殼下面的林林總總的東西,有些是新瓶子里裝了舊酒,有些是真玩意。到底哪些是舊貨哪些是新東西就得看各位的鑒別能力了。至於為什麼會這樣,換個殼賣東西,來錢比較快。人都是喜新厭舊的啊。

如果我們拿大數據的鼻祖谷歌舉個例子,先有三駕馬車,後有Spanner大殺器。前者是指Google File System, MapReduce, BigTable. 作為Google來說,它需要這些技術,因為它要面對的是整個互聯網的數據。現存的技術當然沒辦法來滿足。但是作為用戶來說,其實我管你是GFS, HDFS還是其他什麼名字,說白了就是個文件系統。文件系統能幹嗎,只能存文件唄。存了文件以後呢?查詢處理,這個套路從單機時代就開始了。沒有辦法處理,那就發明了MapReduce啊。MapReduce像彙編一樣又慢又難用,自然有人在上面繼續構建抽象的好用的東西。說這個的意思,其實是我們應該考慮是從用戶角度看問題還是從技術人員角度看問題。比如說我就遇到過有人問我手裡一把數據怎麼處理,是不是應該搞個大數據的東西,我跑去一看,乖乖,就10多個GB的數據。用個postgress或者mysql也就夠對付了。真要上了Hadoop再用HIVE,那隻能是腦抽了。

再舉個例子HIVE,不要看這東西名字多炫酷,facebook說過他們想做的是什麼:SQL on Hadoop。SQL這個東西我想是個人都明白。那麼不管技術實現是什麼,本質上來說那還是個SQL。至於SQL能幹嗎,不需要叫的多高大上,大家都明白。

我們有了NoSQL,最開始是Key-Value Store。其實這個名字已經比較糊塗了,不妨直接用它最基本的名字:Map. Map這個數據結構大家都懂。所以所謂的NoSQL最初來幹嘛大家應該也就明白了。至於背後實現的技術,那對很多人來說其實是細節。這個東西是用來解決一類問題的。而這類問題是不是必須掛在大數據下面,就得問大數據到底是什麼了?NoSQL很快就變成了雜種。各種各樣的db,沒有實現SQL的,都說自己是NoSQL。因為大家都知道沾上這個名字的光可以更有效的傳播自己,來錢更快。

現在又有人發明了NewSQL,用來區別NoSQL和以前的SQL,目的是什麼呢?標新立異唄。所謂NewSQL就是指Spanner的copycat們給自己取的新名詞。說白了對用戶來說那不還是個SQL產品嗎?new能new到哪裡去。這世界上如果說需要那個規模的企業,估計都能養起一隻隊伍來維護新的開源產品。如果不需要那個規模的,跑個mysql Postgress的也不一定差到哪裡去。至於人傻錢多的所謂500強國企,上個Oracle或者SQL Server又或者Hana也挺好的。雖然人傻錢多,貴是貴了點,其實真的沒啥差別。Google最近把Spanner開出來作為大殺器來作為雲服務的一部分,而且價格賊貴,我想多半也是想藉助NewSQL這個名頭來多撈點錢。

說了這麼多,其實只是想說一個問題,在概念滿天飛的今天,什麼東西都掛到了BigData下面。但是BigData到底是什麼東西,這麼定義,要解決什麼問題,範圍在哪裡,其實是沒有一個定數的。至於各種專家教授從經濟學行為學心理學各行各業各種學來解釋大數據這個東西多麼的偉大有多大影響的話,說白了都是然並卵。我並不排除有很多睿智的人,寫了很多真知灼見。但是我覺得最重要的一點,作為使用者和了解大數據的人,最好塵歸塵土歸土的把東西都拆開來,看看每項技術是用來具體解決什麼問題的。這個技術的創新到底是在內部實現上,還是在用戶介面上。很多時候,作為用戶,SQL還是那個SQL,不管是HIVE還是Postgree還是Oracle。數據倉庫還是那個數據倉庫,不管是Business Object還是麒麟。

古話說的好,渾水摸魚,把水攪渾了,一鍋粥的端上來叫大數據套餐,才能更好的收割各位的口袋。

推薦閱讀:

AI技術講座精選:機器學習梯度下降演算法(包括其變式演算法)簡介
【巡洋艦首發】有趣的機器學習 第一章:最簡明入門指南
TensorFlow極簡教程:創建、保存和恢復機器學習模型
用戶數據使用合規實務指南
大數據那些事(2):三駕馬車之永垂不朽的GFS

TAG:大数据 | 行为经济学 | 谷歌Google |