【如何和一個資料庫技術人員講清楚什麼是大數據】
04-22
技術人員的思維普通都是很閉塞的,如何給他們講清楚什麼是大數據,一直都是我很絞盡腦汁的一件事情。我覺得這樣解釋會比較合適一點:大數據就是傳統資料庫不能完成的事情。什麼是傳統資料庫不能完成的事情呢?
第一,就是海量數據,這是大數據4V特徵裡面最大的一個特徵,數據量大,我們談的是十億,百億的記錄條數,怎麼存儲,你說oracle不是有rac集群嗎?我去,那好意思叫集群嗎?我和你談的是幾百個,上千個點構成的大數據集群,這才是我們需要分散式的存儲和計算方式;
第二,在一百億的資料庫裡面做單條記錄查詢,什麼,我去嘔吐了再回來,現在可以了,KV資料庫一大堆,全是在秒級返回數據,你爽翻了吧!第三,我要在百億級的數據裡面做OLAP聚合查詢,嗯,我睡一覺起來看結果吧,現在好了,MPP懂嗎,十幾個節點的MPP集群妙級出結果,你嗨嗎?國內最大的MPP資料庫是哪家來的?第四,資料庫裡面的遞歸你用過吧,很吐血吧,四層以上的遞歸對傳統資料庫簡直是一個不可能的任務,所以關係的描述,傳遞這些事傳統資料庫很不擅長的東西,我們需要圖資料庫,社交網路上面有一個六度關係,請幫我尋找一條認識奧巴馬的人際途徑,就用這個;實現 物流的路徑規劃也很經典;第五,Sybase 原來有個非常好的CEP的產品,用於實時計算,在華爾街風行一時,用於程序炒股,250個交易日,只虧三天,牛逼吧,這個是oracle根本無法企及的高度,所以流計算會成為今年大數據的主題,應用到實時監控預警這些高時效的領域,物聯網的數據源源不斷的進來,建立實時監控預警體系顯得非常有必要了哈;
第六,原來sql server 有個數據挖掘的模塊,我們用它來做決策樹預測客戶離網概率,吐血吧,數據大了,完全扛不住,所以機器學習也是大數據的重要模塊,畢竟,預測才是大數據的核心,可以運用來關聯推薦,淘寶剁手族清楚的,你停不下來,就是因為大數據推薦引擎的強大;這段時間的深度學習也會用到大規模的神經網路,深度學習你都不懂,請參考alphago,這條狗很厲害的;第七,結構化的數據談完了,你資料庫能處理非結構化數據,中文檢索嗎?sql server的全文索引,真是讓人死了的心都有啊,中文分詞,全文索引,情緒監控,輿情探查,這些都是大數據出彩的地方,各種工具請自己DIY,你發的微信圈,機器能自動識別你的情緒。說了這麼多,你說你還不懂,我決定放棄了,因為我知道,我無法喚醒一個裝睡的人!推薦閱讀:
※MaxCompute數據安全機制
※R語言實戰第三關筆記和實踐
※乾貨∥一個真實案例告訴你大數據如何觸發精準營銷
※大數據Hadoop常見異常處理,初學的你要看看
※大數據技術六:Hadoop運行環境搭建