大數據分析到底需要多少種工具?


一張圖片解答你的這個問題,如果你真對大數據感興趣,可以關注下我們的微信號:數據客 id:idacker 還是能夠學到一些東西的哦!


從09年開始,放棄掉之前做的前端的工作,依然從事大數據相關的行業,對大數據工具還有一些了解。說說我工作的的這些年使用的一些大數據工具吧。當然不一定完全正確,還請您批評指正。

大數據如今已經不再是什麼新的名詞,五中全會大數據上升為國家戰略,BAT巨頭早已布局多年,大數據時代已經真正來臨,但我們真的準備好了么?

大家都知道大數據中蘊含大量的數據價值,比如說淘寶與天貓的用戶消費行為、滴滴打車可以知道用戶每天去了哪裡、用戶在優酷上都看了那些視頻、移動運營商的 海量客戶終端信息以及上網行為等、大型零售商每天的銷售數據,訂餐網上用戶每天吃了什麼,等等大數據金礦無處不在。但淘出來的才是金子,否則只是一堆土而 已,即佔用場地,還要花錢去保管和維護這堆土。

大數據時代金礦已經有了,如何利用好這個金礦,某種意義上取決於我們手上的工具。熟話說「沒有那金剛鑽,就別攬瓷器活」,工具是否適用,直接決定著我們能否進行挖金,以及挖金的速度與效率。適合用鐵鍬還是挖掘機,對挖金來說有著質的不同。

第一個金剛鑽Hadoop

Hadoop是大數據時代的第一個金剛鑽。筆者從08年開始研究hadoop源碼,當時中文資料還是比較少的,國內除了BAT外其他公司用的也很少,初次 接觸hadoop是因為被當時公司的流量系統所困擾,當時公司網站的流量已經達到了每天接近一個億的水平,最初選擇了postgresql來計算數據,但 是普通機器根本無法計算,無奈之下我們花大價錢買了128G內存(在當時是很奢侈的)的伺服器,運行在postgresql的內存表裡才勉勉強強的計算出 來。直到有一天遇到了hadoop,你懂的,一個HiveSql在幾台普通硬體的機器上,一億數據幾個小時就出結果了。

如今Hadoop已經不再神秘,相關書籍越來越多。但是伴隨著互聯網技術的日新月異,Hadoop已經不能滿足用戶了。數據時效性差,以及查詢的響應效率 低,那些對時效性要求較高的用戶場景無法滿足。Hadoo目前面臨兩兩方面的挑戰,第一,數據從產生到能夠最終出結果要等待數小時,時效性較差。第二,多 個Job任務,相互之間爭搶資源,而且由於採用暴力掃描原始數據的方式,對機器資源的消耗太大,每天能夠跑的計算任務個數十分有限。

第二個利器阿里JStorm

JStorm的出現主要是因為Hadoop滿足不了支付寶成交實時分析的需求。阿里的雙十一活動以及其他活動都有對阿里網站成交流量實時展示的需求,通過 運營活動,來了解開始的幾分鐘或者幾秒鐘內,實時流入了多少的流量,帶來多大的成交。正巧當時Apache Storm正式開源,阿里團隊認為Storm正適合阿里的業務,但是Storm的核心邏輯採用Clojure編寫,熟悉這門語言的太少,另外業務需要定製 化的邏輯,故阿里團隊花費3個多月的時間閱讀Storm的源碼,並將其Clojure部分更換為Java代碼。筆者曾是團隊的一員,有幸成為其 committer,離開阿里後,團隊其他兄弟將其開源,貢獻了出去,如今Jstorm已經被Apache接受,正式成為Storm項目的子項目。

Storm能夠滿足企業對數據時效性的要求,但跟現有的其他大數據的實時系統一樣,都是採用預計算的方式。因流式系統不保存原始日誌,數據只能安裝固定的 維度和粒度進行計算與匯總,例如只能按照淘寶的類目、分鐘等維度匯總統計。眾所周知,運營情況是千遍萬化的,很多都是突發事件,維度並不能預先固定,很多 事物也需要多方面展示,要經過數次的不同角度、不同粒度的鑽取,來發現運營活動的規律。基於這種場景,我們需要保留原始日誌,同時需要非常快速的對這些原 始日誌進行快分析與計算。這樣高需求的場景,數據工具既要有hadoop+hive計算的靈活性,又要有Jstorm的時效性和速度。Storm就顯出了 它的不足。

新生代數據挖掘機延雲YDB

YDB是延雲針對用戶對大數據檢索快速、實時、多維度的需求而開發的分析軟體,可以說是筆者的心頭好。

YDB將傳統資料庫索引技術應用在大數據技術上,打破目前大數據計算技術的僵局。將大數據檢索向時效性更強,查詢方式更 靈活,執行效率更高的方向演進。雖然引用傳統索引技術,但是對硬體的需求並不比hadoop高,不會讓小型用戶望而卻步。技術上YDB採用Java語言編 寫,接地氣,Sql介面用戶也更易於上手使用,同時每天千億增量萬億總量的數據量也能滿足高端用戶的需求。YDB主要技術方向在大索引,大索引的好處在於 加快了檢索的速度,減少查詢中的分組、統計和排序時間,提高系統的性能和響應時間來節約資源。大索引技術的運用才能使YDB在如此大規模的數據量下依然保 持查詢響應時間在幾秒,數據導入延遲在幾分鐘。

大數據時代拼的不僅僅是數據量有多大,還要拼速度,拼誰的更快、更准、成本更低。大數據的運用領域還在不斷的擴張,大索引技術還有很長的路要走。終有一天大數據會帶給我們震撼世界的影響。


很多的,Hadoop,java,linux,mysql等等之類的工具。檸檬學院官網-大數據在線培訓


並不需要很多種工具 ethink大數據分析一站式平台http://www.ethinkbi.com 涵蓋了數據存儲 處理 數據分析 數據挖掘 bi前端展示


推薦閱讀:

還沒有聽說過劣幣驅逐良幣?快來看看吧!
計算機鮮為人知的實用小技巧!
工作中總是辯論不過對方怎麼辦?

TAG:互聯網 | 數據挖掘 | 數據分析 | 數據分析工具 | 大數據 |