標籤:

嫌棄Hadoop?可能是你的打開方式有問題

關於 Hadoop 所謂的消亡,以及它跌落神壇的報道數不勝數。有很多人放馬後炮說,Hadoop

從一開始就沒有意義。還有人說「Hadoop 對於小型,臨時的工作來說很慢」、「 Hadoop 很難」、「 Hadoop 已經死了,Spark

才是勝者」等等。那麼事實真的如此嗎?

如今圍繞著 Hadoop 缺陷的爭論和當初對其的大肆追捧一樣激烈。

在這些喋喋不休的爭論中,你可能已經得出結論,Hadoop 已經死了。個人認為這個想法雖然可以理解,但卻是錯誤的。

TCP/IP

你聽過 TCP/IP 嗎?如果沒有,相信我這是很強大的技術。實際上,你很喜歡TCP/IP ,你只是沒有意識到。TCP/IP

不僅能驅動互聯網,還能驅動電子郵件,甚至能驅動網路。當你使用各種應用程序,使用各種流媒體,以及打車、上網等等,這都受益於

TCP/IP,沒有它你可能無法生活。

雖然你喜歡 TCP/IP,但是你對配置它不感興趣。你不用輸入 ifconfig 這樣的命令,從而查看你的 WiFi 適配器是如何聯網的。甚至你不用關心它附加的網關,以及它使用何種 DNS 伺服器。

在 20 世紀 90 年代,TC/IP 曾被當做產品銷售,結果不溫不火。最終,TCP/IP 已被建立在操作系統中,如今到處都有它,TCP/IP 成為了普遍的標準。

Hadoop是基礎設施

其實,Hadoop 就是大數據世界中的

TCP/IP。它是基礎設施,同時也帶來巨大的好處。但是,當基礎設施暴露出來時,帶來的好處就大大削弱了。Hadoop 像Web

瀏覽器一樣被推廣,但是它更像 TCP/IP。了解這一點時就會發現,推廣 Hadoop 本身就不是個好主意。

如果你直接使用 Hadoop,那麼你錯了。如果你在命令行中輸入「hadoop」和一些參數,那麼你就在倒退。你是想自行配置和運行所有內容,還是只想使用數據,讓分析軟體在後端處理 Hadoop?

大多數人會選擇後者,但大數據行業往往把客戶導向前者。之前,行業是這麼看待Hadoop…如今也將這麼看待 Spark 和眾多的機器學習工具。這是技術專家討好商業用戶的例子,這永遠不會結束。

開發工具不等同於商業工具

業界並不是完全忽視這個問題,一些廠商已經在嘗試改進 Hadoop 的不足之處。目前已出現 Hue、 Jupyter、Zeppelin 和 Ambari 等的開源項目,旨在讓 Hadoop 從業人員擺脫命令行。

但問題就在此。我們需要為商業用戶,而不是為Hadoop 從業者提供工具。Hue 非常適合運行和跟進 Hadoop 任務,以及使用 SQL

或其他語言編寫系統查詢。相比Spark,Jupyter 和 Zeppelin 非常適合編寫、運行代碼,以及使用數據科學的 R 和Python

等語言,甚至生成代碼的數據可視化。問題是使用這些工具不等同於脫離命令行;它們只是讓人們更有效地做這些事情。讓人們完全脫離命令行是一回事,但讓人們更簡便的做同樣的事情,並沒有什麼本質的改變。

BI 工具供應商也嘗試改善這一現狀。但他們通過簡化 Hadoop,並將其當作 SQL 資料庫來處理。給 Hadoop

加抽象層是好的,但是在它們之間加 SQL 層並不是。想做大數據分析嗎?選擇一個使用 Hadoop 的工具,並充分利用它。雖然你不用直接使用

Hadoop,但你的分析工具應該與它密切相關,而不是敬而遠之。

如果你還沒有找到答案,這裡有一個平衡的方法。從事大數據分析,你不用直接用到引擎——本文指

Hadoop,但你仍然需要它的全部效能。為了實現這一目標,你需要一個技術的分析工具來駕馭該技術,而不會否定或忽略它。在技術工具和 BI 用戶之間有重要的中間地帶。找到它,你將走上正軌。

Hadoop的前景

Hadoop 沒有死,這毋庸置疑。Hadoop 是非常強大的關鍵技術。但它也是基礎設施,它不會成為大數據的典型代表。Hadoop (或

Spark)應該嵌入在其他技術和產品中。這樣一來,這些技術就可以利用 Hadoop (或 Spark)的強大功能,而不暴露其複雜性。

Hadoop 正如 TCP/IP 一樣,問題是人們如何使用它。如果你想要從事大數據分析,那麼請使用利用 Hadoop 功能的大數據分析軟體。如果你這樣做,Hadoop 將會復活,這不是靠魔法,而是靠常識。

原文鏈接:

datameer.com/company/da


推薦閱讀:

大數據那些事(8):HIVE之初期起
大數據那些事(28):卡夫卡們的故事
技術分享丨HDFS 入門
大數據那些事(12):Michael,Daniel和輪子
Spark 2017 歐洲技術峰會摘要(人工智慧)

TAG:Hadoop | TCPIP | Spark |