怎麼看待Hadoop Summit 2016 和 Spark summit 2016?

在這之前有一個提問:怎麼看hadoop Summit 2015 and Spark summit 2015? - 大數據。在這周Hadoop Summit 和 Spark Summit都結束了,怎麼看待這兩個會議的內容和趨勢呢?


今年參加了「兩會」之一在矽谷聖何塞舉行的的Hadoop Summit,說說自己的感受(跟我的僱主無關,僅代表個人觀點)。

鏈接:今年Hadoop Summit的日程表:Hadoop Summit 2016 San Jose,目前官方還沒有把PPT和錄像更新出來。

另外今年的Summit慶祝了Hadoop項目成立十周年。從參會人數來說,今年達到了創紀錄的5000人,對比去年的4000人增長了25%,這對於一個已經十年的項目來說非常不容易。

看到的總體行業趨勢:

1)Hadoop及其生態圈(包括Spark等等)在各行各業落地並且得到廣泛的應用。

目前在美國,無論行業是IT,金融相關(包括銀行保險),電信,製造業,還是餐飲,百貨零售都已經廣泛的用上了Hadoop。看了一些有意思的演講,比如說

  • Progressive(美國最大的車保公司之一)通過實時採集用戶駕駛的數據(比如說加、減速行為;車輛經過的路線等等)來決定是否需要改變用戶的車保價格。可以參考一篇老一點的文章:How auto insurer Progressive collected 10 billion miles of driving data from its customers
  • 福特公司也有一個類似的演講,通過採集汽車裡面的設置的感測器,實時反饋給服務端來優化駕駛的體驗。

對於這些非IT企業,利用Hadoop生態圈裡面的套件能夠實現超大的數據處理規模(比如說福特汽車總共產生的數據可以達到一天TB級別),實時性(信用卡反欺詐需要在秒以內返回結果),豐富的分析手段(SQL、機器學習等)。這些新的數據分析的手段能夠實實在在的產生商業價值,比如說只要保險公司能夠降低1%的風險,產生的利潤就非常可觀了。

2)物聯網 (IOT) + 實時(Realtime) + 機器學習是今年最火的話題

相對於去年來說,這三個話題的曝光率大大提高。今年總共有160多場演講,其中物聯網就有近20場演講,機器學習有10多場演講,實時有近10場演講。

這三個話題其實互相關聯,比如說物聯網通過感測器採集了N多的數據(飛機引擎能夠每小時產生35TB的數據,還有比如上面提到的福特汽車),這些數據需要立刻決定保留或者丟棄,對於保留的那部分的數據也要能夠很快的做出決定。實時起到了很大的作用。在這次的某一個演講中(忘了是哪家公司了),需要採集飛機上的雷達數據來預測天氣是否危險,如果不能做到實時那幾乎就是草菅人命了。

對於這種大規模的數據只用傳統的SQL進行數據處理是遠遠不夠的,特別是一些非結構化的數據(比如說雷達雲圖)。那麼很多的機器學習的方法就能夠排上用場了。這三個方向一定會在未來更火的。

關於HADOOP(YARN/HDFS)項目的趨勢

對於Hadoop項目本身是個人工作也是我關注得最多的方向,這裡也總結一下。

1)繼續往易用方向發展

關於易用主要是兩個方面,a. 方便安裝部署, b. 方便運維。對於安裝部署來說這幾年的一些工具已經可以把問題解決得很好了,比如說Apache Ambari。對於運維來說則在今年湧現了很多的新的亮點,比如說來自Hortonworks的Service Asembly,Service Asembly也就是服務的組合,舉個例子來說一個數據服務需要安裝ZooKeeper、Kafka、HBase、Spark,並且需要讓他們工作在一起。傳統的方式是分別部署這些項目並且手動的把他們互相配置起來。現在可以通過Docker container加上預先寫好的配置文件模板讓這些服務一次性的在YARN上面啟動和關閉。

2)YARN更好的支持長時間服務(Long Running Service, LRS)

相對於普通的mapreduce、spark程序,長時間服務需要跑幾天甚至幾個月,YARN對於LRS的支持在近一年內有很大的進展。一些新完成、正在開發中的功能有類似於

  • DNS(每個container有自己的地址, YARN-4757)
  • Container自動重啟(YARN-4725)
  • Container重複利用(allocation reuse, YARN-4726)

還有我做的/正在做的幾個功能:

  • 動態改變運行中Container的資源(Resizing running container, YARN-1197)
  • 方便的讓程序在每個節點上跑一份(Affinity/Anti-affinity, YARN-1042)
  • 以及資源搶佔的一些改進 (YARN-4108/YARN-4390)

這些功能會大大的幫助在YARN上面跑LRS。

3)更大更快更強

Hadoop從來沒有停止過性能上的優化,今年一些相關的改進:

  • YARN RM Federation: 支持超大的YARN集群,據稱微軟已經通過這個支持了5萬節點的YARN集群
  • 下一代的YARN Timeline server (YARN-2928), 這個可以很好的把YARN集群裡面的各種信息以及應用程序的信息存儲、關聯起來。
  • HDFS Tiered Storage: 更好的在HDFS中支持管理不同的文件系統(比如說內存、SSD、本地磁碟、雲存儲)
  • YARN resource overcommmitment (YARN-1011), 這個可以根據資源的實際使用情況來覺得是否可以多分配一些container來得到更好的資源利用率。

(雜)總結和建議

一些個人的建議希望對你有幫助:

  • 如果你的公司的足夠多的數據,看看能不能用Hadoop生態圈的項目(不管是Hive還是Spark)進行優化,傳統行業會一個一個被大數據公司佔據掉,比如說阿里佔據了零售業、金融業,趕不上這趟車就晚了!
  • 如果你是初學者並且希望學大數據相關的技術,流行的開源項目是很好的選擇。如果你想學Hadoop的話記得要學新一點的版本比如說2.7.x,1.x已經淘汰了。
  • (硬廣)如果你對貢獻開源項目有興趣,可以考慮考慮YARN,裡面能做的東西還很多,並且社區很友好。


參加了三天的Hadoop Summit 2016 San Jose,說幾個大的點吧:

  1. YARN與DCOS:YARN在2011年誕生時就參(shan)考(zhai)了Mesos的很多feature,現在圍繞Mesos出現了DCOS,所以YARN也不甘示弱,搞了YARN Assembly,目前來看社區有些相關JIRA,但尚未達到很成熟的階段。

  2. Hadoop與Cloud:利用雲計算強大的彈性能力來提供大數據服務是一個趨勢,社區也說在新版Hadoop中會提供很多部署到Cloud上的優化。但這裡有個問題,CloudBreak的session中也提到了:在雲計算中,將計算移動到數據(Hadoop的核心大法)可能是行不通的。

  3. 層出不窮的開源軟體:例如數據管理Apache Atlas、數據流傳導Apache Nifi、網路安全檢測Apache Metron。正如有個session《The Ecosystem is Too Damn Big》講的,這個生態圈太大了,眼花繚亂,無所適從。在這個領域,開源社區是最重要的力量,三流公司follow社區、二流公司參與社區、一流公司領導社區。

最後,會議slide到目前為止還沒放出(但官方說法是summit結束一周內放出)。

agenda:Hadoop Summit 2016 San Jose

大家可以在agenda中挑選感興趣的session到youtube上搜索,官方會議視頻前幾天已經在youtube上放出了,這裡是匯總頁 https://www.youtube.com/channel/UCAPa-K_rhylDZAUHVxqqsRA

另外,summit第一天我還精力旺盛時寫了一個紀要blog,感興趣的請移步 http://www.bigcloud.online/?p=171

再另外,對Hadoop技術感興趣的可以關注我們的微信公眾號,基本只發技術,不發別的亂七八糟的

http://weixin.qq.com/r/IToEHLXEoujdrfF-928z (二維碼自動識別)

知乎現在的二維碼功能還真是尷尬啊,感興趣的點擊這個地址掃描吧 http://www.bigcloud.online/?page_id=2


在YouTube 上看


推薦閱讀:

下載prebuilt版的Spark後,必須運行sbt/sbt assembly 後才能使用嗎?
什麼是自助式BI?和傳統BI(商業智能)相比有何優劣勢?
數據之路(Hadoop)我該如何打好基礎?
生產環境下cloudera的cdh版本更受歡迎,但是貌似cloudera對於YARN的開發力度不是很突出,所以在apache與cdh版本選擇的時候,大家是怎麼考慮的?
ArcGIS 有什麼奇技淫巧?

TAG:Hadoop | 大數據 | Spark |