世界沉醉在數據里

01-31

－－記Hadoop Summit 2015參會感受

作者：郭安琪，唯品會美國研發中心

2015年6月9-11日，我在美國加州矽谷參加了第八屆全球Hadoop技術峰會(Hadoop Summit 2015)。在短短的3天時間裡我既見識到了Hortonwork, Cloudera, SAP, IBM，惠普，雅虎等25+數據服務技術提供商圍繞大數據設計開發的產品，也聆聽了Schlumberger（能源巨頭），verizon（通信巨頭），迪斯尼（娛樂巨頭），Airbnb（共享經濟代表企業），賽門鐵克（信息安全巨頭），Aetna（醫療保險巨頭）這些各行各業的領軍企業用數據產品為公司創造價值的真實案例。我最大的感受就是有這麼多的公司相信數據的價值，並且真真切切地將數據作為企業的重要資產來維護和使用。簡單地用峰會一位嘉賓，微軟分管數據平台副總裁Ranga的語言總結－－「世界沉醉在數據里」 (The world is drunk on data)

Fig 1:第八屆全球Hadoop技術峰會(Hadoop Summit 2015)會場掠影

什麼是Hadoop?

自從我發了出席Hadoop技術峰會的朋友圈以後，就被小夥伴們各種「酷炫」「有用」的評論刷屏了。不過遇到了一個難點：如何向我媽解釋「什麼是Hadoop」這個問題。這個問題大概有點像向程序員解釋CL的紅底鞋到底好在哪一樣難。作為一個接觸了Hadoop一年的技術新人，我也還在摸索的道路上，不過幸好我們有親愛的維基百科，在上面，Hadoop的定義是：一個用java語言編寫的便於大型數據集合的分散式儲存和計算的軟體框架。簡單來說，這是計算機領域的一個開源軟體，任何程序開發者都可以看到它的源代碼，並且進行編譯。它的出現讓大數據的儲存和處理一下子變的快了很多，也便宜了很多。

Fig 2:Hadoop Summit 2015主題演講中Hortonwork CEO Rob介紹Hadoop技術在企業級應用中所佔的市場份額

Hadoop是怎麼做到將大數據儲存和處理變得又快又便宜的？

這個講起來可以講三天三夜呢。不過舉個簡單的例子，現在需要數一個圖書館有多少本書，一個人數肯定很慢，需要很多個人數，而且最好每一個區域的書都有2－3個人數一遍，這樣統計的數量才比較準確。所以就需要有一個機制將書籍分好區，規定每一個人負責數哪幾個區的書，這樣即使有人生病了也不會影響到總體統計工作的完成。這裡的人就是Hadoop所操控的一台台個人計算機，機制就是Hadoop的核心MapReduce方法。在我看來，Hadoop的分散式計算功能就像一個精明的資本家設計的工作分配製度，既保證工作的完成不會特別依賴某一個人，又保證了如果工作量上升了只需要再雇一個勞工就能解決問題。

Fig 3:Hadoop Summit 2015微軟數據平台副總裁Ranga主題演講截圖，展示零售業，醫療，支付，教育，機器維護和交通領域基於Hadoop技術的數據紅利(Data Dividend)

什麼是Hadoop技術峰會(Hadoop Summit 2015)?

要解釋這個問題就要先解釋一下Hadoop對於企業的重要性。ForresterResearch(一家著名的諮詢公司）的首席分析師Mike Gualtieri在峰會中預測，100%的大企業已經或將在未來2-3年內開始使用Hadoop。不管你是能源，通信，醫療，娛樂，生產製造，互聯網行業的企業，你的數據總是會越來越多，而如果需要從這些海量數據中挖掘出價值，提高企業的整體競爭力，你就需要一個強大的儲存和處理數據的能力，Hadoop及其泛生態圈就能幫你實現！（真的不是在打廣告。。）Hadoop技術峰會就是Hadoop的開發者和使用者交流的地方。峰會為期三天，期間有160多場講座，有來自Aetna, Facebook,谷歌，微軟，迪士尼，Airbnb等公司的各路技術大拿分享他們關於開發使用Hadoop的故事。通過講座，自由討論，聚餐，party等形式參會者會與來自39個國家的4000+的參會者進行溝通。某種意義上來說，Hadoop Summit就像是個宗教活動，虔誠的數據愛好者相聚在一起，看看你在做什麼我在做什麼，共同討論關於數據的信仰。

Fig 4:Hadoop Summit 2015第一天下午講座日程截圖

技術新人如何最大化一場技術峰會的收穫？

參加某一行業的峰會最重要的當然是了解行業趨勢，都有哪些新的概念，這樣慢慢得你才說得出內行話。這也是為了平常工作做準備，比如我，去年參加過InfoQ組織的QCon(全球架構師大會），大會內容大概聽懂了30%，經過一年的工作學習和查字典（wiki），這次參加Hadoop峰會我大概能聽懂50%，和同行交流的時候總算還能一句搭一句地深入討論。

當然能問出好的問題也是峰會收益最大化的有效手段。我的興趣主要在產品方面，所以主要聽的是Hadoop技術在不同公司里的usecase（使用場景），同時我也總結了一下技術新人應該如何玩轉這一類型的技術峰會的經驗，特此分享：

新的概念
圍繞Hadoop的生態系統
人

這些是我覺得作為一個掌握的知識還不夠全面的技術新人在峰會上應該多投入的地方：看看行業里都有哪些新的概念，補充一下自己的專業字典；了解圍繞某個技術的上下游提供商的發展情況，誰在開發什麼樣的軟體，誰在為什麼樣的軟體埋單，這有助於技術新人在參與設計產品的時候有個全局的概念；最後最重要也是最容易實現的，就是聯絡參會的人。大家都是付了昂貴的門票（$900+)來參加這次峰會的業內人士，所以每個人都像一座金礦，都有自己領域的專業知識，都會遇到相似的問題，開放的交流說不定會讓一直困擾你的一個問題找到全新的解法。除此以外，同行的交流也能讓你不覺得孤獨，很多你想嘗試的做法也許能從別的公司的執行數據反饋中找到自信。

Fig 5:Hadoop Summit 2015參會者在白板（Job Posting Board)前查看有關Hadoop技術的崗位：雅虎在招人！蘋果在招人！Uber在招人！….左下角我們唯品會美國研發中心也在招資深數據科學家喲！

下面就是我在這三個方面的一些收穫：

新的概念

概念一：「大鐵遇到大數據」（Big Iron Meets Big Data）

這句話是通用電氣負責軟體的首席信息官Vince在峰會上提出的，總結的是這個時代大數據與物聯網（第一階段主要在工業物聯網）將相輔相成。這從本次參會的公司名單上也能看出一二：醫療，能源，機械,通信這些傳統行業紛紛粉墨登場，介紹他們在大數據／互聯網方面的嘗試。當然從我和參會人的討論看來，目前這些傳統企業的大數據運用還僅限於通過感測器搜集數據然後做數據分析，以後的發展還很長。

Fig 6:Hadoop Summit 2015通用電氣首席信息官Vince的主題演講中提到的關於物聯網的驚人數據，Hadoop技術配合物聯網將打開無限價值：到2020年為止，世界上有240億台設備介入物聯網，96％的企業領導表明在接下來3年要試水物聯網，到2022年為止物聯網將達到14.4萬億美金的市場。其中7大主要使用場景是：智能工廠，市場營銷，智能電池，遊戲娛樂，智能建築，商用地面交通工具，醫療。

概念二：」世界沉醉在數據里」 (The world is drunk on data」)

這個概念與「數據湖』（Data Lake)息息相關。數據湖是個相對年輕的概念，在它之前大家普遍接受的是「數據超市」（Datamart),意指在企業里將數據（水）像瓶裝水一樣過濾消毒打包好後便於各部門使用。與之相對應的，數據湖就是一個原始數據的聚合地，那些沒有經過處理的數據都會被丟到一個容器里，只有當需要用的時候，才從這個數據湖裡取用並做處理。這個湖的上下游的流淌是目前軟體開發重點投資的地方。類似的概念還有「數據沼澤」。

其他頻繁被提到的詞，歡迎大家自己百科～

Data Governance，Data Lineage，Data Dividend，Data wrangling

圍繞Hadoop的生態系統

董飛董老師在他的文章後Hadoop時代的大數據架構中詳細介紹了圍繞Hadoop的生態系統。我的總體感覺就是原來對於這麼多（至少30家）企業來說，數據和Hadoop就是他們賴以生產的資源和工具，如果說數據如水的話（參考上一段的「數據湖」概念），我至少看到了有水源勘探的公司，鑽井的公司，打水,教人打水的公司，教人節水的公司，消毒水的公司，還有給水流情況做報表的公司。關鍵是「打水」和「教人打水」的公司(hortonworks)還上市了呢！

當然還是說點具體的技術，spark是大家熱議的一個技術，從會場爆滿的情況就可以看出大家的興趣；Apache Drill是2015年5月發布的一個新的基於Hadoop的開源技術，最早起源於谷歌的dremel系統，它的主要優勢是可以讓人們實現對於分散式大數據的可交互的實時數據分析；Airbnb也自己研發了一套開源的流程管理平台Airflow，吸引了很多業界關注。

Fig 7:Hadoop Summit 2015迪斯尼數據平台開發資深工程師Caleb介紹著名的魔法手環」Magic Bend」的Hadoop框架

人

這次參會在party的時候認識了Hortonwork和Cloudera的人，總算了解兩家是競爭對手關係。在聽講座的時候遇到一個可愛的印度小哥，一家公司為了僱傭他特地送給了他來參加hadoop summit的門票。中午吃飯的時候看我邊上一個白頭髮老爺爺一個人吃飯挺孤單的，就聊了一下，他主要幫助通用電氣做引擎系統優化。我們在對數據的處理方面遇到過同樣的煩惱。後來回家一查，原來他是一家大數據初創企業的創始人兼首席技術官。像這樣的例子非常多。。

Fig 8:Hadoop Summit 2015第二天晚上在San Pedro Market有盛大的party活動，所有參會人員憑胸卡就可以參加。在這裡不僅有免費的印有hadoop峰會字樣的人力三輪車負責接送會場和party的人群，還有現場樂隊表演，最棒的是有世界各國的美食和美酒可以品嘗。晚風徐徐，竟是醉了。

除此以外，我還參加了「使用Hadoop的女性」（Women in Hadoop）活動，大多數參與的人都是開發使用Hadoop的女性同胞們，確實是Hadoop使用者中的「少數民族」。很經典的一件事就是一場講座結束後男洗手間門口總是排起了長隊，而女洗手間則根本沒有這樣的煩惱。另一個我們討論的發現就是在12位主題演講嘉賓中沒有一位女性。但是，在技術講座中凡是有女性參與的講座，觀眾都很多，講座很有條理，效果也非常好。這就說明並不是女性同胞不適合講座，只是大家缺乏了解參與講座的途徑，也缺少發表演講的鼓勵。所以Women in Hadoop這個活動的目的就是圍繞「女士當自強」為主題討論一下我們可以做什麼樣的事幫助更多聰明的女性加入到hadoop技術的大軍中。參加活動的還有一些男士，比如迪士尼負責magic bend數據開發的Caleb，他說他有一個女兒雖然很小但是對技術很感興趣，問我作為年輕的女士有什麼好的建議。最後我們通過每人30秒的自我介紹環節互相認識，加了LinkedIn，希望在以後的職業發展道路上能夠互幫互助。

Fig 7:Hadoop Summit 2015之」使用Hadoop的女性」 Women in Hadoop BOF Session展示的PPT頁面之一，引人深思

好啦，這些就是我對本次峰會的整理，如果您想了解更多的話，歡迎點擊Hadoop Summit, San Jose收看12位嘉賓的主題講座(keynote speech)。

作者簡介：郭安琪，2014年5月畢業於美國康奈爾大學信息工程系，目前在唯品會美國研發中心從事數據產品研發。