大數據那些事(22):又一場大撕逼

我寫過一場大數據界的大撕逼,在Google和圖靈獎獲得者Michael Stonebraker之間。這場大撕逼發生在2008年,可謂驚天動地。

BigData的圈子裡有另外一場大撕逼,發生的時間是2011年,這場撕逼的主角是Cloudera和Hortonworks。撕逼的起點是Owen O』Malley這位前Yahoo的Hadoop團隊的重要成員,後來的Hortonworks的Founder之一和Hortonworks的Fellow,撕逼的起因是一篇博文:The Yahoo!Effect。

這篇文章長話短說就是說開源阿帕奇多牛逼啊,經過我本人的分析發現,其實這裡面大部分的貢獻主要是Yahoo這個活雷鋒乾的。其實這話真心是沒有什麼錯的,Hadoop也好Zookeeper也罷,都是Yahoo先做出來捐獻給Apache基金會的。這張神圖大致反應了Owen想要表達的。圖裡面展示了Yahoo和其他公司這些年來對開源的Patch的貢獻。

但是Cloudera不幹了,他們辛辛苦苦的挖來了Doug裝點門面,以便自己顯得比較正宗一些,這圖不是打臉說他們是不勞而獲的拿了Yahoo的東西賣錢嗎,對他們的形象其實不太好。Cloudera的辯解特別的簡單,就是你甭按照那些程序猿原來在哪個公司幹活來反應他們對項目的貢獻。貢獻是程序猿給的,不是公司給的,公司給的當然只是發錢而已。所以大概的意思是Doug今天已經在我們這裡幹活了,那麼他被Yahoo付工資的那些時日裡面的活,當然也算是我家的,頗有強詞奪理的風範。被Cloudera修改以後出來了下面這張神圖:

當然此圖一出,Cloudera迅速成為了第三個貢獻大的,第一第二依然是Hortonworks和Yahoo。不過這樣看起來,起碼Cloudera沒有那麼難看了。非常有意思的是,Hortonworks裡面最不爽Doug的那個Eric,就是2013年前先後做了CEO和CTO,後面又下崗的曾經的Doug的上司的Eric,大概是自己覺得不爽了。於是他又來了一篇博文。大概的意思是,你這樣搞也是不對的,patch和patch的大小也不一樣吧。得,乾脆,咱來看看到底誰提交了多少行code吧。於是我們從Eric的博文上又來了這張神圖:

這場撕逼從某種程度上證明了Yahoo的確是Hadoop項目最大的貢獻者,活雷鋒當之無愧。然而Hortonworks作為一個獨立的公司出來以後,其貢獻得東西和Cloudera來比,其實憑良心說,多一些,但是也多的有限。Cloudera也不是說啥都沒寫就在那瞎bb。

但是這場撕逼其實是在爭奪core Hadoop的控制權。於是近兩年的時間裡面Hadoop基本上沒有什麼本質的變化,大的feature基本沒有多少release,這樣一來其他人看不下去了,就天天叫著Hadoop的新版本怎麼還沒來,我們沒空看你們撕逼。

結果來說,因為一邊是Yahoo的原班團隊,一邊是挖了Doug這個Hadoop的首創者,還一度佔據了Apache的老大的位置,總而言之是沒有誰真的贏了,Hadoop的PMC裡面大致上今天就是Hortonworks和Cloudera各佔一半的局面。只是這場撕逼留給大家的,尤其是其他基於Hadoop性能開發新的開源項目的人,除了呵呵,真心沒有任何其他的事情。我想也正是因為這些人在這段時間裡面沒好好乾事,才給予了諸如Spark這樣新的平台成長的機會。今天的Hadoop平台的競爭就更加的艱難了,我想一個新的execution engine或者storage engine要想在今天環境下脫穎而出,幾乎是不可能的事情了。這麼來看Spark的命其實也挺好的,Flink的命就差一點了。

推薦閱讀:

大數據精準治理違法,「智慧交管」成現實!
#研發解決方案#數據開放實驗室:再戰即席查詢和數據開放
淺析中央銀行數字貨幣對大數據應用的影響
這麼輕鬆學會桑基圖製作,小夥伴都驚呆了!

TAG:雅虎Yahoo! | 大数据 | cloudera |