標籤:

大數據那些事(31):母親Stratosphere

初次見到教授的時候是2009年。教授離開了IBM在德國拿到了教職。美國剛經歷了經濟危機,教授在從歐洲去羅德島開SIGMOD的途中拜訪了微軟,給了一個講座,講述他未來要做的事情。

那個時候教授非常的意氣風發。那個時候工業界剛剛經歷了一場大撕逼。未來的圖靈獎得主攜其兄弟徒子徒孫們,和當紅的Google進行了一場大撕逼。MapReduce a Step Backward的博文到今天去看,依然是平地一聲雷。

那個時候連Jeff Dean也出來迎戰了。還上了ACM的雜誌。那個時候還沒有大數據這個名詞。

在MapReduce的光環下,整個研究圈子裡大致有三類人。第一類人是揣著明白裝糊塗。開始了他們最擅長的灌水。在MapReduce的假設下,用Hadoop把曾經都解決過的各行各業的問題用MapReduce再解決一遍。掀起了一大批基金和論文的高潮。第二類人被狗狗的光環刷成了MapReduce教的信徒。或者是真信徒,或者是假信徒,渾水摸魚。我其實一直都不知道Jeff Dean知道不知道MapReduce其實問題多多。但是也可以理解,你想,我和狗的智商的距離比我和Jeff Dean的智商的距離還近,我怎麼能理解他呢?

第三類人,其實也不是很少,或者是低調的在做事情,比如說在憋大招的那個寫Spark的未來的斯坦福教授。或者在高調的叫著,比如說著名的Michael Carey。教授是後者,上來就宣揚自己的理念,覺得MapReduce不行,各種問題。要結合資料庫的多年研究,MapReduce裡面的精髓等等來研發一個特別牛逼的系統。這個系統也有了一個名字,叫做Stratosphere。

這個系統其實是非常有意思的系統。但是就技術層面,我就不多展開講了,推薦一篇這個系統集大成者的論文:The Stratosphere platform for big data analytics。

09年的Sigmod,除了這場撕逼的延續外,另外一件大事就是SAP HANA正式對外宣布了。那年的keynotes可謂非常的牛逼。5年後再看的話。

這以後我經常能見到教授,會議上。教授的團隊做了不少工作,發了不少論文,有些挺好看挺精彩。我想他估計和老前輩Michael Carey一樣的困惑。為什麼好端端的一個系統卻不能大紅大紫呢?我們知道,那些年裡憋大招的有很多,短平快的賣給傻子的有HadoopDB。努力幹活的,紅起來的只有Spark。

我們從小被教育,失敗是成功之母。但是大數據分析告訴我們,這個母親大部分的時候難產而死。例外總是有的。我很佩服那些能夠從失敗裡面吸取經驗教訓並敢於推倒重來的人們,教授也是一個。

2014年的杭州VLDB,有兩件大事,第一是宣布HANA的老教授回來做了一個總結性的報告,大獲全勝。第二是教授回來做了個keynotes,宣布了Stratosphere的兒子的到來。它有一個名字,叫Flink。


推薦閱讀:

大數據那些事(28):卡夫卡們的故事
技術分享丨HDFS 入門
大數據那些事(12):Michael,Daniel和輪子
Spark 2017 歐洲技術峰會摘要(人工智慧)
穩定和性能如何兼顧?58大數據平台的技術演進與實踐

TAG:Flink | Hadoop |