大數據那些事(31):母親Stratosphere

01-26

初次見到教授的時候是2009年。教授離開了IBM在德國拿到了教職。美國剛經歷了經濟危機，教授在從歐洲去羅德島開SIGMOD的途中拜訪了微軟，給了一個講座，講述他未來要做的事情。

那個時候教授非常的意氣風發。那個時候工業界剛剛經歷了一場大撕逼。未來的圖靈獎得主攜其兄弟徒子徒孫們，和當紅的Google進行了一場大撕逼。MapReduce a Step Backward的博文到今天去看，依然是平地一聲雷。

那個時候連Jeff Dean也出來迎戰了。還上了ACM的雜誌。那個時候還沒有大數據這個名詞。

在MapReduce的光環下，整個研究圈子裡大致有三類人。第一類人是揣著明白裝糊塗。開始了他們最擅長的灌水。在MapReduce的假設下，用Hadoop把曾經都解決過的各行各業的問題用MapReduce再解決一遍。掀起了一大批基金和論文的高潮。第二類人被狗狗的光環刷成了MapReduce教的信徒。或者是真信徒，或者是假信徒，渾水摸魚。我其實一直都不知道Jeff Dean知道不知道MapReduce其實問題多多。但是也可以理解，你想，我和狗的智商的距離比我和Jeff Dean的智商的距離還近，我怎麼能理解他呢？

第三類人，其實也不是很少，或者是低調的在做事情，比如說在憋大招的那個寫Spark的未來的斯坦福教授。或者在高調的叫著，比如說著名的Michael Carey。教授是後者，上來就宣揚自己的理念，覺得MapReduce不行，各種問題。要結合資料庫的多年研究，MapReduce裡面的精髓等等來研發一個特別牛逼的系統。這個系統也有了一個名字，叫做Stratosphere。

這個系統其實是非常有意思的系統。但是就技術層面，我就不多展開講了，推薦一篇這個系統集大成者的論文：The Stratosphere platform for big data analytics。

09年的Sigmod，除了這場撕逼的延續外，另外一件大事就是SAP HANA正式對外宣布了。那年的keynotes可謂非常的牛逼。5年後再看的話。

這以後我經常能見到教授，會議上。教授的團隊做了不少工作，發了不少論文，有些挺好看挺精彩。我想他估計和老前輩Michael Carey一樣的困惑。為什麼好端端的一個系統卻不能大紅大紫呢？我們知道，那些年裡憋大招的有很多，短平快的賣給傻子的有HadoopDB。努力幹活的，紅起來的只有Spark。

我們從小被教育，失敗是成功之母。但是大數據分析告訴我們，這個母親大部分的時候難產而死。例外總是有的。我很佩服那些能夠從失敗裡面吸取經驗教訓並敢於推倒重來的人們，教授也是一個。

2014年的杭州VLDB，有兩件大事，第一是宣布HANA的老教授回來做了一個總結性的報告，大獲全勝。第二是教授回來做了個keynotes，宣布了Stratosphere的兒子的到來。它有一個名字，叫Flink。