大數據那些事(9):起早貪黑竹籃打水的18摸(IBM)

18摸的名字在國內怎麼來的已經無法可考察了。International Business Machine的名字聽起來要霸氣很多。大數據這趟集,IBM是趕得早,自己把自己給玩掉了,現在一無所獲的只能蹭Spark的殘羹冷炙。

曾經每次走進IBM Almaden Research Center的那個山頂的時候,我都油然升起一種頂禮膜拜的感覺。IBM Almaden Research Center裡面有兩個鎮山之寶,一塊油桶一般大的硬碟,一本System R的手冊。前者代表它做出了世界上第一塊硬碟。雖然說18摸早早就把硬碟的業務賣給日立了。後者則是第一個關係資料庫系統原型。DB2的前身。

作為一個生長在relational algebra的光輝下,日夜受著圖領獎獲得者的Michael Stonebraker的紅寶書(如下)熏陶,一心要做關係資料庫接班人的我。一踏上這地方,就像是穆斯林到了麥加一般,頂禮膜拜,說不出的崇敬。

但是我必須說,在整個計算機研究界,industry research lab這個東西,通常都是需要很多關係的。尤其是18摸這樣的講政治,講正氣的地方,如果沒有點背景,沒有個好導師,找實習是非常的艱難。我找了好幾年,年年都被拒。正好趕上了我導師和18摸裡面的一個實權人物的老公有合作,於是我就渾水摸魚的混進了這個讓關係代數紅小將的我心潮澎湃的地方。時過境遷啊,當初的紅小將已經淪落成賣弄文字,糾結於join有幾種寫法的孔方兄了。

我進去的那個組正在進行著一個非常非常的先進的項目研究。而我的任務有倆,第一是作為被試,要用那個項目的東西來實現我做的那個關於蒙特卡洛資料庫的東西,二是作為這個項目的全世界最早的第一個外來使用者,好好的做小白鼠多找bug。

這個項目是什麼呢?在2008年的矽谷很多人都知道,是JAQL:JSON Analytical Query Language。有那麼一段時間,開Hadoop的會的時候,這個東東是和另外兩個東東並列的,分別是HIVE和PIG。這是一個在Hadoop上面,以JSON作為數據模型的query language。組的領導者是Eugene Shiketa。這位一直是我見過的最讓我尊敬的最為睿智的人之一。在18摸實習的那幾個月裡面他說過的話很多年以後我回頭看依然很有受益。

這個Team四個人,在做兩個項目,另外一個是基於Lucent的JSON 搜索系統。這些人後來有兩個去了Google,包括Eugene,一個去了非死不可,一個城了Platfora的構架師,是不是首席我忘了,還有一個則是Linkedin的開源大項目Kafka的創始人之一的那個中國人。這是一個非常強大的團隊,團隊裡面的人讓我也很驚艷。

後來發生了什麼呢?首先是一場巨大無比艱難的開源還是不開源的鬥爭。在18摸裡面開源是個很麻煩的事情,吃力不討好。隊伍好不容易把JAQL給開源了,這個開源也沒持續多久,最後又成了IBM自己內部產品用的語言,不讓開源了。在這個大數據開源的年代裡,不開源真的能存活么?

其次就是各種各樣的政治和站隊的問題,很不幸的是我們的領導並不太擅長玩政治,雖然技術上非常有遠見,又對IBM極其熱愛。最終當手下的人都一個一個離開以後,自己也只能走了。而會玩政治的,則慢慢的就升成了IBM fellow。

中國有句古話,百足之蟲死而不僵。IBM這種百年老妖怪,裡面的技術積累人才儲備應該是從來都不缺的。但是大公司往往特別喜歡自己和自己玩,左割一坨肉,右砍一隻手。18摸後來還推了一個項目SystemML,這個項目也不是很成功,寫了好幾個版本。最新版的好像底層都換到了Spark上來了。我想這到底是IBM的失敗還是Spark的勝利呢。

推薦閱讀:

深度剖析Spark分散式執行原理
一般而言常見的Spark的性能瓶頸有哪些?
Scala快速入門系列:聲明變數、控制結構與函數、常用數組操作
Spark 2017歐洲技術峰會摘要(Spark 生態體系分類)

TAG:IBM | 大数据 | Spark |