UC Berkeley AMPLab -- 是實驗室也是孵化器

AMPLab

在大數據的背景下,我們對這個世界的理解越發的變成了理解數據,並將數據轉化成有用的信息。於是,很多大數據相關的技術也就應運而生了,例如machine learning, data mining, databases, information retrieval, natural language processing, 和speech recognition。這些技術幫助我們看到了原本看不到的世界。聰明的數據科學家們不僅僅滿足於此,更多的新技術正在不斷湧現,比如:the rise of the warehouse-scale computer (WSC),the massive explosion in online data,the increasing diversity and time-sensitivity of queries, 以及 the advent of crowdsourcing等等。

所有這些無論已經比較成熟的技術,還是新出現的挑戰都需要跨學科的專業隊伍。所以,AMPLab的出現和發展也就順應了時代的需求。AMP的縮寫代表著"Algorithms, Machines, and People"。

選擇這樣的名字也印證了實驗室對未來的設想:

「...a world where massive data, cloud computing, communication and people resources can be continually, flexibly and dynamically be brought to bear on a range of hard problems by people connected to the cloud via devices of increasing power and sophistication."

2011年初,AMPLab做為 BEARS 2011 Annual Research Symposium 的一部分誕生。成立五年多來,雖然身為實驗室,卻又實際上兼顧著「孵化器」的功能。BDAS, the Berkeley Data Analytics Stack 是基於實驗室成果而整合出的開源軟體棧。(下圖中藍色和綠色格子里的軟體都是可以下載的:Software | AMPLab)

我們今天著重來聊聊AMPLab所扮演的孵化器角色。

其實,雖然同樣是在灣區周邊,據說UCB的創業氛圍並沒有身在矽谷腹地的斯坦福那麼好,教授也並不非常鼓勵學生出去創業。雖說在學院里做研究也可以選擇工業界的研究方向,但是跟在公司里做的事情還是有很大差別的。想要拿到博士學位,學生需要有三篇paper,所以研究方向歸根結底還是要可以出paper的,這就導致了研究內容和企業所需要的產品化和商業化有所偏差。所以有的人博士讀著讀著就跑出去創業了,有的人還會回來把博士讀完,可是不太走運的人發現拿到博士學位了,可是辛辛苦苦的創業也就荒廢了。

但即便如此,AMPLab還是有半數左右的人曾經加入創業或正在創業。根據早期的一組數據,在2007年到2011年間,投給斯坦福背景的風險投資/天使投資有203筆,是全美第一;UCB有90筆,為全美第三(來源:楊賽,InfoQ)。看來雖不被鼓勵,UCB學生的創業熱情和能力也是不可小覷的。更何況時下流行的開源項目Spark,Shark,Alluxio (前身為Tachyon) ,Mesos等都是出自於此。接下來就讓我們來一一認識一下AMPLab「孵出來的」這些「孩子們」。

Spark

Spark於2009年誕生於伯克利,最初只是一個研究性項目。在2013年,Spark發展成為了Apache基金項目,並在同年開發Apache Spark的團隊成立了Databricks公司。由於發家於AMPLab, Spark從不一開始就打上了學術的烙印。Spark的核心RDD(resilient distributed datasets),以及流處理,SQL智能分析,機器學習等功能無不來自實驗室學生的一篇篇學術論文。Spark提供的基於RDD的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型統一到一個平台下,並以一致的API公開,並提供相同的部署方案,使得Spark的工程應用領域變得更加廣泛(來源:張逸,InfoQ)。

Spark的迅速發展壯大離不開活躍的代碼庫和組織完善的社區活動。從下圖可以看出2013Apache Spark項目成立以來每月代碼貢獻者人數的激增。同時,參與貢獻的公司也從17家增加到了50家,其中還不乏中國公司的身影,例如阿里、百度、網易、騰訊、搜狐等。

社區活動方面,除了大規模的彙集Spark技術人員的峰會Spark Summit,全球各地都會不定期的舉辦小型的meetup。下圖為Spark Meetup Groups在全球的地理分布,地圖上的紅點點還在不斷發展壯大,數據每天也都在刷新。

講到這裡,還是不得不提一下Databricks公司的聯合創始人兼CTO: Matei Zaharia。他是2012年AMPLab畢業的博士生。在實驗室期間他是開發Spark的核心成員。筆者第一次聽說他還是在上MIT的大數據課期間,這位同時兼任MIT Assistant Professor的小哥操著濃郁的羅馬尼亞口音講了Hosted Data Platforms and the Cloud和Distributed Computing Platforms。當時我還傻傻的不知道這位橫跨工業界和學術界大牛的背景真是失敬了。Zaharia的研究項目還包括:Shark、Hadoop、Mesos、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner等。

Alluxio (前身Tachyon)

其實不僅是Zaharia博士,也不僅是在Databricks,AMPLab很多博士研究生都卧虎藏龍於由實驗室孵化出來的公司。前身為Tachyon的Alluxio就是其中之一。同樣是AMPLab的博士研究生的李浩源就同時身為Alluxio的聯合創始人兼CEO。2016年年初Tachyon正式更名為Alluxio,並發布了1.0版本。據李浩源博士自己回憶:

「Alluxio(前Tachyon)起源於我(李浩源,筆者)讀博期間在 UC Berkeley AMPLab實驗室的一個研究項目,那時候Spark和Mesos正在快速發展,我們見證了Spark和Mesos分別在計算、資源管理方面的強大能力,但同時也意識到它們在存儲方面的不足,基於此,我和我的研究團隊便開始探索如何使高速內存數據能夠跨應用共享。」

2012年年底Alluxio有了第一個版本,並在2013年開源,兩年後Alluxio公司成立,並一舉獲得了Andreessen Horowitz 750萬美刀的風投。作為世界上首款以內存為中心的虛擬分散式存儲系統,Alluxio能夠統一數據訪問並成為連接計算框架和底層存儲系統的橋樑,應用程序只需要連接Alluxio便能夠訪問底層任意存儲系統中的數據,除此之外,Alluxio以內存為中心的架構使得數據訪問比現有的解決方案能快若干個數量級。(來源:李浩源,極客頭條)

Alluxio與他的兄弟Spark一樣擁有生機勃勃的開發社區和組織有序的線下活動。

不僅是技術人員熱衷於Alluxio,他也在世界範圍內被企業巨頭青睞,例如:百度、巴克萊銀行、阿里巴巴、RackSpace、Intel、IBM等。

Mesos

AMPLab孵化出來的「孩子」可謂是各有特長,有長於計算的Spark,也有善於存儲的Alluxio,下面就再來說說在資源管理方面有強項的Mesos。

BitTiger的博客專欄里有博文詳細介紹過Mesos,這裡就摘錄一二。有興趣深入了解的小夥伴可以參考BitTiger的官網博客內容:解讀Mesos

Mesos是一個開源的集群管理框架,它可以將數據中心/集群放在一台電腦里運行,對外提供簡單的API,同時隱藏內部的很多複雜架構。它由UCB AMPLab的Benjemin Hinderman,Andy Konwinski和Matei Zaharia開發,後來在Twitter里發展成熟,並很快成為Apache基金會的頂級項目。

除了Twitter,部署Mesos的公司還有Airbnb、eBay、Netflix等。

AMPLab與中國

最後想說說AMPLab和中國的聯繫。個人認為這種聯繫主要可以從三方面體現出來。首先是身在AMPLab的優秀的中國學者,他們的聰明才智和創造力為實驗室貢獻著研究成果,同時也使他們在孵化企業中扮演著中流砥柱的作用。

第二層聯繫是和AMPLab打交道的中國企業,無論是Spark, Alluxio, 或Mesos等開源軟體的使用者,還是以投資人身份出現的企業。在實驗室官網列出的贊助方中我們發現了華為的身影。其實,如果一個技術型企業能夠充分利用實驗室的研究實力以及開源社區的影響力,的確可以以較低成本,在較短的時間內獲得可觀的競爭力。

最後一層聯繫體現在一年一度的AMPCamp。

它是AMPLab舉辦的年度大數據開發訓練營大會,已經成為了眾多大數據愛好者的首選金牌訓練營,是學習交流大數據技術的最佳平台之一。2015年在Intel的支持下AMPCamp首次跨出美國國境,來到了中國上海。

(圖片來源:Intel)

寫在最後...

AMPLab身兼實驗室和孵化器的雙重身份,成為了學術界與工業界跨界典範。他有Spark、Alluxio、Mesos等熠熠生輝的孵化成果,也希望他與中國的姻緣不斷加深。在大數據當道的年代,讓我們一起期待AMPLab的更多動向。

References:

amplab.cs.berkeley.edu/

databricks.com/spark/ab

infoq.com/cn/news/2014/

aiweibang.com/m/detail/

geek.csdn.net/news/deta

mesos.apache.org/

bittiger.io/blog/post/e

software.intel.com/fr-f

本文作者:Elaine

更多內容,請訪問:BitTiger.io, 掃描下面二維碼,關注微信公眾賬號「論碼農的自我修養」

推薦閱讀:

科研狗睡在實驗室是怎樣一種體驗?
實驗室死掉的小白鼠應當如何處理?
如何評價化學實驗室在雨天強制學生守夜?
可否在實驗室里飼養昆蟲來驗證(或證偽)進化論?
中國賽寶實驗室怎麼樣?

TAG:加州大学伯克利分校UCBerkeley | 孵化器 | 实验室 |