老師木的機器學習水平,帶實習生的水平,以及當爸爸的水平怎麼樣?

"誰要在知乎上討論我水平怎麼樣,我罵死他"


謝邀,

利益相關,鐵岩組原來的學生。

老師木這個人啊,當年搞什麼神秘人士起家,還po妹子背影啥的,那不是一般的會搞大新聞。

具體到ML水平,那不知道比那些只會摘抄博客的作家們高到哪裡去了。唯一的問題就是棄暗投明去MSRA的太晚。不然怎麼可能只有LightLDA這一篇代表性工作?哪裡還輪得到別人去評價,膜拜都來不及。

你們啊,還是要提高學術水平,認真去讀讀LightLDA,去推導一下,去看看老師木的代碼,不就知道了?

要我說,LightLDA那是真的正經貢獻,又smart,又是解決關鍵問題,又真work,正經把Topic Modeling在大數據時代的潛力大大的提高了。

比那些改改Graphical Model,換個Distribution,加加Dependency,套套別的Observation的Topic Modeling流水paper生產線出來的產品們不知道高到哪裡去了。


圍觀。目測很快就有人問這些大V 李沐水平怎麼樣,王威廉水平怎麼樣,余凱水平怎麼樣

認真回答一下,袁博士是清華博士,師出名門,也算是業內資深人士。他一直在工業界,所以publication未必強,但人家水平不低。劉鐵岩博士都這樣評價了,還有什麼好說的?

BTW,把袁博士和大專生July放一起,簡直是侮辱人


我和老師木是微博上認識的,當時他問我能不能去MSRA他那裡實習,但是因為實驗室的一些規定沒能去成,覺得挺遺憾的。

後來我一直叫他袁老師,和他面對面聊過好幾次技術問題。可以負責任的說,老師木的水平遠遠超過微博上他發表的言論所透露出的信息。他說他機器學習水平超過京城90%的專家,這個我是完全相信的。我也請他來我們實驗室做過報告,講他的LightLDA,我導師給了相當的肯定。( 我導師屬於 genius 級別,康奈爾博士,ATT 實驗室傑出科學家)

老師木是我見到的很少真正熱愛學術,有學術追求,並且不斷自我學習的人,截圖是他曾經給我發的聊天內容。

這個我也一直留著。

當然,老師木也是一個好爸爸,我很敬佩他。


實名反對題主。

知乎上素來喜歡評價這個、評價那個,最近又掀起了評價網路大V的旋風,看似有料,實則無趣。要我說,一個人的是非功過,唯有歷史能夠評價。鍵盤俠們喜歡把人當成電子產品,就算見都沒見過,也要強行批判一番。這比肆意評價沒用過的電子產品還要糟糕,因為他們忽視了人的潛力和成長性

對於一個人,尤其是年輕人,惡意的評價會挫傷自信心,哪怕自己知道這些評價是 unfair 的。我至今記得初中剛學物理的時候,某物理老師一臉鄙夷地對我說,「你,就是不行,學不好物理的」。雖然後來用成績打了該老師的臉,但那時候還是個拿衣物的小孩,真的傷心自卑了很久並且一直懷疑自己的能力。當然,換個角度來說,過高的評價也害人,因為不真實的評價會擾動自己內心的那桿秤

在評價一個人之前,不妨問問自己,有沒有資格評價,有沒有足夠的把握,是否對其有充分的了解,是否比其本人看得更加清楚。回到題主的問題,我是不敢妄加評論的。尤其是機器學習水平,我敢說在這裡回答問題的很多人(包括我),都遠不及老師木的水平,又有什麼資格指手畫腳評價別人呢。直觀上的感受倒是可以說兩句,只是我的個人感受,而非評價老師木的水平。

雖然在 MSRA 實習了三年多,也和老師木在同一個組,但直接的合作並不多。從一起開會、討論問題的過程中,我能感受到老師木對於 research 的熱情和執著。相較於 typical ML researcher,老師木的知識面很廣博,對於很多 ML 之外的領域也有獨到的見解,這是我最大的感受。此外就是在生活中,老師木是一個非常 nice 的 mentor,也是一個對女兒愛護備至的爸爸(寶寶炒雞萌!)。有一次和幾個小夥伴在公司加班到很晚,恰好老師木也在(老師木的確比很多實習生還要勤奮,慚愧...),就開車送我們回家了。當然,我們自己的 mentor 也是非常非常 nice,加班到深夜也經常開車送。

最後,奉勸某些嚴於律人、寬於律己的鍵盤俠,你們有一個好,評價別人的時候啊打字比誰都快,但是噴來噴去的問題啊,都 too simple, sometimes naive. 你們不妨把評價別人的熱情啊,用到自己身上,掂量一下自己有多重,有事兒沒事兒噴噴自己,也許對社會有更大的貢獻。


老師木師兄現實中人非常好,非常低調,水平非常高。

只是喜歡網上人來瘋而已,也挺可愛的。


歪個樓 沒有合作過不知道他水平怎麼樣,但是很仰慕他,因為是一個很nice很真摯的人。 上半年大神學長幫推了MSRA,老師木是我的一面面試官,面完說是一個禮拜內有二面,結果一直沒等到二面也沒有任何答覆(囧)。於是我發郵件問了考試木(因為一面是用那個郵箱約的),萬萬沒想到,他很認真地給我回復了,給了我很多肯定和鼓勵之類,關於面試,意思大概就是覺得我進去實習問題不大。這是第一次感動。然而之後還是一直沒有MSRA的消息。於是我又郵件了他,他說他也不知道具體情況,主要是headcount很緊。他還說等headcount松一點的時候叫我再聯繫他。這是第二次感動。個人覺得對一個面試intern的學生能有這麼耐心和負責的態度,無論工作還是人生一定都是贏家。儘管之後一直在別的地方實習,面試的流程也有點莫名其妙,但是對MSRA一直有種好感,很大原因就是老師木吧:)


技術上的水平應該是沒法超過老師木了。不過相信我能成為一個比老師木更好的爸爸。

那麼關鍵問題來了: 我的孩子你在哪?


老師木的機器學習水平高於他publication顯示出的水平,但低於他偶爾吹牛時對自己的定位。

總之算是水平不錯的。


我與老師木在線下一起聊過,我跟他講了編譯,他跟我講了機器學習,人很低調,很謙和,他能把我這個機器學習門外漢講懂,並且知道他的意圖,從這一點來看我認為他的水平是很好的。


是我認識的搞機器學習的人裡面,少數幾個勇於使用C++的人之一。


我們的編輯小姐姐前不久對他進行一次獨家的專訪,所以就不邀自來了~~

老師木,真名袁進輝。讀書時成績一直優異,本科後保送清華大學直博生,師從人工智慧領域張鈸院士。期間多篇論文在國際頂級會議上發表,在競爭激烈的國際技術評測(TRECVID)中連續多年名列第一。博士後出站後,於 2011 年入職網易有道。2012 年作為早期成員加入 360 搜索創業團隊,一年之後,產品上線成為國內市場份額第二的搜索引擎。2013 年,加入微軟亞洲研究院(MSRA),主要從事大規模機器學習平台的研發工作。

從博士後到第一次創業,是從學術研究人員轉型成為工程師;進微軟亞洲研究院,則又重回到了學術道路。在 MSRA 期間,專註於研發大規模機器學習平台,以出色的科研和工程綜合能力,發明了世界上最快主題模型演算法 LightLDA 及分散式訓練系統:只用幾十台伺服器就能完成之前需要數千伺服器才能完成的訓練任務。「LightLDA 的確是迄今為止,我做出來最有影響力的工作。人常說,評價一個學者水平高低不是看成果多少,而是看他能到達的最高水平,可以說這項研究讓我躋身於世界一流研究人員的行列」。

MSRA 被稱作中國 IT 屆的黃埔軍校,精英薈萃 ,並且老師木的成就也開始受到各界的認可,但是他卻出人意料的放棄了 MSRA 的優厚工作,走上了創業的路途,更是參與到深度學習框架這種戰略級產品競爭中。眾所周知,很多大公司都出有自己的深度學習框架,Google 的 TensorFlow,微軟 CNTK, Amazon 的 MxNet,Facebook 的 Caffe2 等,並且都在努力的建立生態。以老師木的視角,他是如何看待這些框架?我們從深度學習技術和框架、LightLDA 兩大方向和老師木進行了一次深度訪談。

關於創業 InfoQ:為什麼你放棄 MSRA 的優厚工作去創業?

老師木:創業者一定有一個或大或小的願景,或者說使命感,未來的世界應該是什麼樣的,怎麼努力促使願景實現。我的願景是:人工智慧技術賦能各行各業,推動人們工作效率和生活質量更高,把人類從機器擅長的工作中解放出來,讓人類去做更需要創造力的事。在這種使命驅動下,首先選擇做什麼事最有利於這個願景實現,其次選擇做事的形式。要選能突破自我,能最大化創造價值的事和形式。

InfoQ:怎麼看待人工智慧的市場潛力?

老師木:首先,互聯網行業已經充分驗證了數據驅動的業務模式。其次,互聯網行業之外的存量業務有顯著的人工智慧技術紅利可吃,或者剛剛嘗到人工智慧技術的甜頭,或者是尚未開墾的處女地,僅僅把人工智慧技術引入已有業務,就能獲得競爭優勢,甚至帶來質的飛躍。最後,人工智慧技術革命會催生一些新的產業,譬如自動駕駛,精準醫療等。據此,有人認為這次由深度學習引發的大潮可能是第三次工業革命。

InfoQ:深度學習在業界有哪些靠譜應用?

老師木:每個高商業價值的互聯網應用背後都有深度學習的身影,搜索引擎,廣告,推薦引擎,用戶畫像,社交媒體,共享經濟等等。人類智能可概括為感知,決策和控制三方面,有監督深度學習方法最先在感知類型的任務(圖像視頻,語音,語言的理解)中取得成功,譬如安防,醫學影像,色情信息過濾,語音助手,機器翻譯等都已經商用落地。強化學習在決策和控制方面也取得很多成果,主要是機器人自動控制,自動駕駛,處在快速發展中。

InfoQ:深度學習在技術上存在什麼瓶頸?最可能在哪裡獲得突破?

老師木:先分別說有哪些關鍵問題。在演算法和理論方面,目前有監督學習應用最成功,各行各業積累了大量的無標籤的數據,怎麼利用上無標籤或弱標籤的數據?深度學習在感知(Perception)類型的任務上非常成功,怎麼與認知 (Cognition) 方法(符號推理)結合形成最終決策?在理論上如何理解深度學習這麼驚人的效果,怎麼在理論指導下去設計模型,而不是靠 ad-hoc 經驗試?在計算效率方面,伺服器端主要考慮擴展性,怎麼能讓一批高吞吐協處理器協同解決一個大型任務時總體利用率最高,在終端上則主要是考慮低功耗實現,能否同時實現易用性和高效性。在應用方面,主要是在一些高商業價值的問題上能否從技術上打通達到可用程度,AlphaGo 非常成功,但商業價值還不明確,在殺手級應用如自動駕駛,精準醫療,自動化交易等方向上取得成功,更值得期待。

理論和演算法研究上的突破通常可遇不可求,更難預測,而且是否真的突破最終也要落實到實際應用中去評判。在計算力和應用上的突破確定性更高一些。我們是瞄準了計算力這個方向的商機,一會兒可以深入探討下這方面的問題。某些垂直應用如自動駕駛方向聚集了大量資金和人才,這方面的突破希望也很大。

InfoQ:為什麼計算力會成為深度學習的一個突破方向?

老師木:首先,計算力是極其關鍵的一項支撐技術。最近發生的人工智慧革命通常被認為是三駕馬車驅動,數據,演算法和計算力。與上世紀九十年代相比,深度學習在演算法原理上並無二致,在數據和計算力方面進步更大,各行各業積累了大量的優質數據,GPU 作為新的計算手段引爆了此次深度學習的熱潮。

其次,計算力方面還有現成的紅利可吃,相同的演算法,如果能用上更多的數據,或者用更大規模的模型,通常能帶來效果的顯著提升,能不能做的更大取決於計算力的水平。

再次,演算法和原理的研究進展依賴於計算能力,好的計算力平台可以提高演算法和原理研究的迭代速度,一天能實驗一個新想法就比一星期才能實驗一個新想法快的多。有些理論問題本身是一個大規模計算問題,譬如神經網路結構的自動學習等價於在一個超大規模假設空間的搜索問題,沒有強大計算力的支持就只能停留在玩具數據上。深度學習是受生物神經網路啟發而設計出來的,現在人工神經網路的規模還遠遠小於人腦神經網路的規模,人腦有上千億神經元細胞,每個神經元平均有成千上萬的連接。

最後,如何在低功耗約束下完成高通量的計算也是制約了深度學習在更多終端上應用的一大因素。

InfoQ:計算力具有什麼樣的商業價值?

老師木:一方面,計算力的商業價值體現在它是數據驅動型公司的大部頭營業支出(硬體採購,人力成本等)。數據驅動型業務的完整鏈條包括數據收集,預處理,深度分析和在線預測,無論是私有部署還是上公有雲,建設高擴展性的基礎設施等支撐技術,都是一筆不可忽視的開銷。另一方面,計算力也是數據驅動型公司獲得競爭優勢的關鍵,人工智慧可提高公司業務效率,而計算力又可提高人工智慧的效率。目前,圍繞著計算力已經出現了諸多成功的商業模式,譬如公有雲,面向私有部署的商業技術服務,深度學習加速器(GPU,DPU)等。

InfoQ:計算力在技術上有哪些瓶頸?

老師木:從硬體看,我們現在使用的都是馮諾依曼結構的計算機,它的主要特點是計算單元和存儲單元分離,主要瓶頸表現在摩爾定律(Moore』s law)的失效和內存牆(Memory wall)問題上。克服摩爾定律的主要途徑是增加中央處理器上集成的核心(core)數量,從單核,多核發展到現在眾核架構(GPU, Intel Xeon Phi),但晶元的面積及功耗限制了人們不可能在一個處理器上集成無窮無盡個核心。內存牆的問題是指內存性能的提升速度還趕不上 CPU 性能的提升速度,訪存帶寬常常限制了 CPU 性能的發揮。純從硬體角度解決這些瓶頸問題,一方面要靠硬體製造工藝本身的發展,另一方面可能要靠新型的計算機體系結構來解決,譬如計算和存儲一體化的非馮諾依曼結構計算機。除了高通量的計算,在電池技術沒有大的突破的前提下,終端應用場景(物聯網,邊緣計算)里低功耗也是計算力的一項重要指標。當前,深度學習專用硬體創業如火如荼,有可能會被忽視的一點是:對突破計算力瓶頸,軟體至少和硬體一樣關鍵。

InfoQ:為什麼軟體會成為計算力突破的關鍵?

老師木:計算力的基礎設施要滿足上層用戶對易用性,高效率,擴展性的綜合需求,僅有硬體是不夠的。一方面,數據科學家和演算法研究員不像系統研發工程師那樣深刻立刻硬體的工作機理,不擅長開發釋放硬體計算潛能的軟體,對數據科學家最友好的界面是聲明式編程,他們只需要告訴計算力平台他們想做什麼,具體怎樣算的快要由軟體工具鏈來解決。另一方面,儘管單個眾核架構的協處理設備(如 GPU)吞吐率已遠超 CPU,但出於晶元面積 / 功耗等物理限制,任何一個單獨的設備都無法足夠大到處理工業級規模的數據和模型,仍需由多個高速互聯的設備協同才能完成大規模任務。出於靈活性需求,設備之間的依賴必定由軟體定義和管理,軟體怎樣協調硬體才能提高硬體利用率和釋放硬體潛能極具挑戰,至關重要。在相關領域,軟體定義硬體已是大勢所趨:上層軟體決定底層硬體的發展方向,底層硬體要取得成功離不開完善的上層軟體生態。

InfoQ:業界已經有很多軟體平台,為什麼要再打造一個?

老師木:用戶選擇眾多,但仍有重要需求未被滿足,深度學習框架技術演化仍未收斂。深度學習框架一定會出現 Hadoop 那樣具有市場支配地位的產品,也就是所謂的事實工業標準,而現在還沒有任何一個軟體平台達到這種地位。工業標準級的平台不僅要解決眼前的需求,更要面向未來。現在的確有一些知名的軟體平台,但業界還有相當一部分重要需求沒有被滿足。比如,現有技術方案對於單設備或多設備數據並行這種簡單場景的支持已經非常優秀,但在模型更大或者神經網路拓撲更複雜時,通用框架的易用性和效率都大打折扣,有這種需求的工業級應用只好去用定製的 HPC 方案(譬如百度的 DeepSpeech)。問題的根源是,設備之間互聯帶寬遠低於設備內訪存帶寬,這是和傳統 CPU 上內存牆(Memory Wall)類似的難題。我們團隊經過艱苦卓絕的努力,探索一條走向通用解決方案的技術路徑。沿這個思路開發的軟體平台,有望既享受軟體的靈活和便利,又享有專用硬體的高效性。我們堅信,通用的解決方案是深度學習平台技術收斂的方向,只有這種通用的解決方案才是深度學習平台的最終形態。

InfoQ:能說說你們產品的主要技術特點是什麼嗎?

老師木:深度神經網路和人腦信息處理本質數據流計算,信號的傳播即計算,然而當前主流的底層硬體都是馮諾依曼結構。純硬體實現的數據流計算機還不現實,現在必須依賴深度學習軟體平台來完成這樣一個翻譯或者映射的過程:從數據流表達到馮諾依曼結構上的指令序列。軟體平台最終價值體現在易用性和高效性。易用性,要支持用戶能夠使用最自然的表達方式來描述各種神經網路計算的需求;高效性,對所支持的任何一種上層需求,都能基於通用硬體資源表現出專用硬體的那種效率。我們的產品開創了一種和現有深度學習框架截然不同的技術路線,細節上表現出來靜態編譯,全鏈路非同步,去中心化,流式計算等特點,我們認為這是深度學習基礎架構實現易用和高效的必由之路,是深度學習框架技術收斂的方向。

InfoQ:長江後浪推前浪,這樣一個先進的技術架構生命力會有多久?

老師木:首先,我們可以探討一下深度學習的範式還有多久生命力,畢竟技術架構應需求而生。可以從這幾方面看:從數據流計算模型是生物體採用的信息處理機制,是人工智慧的效仿對象;人工神經網路已經在多個領域取得成功,而且深度學習本質上還是統計學習理論,利用演算法在數據種挖掘統計規律性,這種學習機制的本質不會變化;深度學習演算法便於利用並行硬體的威力,演算法和硬體的天作之合,還看不出取代它的必要。其次,從計算機體系結構及硬體演化方向上看,軟硬體結合的數據流計算機代表著突破摩爾定律和內存牆限制的方向。

InfoQ:是不是只有大公司才需要這樣的基礎設施?

老師木:並不是。目力所及,這樣的基礎設施已經不是大公司的獨享的專利,擁有數十台伺服器的中小企業,大學研究院所比比皆是。數據驅動是一種先進的生產力,所有行業最終都會變成數據驅動,每個行業的每個公司的數據都在積累,每個公司對數據分析的需求都在進化,從淺層的分析到深度分析,這個大趨勢呼之欲出不可逆轉。十年前,會有多少公司需要 Hadoop,現今幾乎所有的公司都要用到 Hadoop。歷史一再證明,無論計算能力發展到多強大,應用總能把它用滿。多年以前,有人還覺得 640K 內存對於任何人來說都足夠了,今天 64G 的內存都開始捉襟見肘,一輛自動駕駛測試車每天收集的數據達數 TB 之多。從來不是強大的計算力有沒有用的問題,而是計算力夠不夠用的問題。

InfoQ:深度學習框架競爭很激烈,而且看上去都是業界巨頭在玩。

老師木:是的。一個深度學習框架一旦像 Hadoop 那樣成為事實工業標準,就佔據了人工智慧各種關鍵應用的入口,對各類垂直應用,基於私有部署的技術服務,公有雲上的 AI 即服務業務,甚至底層專用硬體市場都有舉足輕重的影響。它的角色就像互聯網時代的瀏覽器,移動互聯網時代的安卓操作系統一樣,是戰略級產品,業界巨頭誰都不想讓給他人也就不奇怪了。目前,大公司出品的比較知名的框架有 Google 的 TensorFlow,微軟 CNTK, Amazon 的 MxNet,Facebook 的 Caffe2, PyTorch,國內百度的 PaddlePaddle 等。

InfoQ:為什麼用創業的方式做這樣一件事?

老師木:這種事既有技術攻關上的挑戰,也有資源組織上的挑戰。這就需要科研院所那種人才密集度,又需要公司的組織支持。我既有在大公司工作的經歷,也有兩次創業的經歷,個人理解,創業是社會資源組織和分配的一種優秀機制,能最大化這項事業的成功率。首先,創業是社會鼓勵創新和承擔風險的一種資源分配形式,有潛力的創業團隊能得到所需要的資源(資金和人才),同時有高度靈活的機制,在大公司,未必是最適合做這項事業的人來承擔這樣的項目。其次,一項充滿挑戰的事業需要具有聰明才智的人以持久的熱情投入其中,創業公司那種公平合理的利益分配機制才能最大激發成員的主觀能動性,為業界做出實質貢獻的人也應該得到回報。

InfoQ:創業公司做這樣一件事看上去很不可思議。

老師木:有很多大公司加入這場競爭,說明存在真實的需求,而且市場容量足夠大,看上去創業公司做這樣的產品非常難,實際上大公司做也是同樣地難。深度學習框架的用戶是開發者 (developer),也就是常說的 To developer,要把這樣一件產品做成功,被業界廣為採用,關鍵看兩點:

首先,這種深度學習框架是技術密集型產品,一定要做到最廣泛的滿足實際需求,而且在某些方面要有不可替代的優勢,有突出的長板。

其次,要形成生態,具有完善的社區支持,做到沒有明顯的短板。一個組織只要具備實現這兩點目標的要素,就有機會,而不在於那是小公司,還是大公司。

事實上,在開源軟體範圍競爭還是非常公平的,原來名不見經傳的人開發出的軟體的確好用就能火,大公司開發出的軟體質量不行也沒人用,最終靠產品質量說話。現在,創業公司聚集了業界最優秀的一批人,聰明,更重要的是有野心(進取心)。當然,對創業公司來說,不僅要取得產品的成功,還要取得商業上的成功,讓所有參與這項事業的人拿到現實的回報,公司自身也獲得更充足的資金支持投入再生產,做出更優秀的產品。大公司在開源產品的商業化上更從容一些。個人觀點,很多大公司與你競爭不可怕,更可怕的是面對很多創業公司的競爭。最終結果取決於產品質量。

InfoQ:如何取得商業上的成功?只有好的技術也可能賺不了錢。

老師木:取得商業上的成功是創業公司的最終追求,我們也一樣。我的理解,這涉及兩個「價值」問題。第一,我們在做的事是否為用戶創造了價值,我堅決信奉 create value, money follows;第二個是回歸商業價值,在為用戶創造價值的前提下,我們需要探索出一條雙贏的利益分配機制,把用戶轉化成客戶。現階段,我們聚焦在解決第一個問題,打造出解決用戶需求和痛點的產品:深度學習平台,不貪大求全,只追求把整個鏈條中的那最關鍵一環打造到極致。這是我們這個團隊在人工智慧大潮中參與頂端競爭的切入點,在我們眼裡是那個撬動地球的槓桿支點。從為用戶創造價值這個角度切入能最大化實現商業目標的成功率,而且有可能把我們推舉到比其它選項要高的多的高度。微軟,谷歌,英偉達,甲骨文,華為這樣偉大的公司都是因為有了創新的產品才形成了偉大的商業公司。我們對商業模式的各種選項都持 open 態度,不排斥和高商業價值的垂直場景結合。

InfoQ:您們的深度學習平台第一版預計什麼時候公測?需要從哪些方面準備?

老師木:系統主體開發已經完成,目前處在內測階段,計劃年底時開源。開源之前需要從以下方面做充分準備:

第一,產品功能完整性,要支持主流的深度學習模型,譬如 CNN/RNN/LSTM , 支持圖像,語音和語言經典應用;

第二,驗證高效性,在業界公認的大規模評測中表現出效率優勢,給出具體技術指標,如在多大規模上跑到什麼水平的加速比,設備利用率等等;

第三,打磨易用性,和上下游工具,和已有深度學習框架的兼容性,以及文檔建設等等。我們團隊先從技術方面打好一個底子,當用戶想為這個項目做貢獻時,可以更容易加入進來。

InfoQ:您們研發深度學習平台會兼容哪些晶元?支持什麼操作系統,支持 Linux, Windows, Android 和 iOS 嗎?

老師木:目前我們聚焦在服務端的訓練場景,在這種場景下,GPU 是最經濟的選擇,所以目前只支持純 CPU 或 CPU+GPU 的異構集群,如果未來硬體市場發生變化,我們也可以支持其它晶元。伺服器上主要操作系統是 Linux 和 Windows,所以目前只支持這兩種。終端的應用場景主要是在線推理 (inference),我們團隊目前沒有投入。

關於 LightLDA InfoQ:LightLDA 是您的代表作之一么?能給大家介紹下這個項目的一些情況么?

老師木:LightLDA 的確是迄今為止我做出來最有影響力的工作。人常說,評價一個學者水平高低不是看成果多少,而是看他能到達的最高水平,可以說這項研究讓我躋身於世界一流研究人員的行列。首先,演算法結果是一流的,LightLDA 是當時業界最快的訓練 Latent Dirichilet Allocation (LDA) 主題模型的演算法,它把單個詞採樣降低到 O(1) 複雜度。其次,系統實現是一流的,我們僅用數十台伺服器,完成之前成千上萬台伺服器才能做的事。LightLDA 和許多其它優秀科研成果一樣,是集體努力的結晶。那個時候,CMU 的邢波教授(Eric Xing)在 MSRA 任顧問,微軟團隊和他領銜的 Petuum 團隊合作達成此項成果,論文發表在 WWW 2015,系統代碼在 Github 開源,也成功應用於微軟搜索廣告和情景廣告產品中。

主題模型特別是 LDA 是廣告系統和推薦系統中的關鍵組件,據說「Google AdSense 背後廣告相關性計算的頭號秘密武器 Google Rephil 」 就是一個巨大規模的主題模型。大約三四年前,微軟很多產品想用類似的技術,然而並沒有大規模主題模型的訓練系統。有一天,主管這個領域的副院長馬維英(現今日頭條副總裁)和我討論時,說起這件事,產品部門經常問他的團隊有沒有這樣的解決方案,問我願不願意干。恰好那時邢波教授也開始做 MSRA 的顧問,邢教授的團隊在這方面有很積累,微軟正好可以和他在 CMU 的團隊合作研發大規模主題模型訓練技術,雙方一拍即合。當時,從公開渠道能了解到,為解決工業級需求,訓練數據可能涵蓋數億個文檔,每個文檔包含十幾到數百個詞,為了覆蓋長尾詞和長尾語義,詞典可能包含數十萬到百萬個單詞,主題個數遠超業界發表論文的數字(僅數百個主題),達到萬,十萬,甚至百萬,最先進的解決方案需要數千台伺服器運行數天才能得到結果。我們當時立下的 flag 是,相對於業界最好解決方案,做到各個維度上都有數量級的超越(伺服器數量必須是數十台,我們那時拿不到數千台這麼奢侈的硬體支持,數據規模做到數十億 Bing 索引的主流網頁,詞典和主題數至少做到十萬級別)。稍微推算一下,就可以知道,即使是當時最先進的演算法 SparseLDA,在給定的硬體環境中訓練這樣規模的模型需要半年到一年的時間。再加上身處研究部門,一沒有可供使用的集群,二沒有工程師團隊的支持,微軟這邊全時投入的只有我和實習生高飛,這個目標看上去是 mission impossible。我當時的想法是,最低目標要做出來一個能滿足產品部門需求可用的主題模型,能不能做出打破紀錄,就看運氣了。

InfoQ:請問大規模訓練 LDA 模型的瓶頸是什麼?

老師木:訓練 LDA 的演算法可以分成兩類,一類是變分貝葉斯法,一類是 Gibbs 採樣演算法。前者計算過程和中間表示都是稠密的,分散式實現時通信量較大,後者是稀疏計算,通信量小,一般大規模主題模型都基於 Gibbs 採樣演算法實現。使用 Gibbs 採樣演算法時,演算法複雜度和系統實現兩方面都有困難。假設有 100 億文檔,平均每個文檔有 100 個詞,一共有 10000 億個詞,訓練過程迭代 100 次,那就需要對 10000 億個詞掃描 100 遍。標準的 Collapsed Gibbs 採樣演算法處理一個詞的計算複雜度與模型的主題數量有關,假設要訓練包含 10 萬個主題的模型,那麼每個詞就包含 10 萬次計算,主頻為 2GHz 的 CPU 核心每秒能處理 1000 個詞,這樣估算一下下來,假設使用一個單線程程序來做這件事,共需要 1000 億秒,也就是 100 萬天。使用 10000 個 CPU 核心的分散式集群去訓練,假設線性擴展性,也需要 100 天之久。假如每個詞的採樣效率能提高 100 倍,那麼使用 10000 個 CPU 核心的集群去訓練這個模型就只需要 1 天。前人已經提出了 Gibbs 採樣演算法的多種改進,譬如 SparseLDA, AliasLDA,但這些演算法的單個詞的計算複雜度仍與模型的主題數量相關,與「創造奇蹟」仍有距離。另外,實踐上,演算法中總有一些步驟是無法並行化,受制於阿姆達爾法則,分散式系統很難做到線性加速比,所需要的時間會比上述預估的時間更長。

InfoQ:LightLDA 設計之處,面臨了哪些挑戰?

老師木:我們 LightLDA 團隊資源匱乏(計算資源,工程師資源),同時在演算法和系統實現上都挑戰極大。我個人認為最大挑戰在信心方面:我們能不能做到?在此之前,有多位知名科學家和資深工程師在訓練大規模 LDA 的問題上耕耘已久,他們已經把演算法和系統實現推進到相當的高度,即使採用當時最先進的技術,仍不可能實現我們的目標。必須做出顯著超越前人的奇蹟技術突破才有可能實現目標。我和學生都是第一次從事大規模機器學習的項目,名不見經傳,何德何能,能比另外一些特別牛逼的人物做的還要好?

首先是演算法上的突破。我在重現和把玩 SparseLDA 和 AliasLDA 時,被可遇不可求的靈感眷顧:解耦 Gibbs 採樣中與詞自身相關的因素和詞所在文檔上下文的因素這兩個因子,能做到單個詞採樣複雜度與主題個數無關。馬維英院長第一次聽我介紹完這個想法和初步實現結果後說 too good to be true,的確,誰能想到這樣一個小小的 insight,竟然能把單個詞採樣複雜度降到 O(1),理論上使得達成那個宏偉的目標成為可能。這個靈感來的偶然又必然,機遇偏愛有準備的人。我動手能力比較突出,很快就重現了 SparseLDA 和當時剛剛在 KDD 上發表並獲得最佳論文獎的 AliasLDA 演算法,同時理論功底又比較紮實,很快就深刻理解了它們的關鍵所在。我不斷把玩這兩個演算法,在直覺和理論分析指引下做一些改動,然後觀察是否有效,終於在一次改動後發現計算效率陡升,讓人懷疑是不是出現了有益處的 bug,再三推敲後終於確認,這是一個有深刻內涵的新發現。這又一次印證了我從清華數學系林元烈老師那學到的一個訣竅:熟能生巧。他的隨機課程巨難無比,我剛開始怎麼都入不了門,和很多自認佼佼者的同學一樣竟然期中考試不及格。林老師說了一番這樣的道理:他認識很多大牛數學家,即使是像他們那麼聰明的人,在掌握一些艱深的數學科目時,也是通過做特別多習題才能悟道。我就硬著頭皮做了很多習題,有的證明看不懂,甚至都背下來了,也是突然一瞬就知道了隨機過程怎麼回事。每次遇到困難,在說放棄之前再堅持一會兒結果就會不同。

找到理論上性質很好的演算法,只是萬里長征第一步。怎麼高效地用程序實現,特別是在分散式環境下接近線性加速,包含了一系列的技術挑戰,任何一個環節掉鏈子,所有努力都會化成泡影。做這類事的特點就是,兵來將擋,水來土掩,在你不知道前人這些技巧時,你要自己發明出來,但在系統領域極大概率是這個發明已經在經典文獻中被提出過了。我們解決了兩個突出的難題,超大規模模型的內存瓶頸和通信瓶頸。100 萬的詞典和 100 萬個主題,模型之大,前所未有,意味著需要若干 TB 的內存,如何存儲和支持快速訪問也極其嚴峻。在分散式環境下,如何有效掩蓋通信開銷又不損失模型精度,也是當時面臨的一個主要難題。我的學生高飛在工程實現方面特別給力,交給他的事情總能又快又好的做完。事後回顧這段經歷,他說,這段日子是他最愉快的經歷之一,偶爾會感到絕望,總發現我在前面仍激情滿滿的堅持,他深感佩服。我的領導馬維英和劉鐵岩研究員則克服重重困難,為這個項目提供資源支持和高屋建瓴的指導。同時,我們和 CMU Petuum 團隊,Eric Xing, David Dai, Jinliang Wei, Qirong Ho, 儘管身處太平洋兩岸,但幾乎每天都有郵件討論,每周都有好幾次電話會議,遇到技術難題大家湊在一次分析,提出不成熟的好點子又立刻能得到挑戰,共鳴和支持,缺少任何一個人,結果都不是大家看到的樣子,這就是一個優秀團隊的魅力所在。

沒有前面技術突破,絕不可能達到目標。僅僅有前面的演算法突破,沒有執行成功,這項研究也就是一個微不足道的 trick,絕不可能產生後來的影響。

InfoQ:LightLDA 如何藉助 DMTK 框架做並行化? LightLDA 有哪些優點?

老師木:這裡可能有一個小小的誤解。在 Github 上發布時,LightLDA 是作為 Distributed Machine Learing Toolkit (DMTK) 的一個組件發布的,但實際上 LightLDA 最初是使用 Petuum 的參數伺服器實現並行化。在 LightLDA 論文發表後,微軟醞釀和發布了 DMTK 項目,這時候把 LightLDA 作為 DMTK 的一個主要應用集成進去了。LightLDA 的優點就不多說了,主要是快,擴展性好,用少得多的硬體資源就可以解決規模大的多的問題。我來說一下開源版本的缺憾吧。首先,理論上單個詞採樣複雜度是 O(1),在工程實現上,因為隨機訪存造成 cache miss 太多的原因,沒有完全發揮演算法的優勢,不久以後,清華大學朱軍和陳文光教授的課題組做了一些新的創新,提出了 WarpLDA,重排訓練數據的訪問順序,大大減少 cache miss,才真正發揮了這類 O(1) 複雜度演算法的威力;其次,LightLDA 開源的代碼並沒有包含數據預處理和在線預測這一整套工具鏈,使得用戶必須自己去開發和踩坑;最後,有一些較高級的特性雖然在內部版本實現了,卻並未在開源代碼中發布,譬如能搞定長尾語義的非對稱先驗的 LDA 等。我們也沒有把單線程版本發布出來,方便同行做純粹地演算法比較。

InfoQ:通過 LightLDA 項目,得到了什麼啟發?

老師木:第一,的確存在不可替代的技術,平凡的創新和破壞式創新的效果不可同日而語,後者往往有四兩撥千斤的效果。

第二,要敢於迎接挑戰,承擔風險,個人理解,這相對於平凡而穩妥的道路更划算,做一件挑戰但有風險的事,可能需要付出於平常事 3 倍的努力,但可能獲得做 10 件平常事才會有的回報。

第三,無論是科學研究,產品研發,還是商業競爭是智商,意志,情商等綜合素質的全面比拼,不僅要有不可替代的優勢,在其它任何方面還不能有短板。

第四,機會總是眷顧有準備的人,有所準備才能抓住稍縱即逝的機會。總結,LightLDA 讓我體驗了做成一件有影響的事所需要的所有困難,我好像對看上去很難的事不會感到畏懼。

關於人工智慧從業 InfoQ:人工智慧前景良好,那麼從業者能發揮什麼角色?

老師木:有三種類型的技術可做:

一,研究機器學習演算法或原理,解答怎麼做(How)或為什麼這麼做(Why)的問題,譬如研究怎麼訓練深度學習模型,什麼樣的神經網路結構效果最好,為什麼深度學習要比其它機器學習方法效果好等等,簡略稱為原理問題;

二,機器學習的基礎設施,什麼樣的軟硬體設計能使得機器學習演算法計算更快,能用上更多數據,或者使模型規模更大,例如研發深度學習軟體框架,或深度學習專用硬體等等,可歸結為計算力問題;

三,如何應用機器學習技術(演算法和計算力)解決工作和生活中的實際問題,譬如互聯網廣告系統設計,推薦系統,遊戲博弈(如 AlphaGo),自動駕駛等等,可歸類為應用問題。

InfoQ:從事哪種類型的工作更有競爭優勢?

老師木:這三種類型的工作我恰好都做過,應該說哪個都很有用武之地,哪一個方向能做到頂尖水平都不易,做好了都能贏者通吃,全棧則更有優勢。當然,這些工作也存在一些具體的差別。理論問題,進入門檻較高,工作崗位不太多,一般是興趣驅動,看天賦和運氣,這方面的突破,影響範圍廣,惠及全行業,從創業看,難以形成獨立的商業模式,一般是在大學或企業研究院開展。計算力問題,影響力能到達全行業,通常是業界巨頭和精幹的創業團隊的強項,崗位不太多,門檻也比較高,但主要看後天努力,一般是努力總有結果,創業上有可能形成獨立的商業模式。應用類型的問題,業界需求最大,進入門檻低一些,確定性高,離商業近,周期短,見效快,影響力一般受限於特定領域。統計上,少數人從事理論和計算力類型的工作,大部分人從事應用驅動的工作。現在的開源軟體和公開課非常普及,為有志於在此方向上有所造詣的同行提供了前所未有的良好條件。

最後的話

「遍地黃金的日子過去了,低垂的果子已經沒了」,技術創新主導的時代必將來臨,讓我們以「像鷹一樣的眼光,像狼一樣的精神,像熊一樣的膽量,像豹一樣的速度」,去抓住屬於技術人的機遇。

如果有興趣跟InfoQ編輯針對機器學習等技術話題進行訪談的,可聯繫記者whitecrow-tina。

如果覺得答案有用,請拉到文章頂部給 AI前線的編輯小姐姐點個贊!

如果想繼續關注老師木的相關內容,請關注我們的微信號:AI前線 ,ID:ai-front


很討厭狂人,老師木除外

沒真實接觸過,但線上線下性格相差很遠這事其他答案有說

雖然自己水平差老師木很遠,但線上線下性格差異這點我也有,所以感覺很親切

回到題目本身:我都沒資格評價。Orz......


得分最高的幾位都是老師木的熟人而且實名,自然只能幫吹。但既然po到知乎來了,就是表明此人有爭議,所以不請自來說幾句。

利益相關:跟老師木有過幾面之交,微博關注。研究方向有些重合,本人雖然不才,但paper還是都認真拜讀了。見過老師木噴人的架勢,所以可恥的選擇匿了。

老師木的研究水平都是擺在明面上,並沒有多少爭議的。私底下此人比較低調,或者說看上去很平凡,跟微博上的形象完全不同。所以哪個才能真實的反映此人?

早期他一直使用匿名稱號,所以見人就噴。例如12年曾揚言兩年超jeff dean,三年過去了實際怎麼樣大家一看便知。

但真正一戰成名是揚言cmu不倫不類,自己力壓cmu,引來個大V反駁。截圖幾個隨手搜來的例子

後來被8了,低調了許多

他也曾自己說過,正是因為有匿名,和網路的雙重保護,所以可以為所欲言,暴露自己內心的想法。

至於研究成果,他個人最得意的是lightlda,他曾揚言有了這個後別的paper都不用看了。這個工作的貢獻值得肯定,但絕對不是開山或者填坑之作。他所謂O(1)是在損失了很大精度下完成,而且要拿到他paper里的速度,需要大量的工程優化。在沒有公布代碼的前提下,很難重複結果。(例如cmu的smola組曾嘗試過,但得到的結果遠差於paper里所稱,也在微博上引來了老師木的一頓攻擊。)這些局限直接導致了這個工作很難列入一流成果。但可以預見之後有會後續工作進行改進。例如最近朱軍老師組就出了warplda。

我個人覺得是老師木心理比較扭曲:1. 你們都sb,2. 我比你們都nb,3. 你們都不要來惹我,不然我就罵。他的前任老大也曾私下表示過類似的觀點。所以對於我個人而言,離這個人能有多遠就多遠。


發現純負面評論很少有贊,的確匿名點贊比較麻煩。其實學術界很難公開評論,尤其對人物,畢竟同行相輕,公開負面評論對評論者幾乎毫無益處,除非實力完全碾壓或者揭露醜聞之類的。感覺此帖已經成了熟人帖,跟之前罵July的帖子完全相反,因為大部分評論者與July在學術上基本沒有利益相關,而July很難在學術層面上報復。知乎的機器學習的bar看來也就這麼高了。


和我在July那個問題里的答案一樣:

評論一個人的機器學習水平,看他在colt、icml、nips、jmlr上發表的論文數即可。


曾經做過他的實習生,十分感激在開始做研究的時候遇到這樣一位真心熱愛研究,專註於有價值的問題,技術紮實的好老師,他在機器學習方面一些獨到深刻的見解至今讓我受益匪淺。

現實中袁老師還是很低調,很誠懇的,給出的建議都十分中肯。

袁老師不妥協於publication list的長度,追求得是解決真正值得解決的問題, 一個內心篤定的研究者!


技術水平實際低於吹牛逼,人也不行,看他跟July居然是好友就可以看出,而且對於阿里刷月餅儼然一種小事。


之前在MS實習的時候,問過mentor「老師木」是何方神聖,mentor告訴我此君微博大V,指點江山,但是生活中低調許多。

後來聽過他給的talk,思路清晰,深入淺出。

再後來一起在MS食堂吃飯時,問過他為何微博昵稱叫「老師木」,他半壞笑地解釋道,若干年以前有個叫「木子美」人,老師木的「木」字來自於此。

總而言之,人很nice,現實中不如微博上那般高調。不是他的實習生,不是他的親人,後面兩問就沒法回答了。


要就某方面評價一個人,評論者至少要在該方面和被評論者水平相當,要不然就是胡扯。本人推測,就機器學習來說,知乎上能評價老師木的人應該有,但估計兩隻手就能數過來。

老師木機器學習方面水平高低我不敢亂說,但前面答案的一個觀點我很贊同「老師木是我見到的很少真正熱愛學術,有學術追求,並且不斷自我學習的人」。


學渣木資格討論老師木學術水平。只能說師兄超級超級超級NICE,對師弟師妹們很照顧,熱心給指導和建議。當然,也是認識人裡面微博和平時感覺差異最大的一位,起初壓根不敢相信是同一個人。


推薦閱讀:

Deepmind的Alpha Zero是如何把各種棋類規則融入神經網路的?
NIPS 2016有什麼值得關注的呢?
為什麼CNTK知名度和普及率不如Tensorflow、Theano、caffe、Torch?
faster rcnn中rpn的anchor,sliding windows,proposals?
目標檢測SSD相對於YOLO與faster-RCNN做了哪些改進?效果如何呢?

TAG:機器學習 | 微軟亞洲研究院 | 深度學習DeepLearning |