有哪些在機器學習數據挖掘方面造詣頗深的中國高校教師?
本題已加入知乎圓桌 ?「機器學習 · 學以致用」,更多「機器學習」相關話題討論歡迎關注。
僅從頂級會議(ICML,NIPS,再加上更理論的COLT)角度考慮,國內機器學習界幾大山頭:
南大周志華老師
上交張志華老師
清華朱軍老師
港科楊強老師
浙大何曉飛老師
另外列出幾個目前(暫時)在國內工業界工作的世界級機器學習大牛:
百度的Tong Zhang,已經離職的Kai Yu
阿里巴巴的Rong Jin, Shenghuo Zhu (Shenghuo的名氣可能較其他幾位略小,但他卻是我見過的learning theory和coding結合最好的人之一)
滴滴的Jieping Ye
我就服這個人,中國大陸土生土長,兩年博士畢業,在國外呆過的最長時間也就2個月,一手創建了中國大陸最好的機器學習團隊,一年有20篇ijcai12篇aaai,即將成為ijcai第一位來自中國大陸的主席,他還對西瓜情有獨鍾。
刪了,低調啊..
上海交通大學的張志華教授, Prof. Zhihua ZHANG
主要研究的是統計學習與數值優化,為人非常低調,功力十分深厚。
鑒於張老師的低調,大家自己看他的publication list就可以了,溢美之詞不多說。
補充一個做理論的,北大王立威老師,IEEE AI"s 10 to watch 2010
http://www.cis.pku.edu.cn/faculty/vision/wangliwei/
南大周志華團隊
清華張鈸朱軍團隊
清華張長水團隊
北大王立威團隊
僅從其數學方面的功底來說,張潼。
沒有國外大牛背景、完全在中國大陸本土成長、又在國際上有地位的,只有南大周志華老師吧。從圈內聽說不少八卦,有人學問一般,高徒出名師,有人學問不錯,做人糟糕。周老師學問人品做人做事都是榜樣,圈內老少專家對他都信服,很了不起。
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高級研究員和主管,主要研究領域是信息檢索,自然語言處理和統計學習。近年來,主要與人合作使用機器學習方法對信息檢索中排序,相關性等問題的研究。曾在人大聽過一場他的講座,對實際應用的問題抽象,轉化和解決能力值得學習。
周志華:Zhi-Hua Zhou"s Homepage,是南京大學的傑青,機器學習和數據挖掘方面國內的領軍人物,其好幾個研究生都進入了美國一流高校如uiuc,cmu等學習和深造。周教授在半監督學習,multi-label學習和集成學習方面在國際上有一定的影響力。另外,他也是ACML的創始人。人也很nice,曾經發郵件諮詢過一個naive的問題,周老師還在百忙之中回復了我,並對我如何發郵件給了些許建議。
楊強:http://www.cse.ust.hk/~qyang/,香港科技大學教授,也是KDD 2012的會議主席,可見功力非同一般。楊教授是遷移學習的國際領軍人物,曾經的中國第一位acm全球冠軍上交的戴文淵碩士期間就是跟他合作發表了一系列高水平的文章。還有,楊教授曾有一個關於機器學習和數據挖掘有意思的比喻:比如你訓練一隻狗,若干年後,如果它忽然有一天能幫你擦鞋洗衣服,那麼這就是數據挖掘;要是忽然有一天,你發現狗發裝成一個老太婆消失了,那麼這就是機器學習。
李建中:http://db.hit.edu.cn/jianzhongli/,哈工大和黑大共有教授,是分散式資料庫的領軍人物。近年來,其團隊在不確定性數據,sensor network方面也發表了一系列有名文章。李教授為人師表,教書育人都做得了最好,在圈內是讓人稱道的好老師和好學者。
唐傑:Jie Tang (Tang, Jie) "s Homepage,清華大學副教授,是圖挖掘方面的專家。他主持設計和實現的Arnetminer是國內領先的圖挖掘系統,該系統也是多個會議的支持商。
張鈸:http://www.csai.tsinghua.edu.cn/personal_homepage/zhang_bo/index.html 清華大學教授,中科院院士,。現任清華大學信息技術研究院指導委員會主任,微軟亞洲研究院技術顧問等。主要從事人工智慧、神經網路、遺傳演算法、智能機器人、模式識別以及智能控制等領域的研究工作。在過去二十多年中,張鈸教授系統地提出了問題求解的商空間理
論。近年來,他建立了神經與認知計算研究中心以及多媒體信息處理研究組。該研究組已在圖像和視頻的分析與檢索方面取得一些重要研究成果。
劉鐵岩:http://research.microsoft.com/en-us/people/tyliu/ MSRA研究主管,是learning to rank的國際知名學者。近年逐步轉向管理,研究興趣則開始關注計算廣告學方面。
王海峰:Haifeng Wang (王海峰) 信息檢索,自然語言處理,機器翻譯方面的專家,ACL的副主席,百度高級科學家。近年,在百度主持研發了百度翻譯產品。
何曉飛:Xiaofei He 浙江大學教授,多媒體處理,圖像檢索以及流型學習的國際領先學者。
朱軍:http://www.ml-thu.net/~jun/ 清華大學副教授,機器學習絕對重量級新星。主要研究領域是latent variable models, large-margin learning, Bayesian nonparametrics, and sparse learning in high dimensions. 他也是今年龍星計劃的機器學習領域的主講人之一。
吳軍:http://www.cs.jhu.edu/~junwu/ 騰訊副總裁,前google研究員。著名《數學之美》和《浪潮之巔》系列的作者。
張棟:張棟_機器學習的微博 新浪微博 前百度科學家和google研究員,機器學習工業界的代表人物之一。
戴文淵:Wenyuan_Dai - Apex Data Knowledge Management Lab 現百度鳳巢ctr預估組leader。前ACM大賽冠軍,碩士期間一系列transfer learning方面的高水平論文讓人瞠目結舌。
我也長見識了
上面一些人說了高校的做機器學習的大牛,我來說下中科院的。中科院做機器學習的課題組很多,主要分布在計算所,軟體所,自動化所。
計算所的中科院智能信息處理重點實驗室,
大牛有陳熙霖,山世光,諸葛海等。
自動化所的模式識別國家重點實驗室的譚鐵牛團隊,李子青團隊,劉成林,王飛躍,田捷,楊柳青等,我說出名字的幾個人全部都是IEEE FELLOW,這個是表現實力最有說服力的。
軟體所的計算機科學國家重點實驗室,跟機器學習關係比較大的主要做計算機視覺圖形學的吳恩華團隊吧,我了解的不是很多。
聲學所的中科院語音識別與內容理解重點實驗室的顏永紅團隊,這個團隊主要以工程實現為目標,不怎麼發文章。顏永紅老師是國內中文語音識別的扛把子,以前英特爾的首席科學家。
張棟博士,最早把機器學習技術應用在中國互聯網的一批人,曾在Google、百度任職,現在做自己的事情,並在北郵擔任客座教授。對於機器學習有非常充沛的實踐經驗。
1月12日,他應邀在拉勾之夜做了非常精彩的演講,講述了自己在機器學習方面的經歷及以後想做的方向。
以下是演講全文:
張棟:我看到的機器學習及其應用
我是2007年博士畢業的,應該是最早把機器學習技術應用在中國互聯網的一批人。其實在過去很多年,國外很多互聯網和金融公司已經大量使用機器學習技術。中國的互聯網公司大規模使用機器學習技術是從2007 - 2009年開始的。什麼是機器學習?機器學習這個詞是和大數據連接在一起的:大數據的作用,從本質上講,是提升各行各業的效率,而機器學習是求解大數據問題最有效的工具。
2007 年到 2009 年,我在谷歌工作,當時我們在中國建了一個小的機器學習研究小組。剛開始主要做的是一個通用的個性化推薦引擎,這個引擎支撐了谷歌在全球的十幾個產品。在 PC 時代,這個技術在當時來看其實還是有點早,因為當時還沒有移動互聯網。在移動互聯網時代,個性化引擎變得非常重要!因為手機屏幕小,每屏展示的內容少,個性化變得特別重要。移動互聯網,基於機器學習的個性化引擎技術催生了幾個公司,比如在新聞資訊領域的今日頭條、在短視頻領域的快手和美拍、在電商領域的什麼值得買、美麗說和蘑菇街等公司,這些公司都是伴隨移動互聯網起飛的,後台都有一個強大的個性化引擎。
2009 到 2011年,我去了百度,當時負責百度的搜索變現系統:鳳巢。我們通過機器學習技術提升搜索廣告的點擊率:在同樣搜索量情況下,通過機器學習演算法產生更多的有效廣告點擊,提升收入。2009 到 2011年是百度發展的黃金時期,兩年股價增長了十幾倍。
2011年之後,我個人的興趣是想通過機器學習演算法構建一套新的搜索引擎。因為最早的搜索引擎是構建在「規則」系統之上的,規則從幾百個到幾萬個,由很懂用戶體驗的產品經理設計,早期效果很好!但是隨著互聯網發展,互聯網上的內容爆炸,規則系統遠遠不能滿足網民的搜索需求,尤其是長尾信息需求。所以我思考:上億用戶每天在互聯網上產生大量的行為數據,實際上可以非常好地作為搜索引擎模型的訓練數據。這些行為被瀏覽器記錄,所以基於瀏覽器行為是可以做出更加強大的搜索引擎的。基於這樣的想法,我們開發了基於瀏覽器的搜索引擎,事實證明,這個系統可以在很短的時間之內趕上甚至超過基於規則系統的搜索引擎。
上面是我以前做過的事情,我在想以後做什麼?正好趁這個機會,我把一些想法總結下來。
第一是金融大數據:我在 2007年 博士畢業的時候拿到過一家量化對沖基金公司的 offer,他們當時招聘做機器學習的人,因為他們認為大數據和機器學習技術能夠對交易決策產生很大幫助。在華爾街有一些基於機器學習的基金:通過大量的股價變動數據和一些外部數據可以學習出一個模型,通過模型預測股票等價格走勢。實踐證明大規模機器學習技術能夠非常穩定地從交易中賺錢: 我覺得這可能是機器學習技術環節最少的一個商業模式。
另外一個機器學習在金融領域應用是徵信。谷歌的 CIO 創建了一家公司,用互聯網大數據刻畫一個人的徵信。徵信系統原來都是基於線下數據,現在加上一些線上互聯網數據對人的徵信描述會更加全面。
第二是癌症大數據:我和一些醫生交流,發現醫生的知識有一定局限性,因為每個醫生接觸的病人樣本是有限的,通過他接觸的病人樣本,在腦海中形成一個模型。由於醫生見到的病人樣本不夠多,故而這個模型的能力也是有限的。所以我在想,如果將這些數據樣本打通,通過機器學習訓練出一個模型,這個模型應該是比每個醫生的模型都要強大的。 谷歌在這方面投資非常多,它給一個創業公司投資了大約1.7億美金,收集大量的癌症數據。然後通過癌症數據,發現一些癌症的知識:比如如何把基因型和表型連接起來等等。能把機器學習應用在醫療領域,對於我們做機器學習的人是一件很興奮的事情!如果有同學對這個方向有興趣,我覺得這是一個可以長期做的方向。另外提一下,包括百度在內,很多公司和個人也捐獻了很多錢去收集癌症數據,因為目前癌症治療方案和藥物大多是按照西方人的數據來做的,但實際上亞洲人的基因和西方人的基因有很大差異。只有收集大量的亞洲人基因,才能建立起更準確的基因型和表型之間的連接,這樣才能做更加精準的個性化治療。
第三個領域是輔助駕駛:這是我非常感興趣的一個方向。大家可能最近在微信上看到過一個傳播很火的視頻,一個16歲的美國少年極客在自己的車上裝了幾個便宜的senser,把自己的駕駛行為記錄下來,然後把senser的信息也全部記錄下來,訓練出一個駕駛員模型,來模擬一個駕駛員怎樣開車:這本質上是一個機器學習問題。大家想想,人在學習開車的過程中也是根據各種情況來決定採取相應的操作。我認為未來自動駕駛一定會變成現實,特別在一些特定路段和特定場景,自動駕駛和半自動駕駛技術一定會非常普及。
最後一個領域是國家安全。國家擁有最多的大數據,如果能夠把這些數據有效利用起來,我覺得國家的很多決策會變得更加高效。如果我有幸能為國家大數據做一些事情,我覺得是非常幸運的。
以上基本上總結了我看到的一些機器學習應用。
最後總結一下:今晚有很多同學到現場,有很多是工程師,也有很多是做機器學習的同學。我想跟你們說幾句話。我們真的非常幸運,作為技術人,如果早生十年,當時沒有足夠快的運算和足夠大的數據,做機器學習的無用武之地;如果晚生十年,好玩的機器學習難題可能都被前人解完了,會很無聊。我們正好處在這個時代:有很多有趣的問題等待我們去解決。我們確實非常幸運。既然我們有這個能力,我們就承擔時代的責任,一起用機器學習技能做一些有趣的事情!
謝謝大家!
張棟博士本人非常認真嚴謹,演講後跟我對文稿時來回修改,確保字句和標點符號使用準確。小事情上體現出讓人感動的態度。
版權所有,禁止轉載。鑒於某些方面的因素,不得已將本答案刪除,有需要了解請私信。
這麼多人回答,說的都挺好。不過,怎麼就沒有人說 @劉知遠 老師呢,真是有眼不識泰山。
補充一個數據挖掘方向
吳信東http://www.cs.uvm.edu/~xwu/home.html 英國愛丁堡大學博士,IEEE FELLOW,AAAS FELLOW,ICDM創辦人,IEEE計算機學會(IEEE Computer Society)智能信息處理委員會的前任主任(2002.4至2006.4)。當前研究興趣包括數據挖掘(Data Mining)、基於知識的系統(Knowledge-Based Systems)、和萬維網信息探索(Web Information Exploration)。
我首先想到的就是南大周志華教授。關注他的微博,然後看他關注的人,基本上就差不多了。這兩年有個VALSE的研討會,雲集了華人圈國內外的CVML領域的年輕一代牛人們,豪華陣容,值得關注。
王威廉呢
july老師啊,雖然不是高校的,但起碼也算是搞笑的啊。
把範圍拓展到大中華區,還是私心推一下台北帝國大學的「三林」。尤其是軒田哥哥,Coursera上的《機器學習基石》,想知道多少人被「基石」兩個字給騙了XD基本上可以算是華人屆機器學習入門方面的首席佈道者。
當然軒田哥哥和守德老師率領的隊伍這幾年老是拿KDD CUP開刀,讓我這種和他呆在同一棟樓里的學渣膜拜不已。每週五組會的教室的對面就是林軒田老師的辦公室,路過的時候總是要大吸一口涼氣,心生敬佩。
其實,你真的讀paper就知道了。我剛對某個領域的文章進行了一個小結,總結了十幾篇相似idea的文章吧,結果就發現一個有趣的現象,這些文章來自四個不同的人,基本上都是灌水,而且,每個人在提新演算法的時候,都不跟自己以前發表的相似演算法做比較,完全忽視。提兩個比較明顯的人吧,一個是浙大的cai deng 跟he xiaofei,5篇文章,一年一篇,極為相似,改來改去;一個是Jiawei han,data mining的大牛,發了四篇文章,每個單獨拿出來還不錯,但是放在一起,明顯地灌水啊,而且是大灌水啊。無語了
只看技術不看為人的話,劉兵。
推薦閱讀:
※當前 Windows 用戶對新買電腦的硬碟分區的理由有哪些?
※你最虛榮的時刻是什麼樣子?
※女生適合看什麼書?
※你有哪些強迫傾向的行為?
※你有哪些話想對前任說?