清華大學劉知遠:在 NLP 領域「做事」兼「發聲」
所以我時常害怕,願中國青年都擺脫冷氣,只是向上走,不必聽自暴自棄者流的話。能做事的做事,能發聲的發聲。有一分熱,發一分光,就令螢火一般,也可以在黑暗裡發一點光,不必等候炬火。此後如竟沒有炬火:我便是唯一的光。
——魯迅《熱風》隨感錄 四十一
AI 科技評論按:對於清華大學計算機科學與技術系自然語言處理實驗室團隊而言,今年或許是一個頻頻「做事」兼「發聲」的季節。清華大學計算機科學與技術系自然語言處理實驗室是由孫茂松教授領導、劉洋副教授與劉知遠助理教授協同組成的一支 NLP 研究團隊,有20餘名研究生、訪問學者和訪問學生。
今年 6 月,劉洋副教授開源的神經機器翻譯工具包,包含被選為 ACL 2017。參見: https://github.com/thumt/THUMT
10 月份,孫茂松教授發布的九歌計算機古詩作詩系統,beta1.0 版本現已上線集句詩、絕句和藏頭詩三種功能。 (頁面:http://jiuge.thunlp.org/ )
10 月底,在孫茂松教授的帶領與指導下,劉知遠與學生團隊先後開源了兩個工具包 OpenNE(Open-Source Network Embedding)與 OpenKE(Open-Source Knowledge Embedding),分別針對網路表示學習和知識表示學習進行了系統梳理。
而除了在學術領域有所貢獻外,劉知遠更為人熟悉的另一個身份是「知乎達人」。在劉知遠的不少高質量回答中,他在深入淺出回答技術問題時頻頻引經據典,旁徵博引,充分展現了他的學術和文學涵養。作為自然語言處理、深度學習、機器學習的優秀回答者,從 2013 年開始玩知乎的他,累積關注者超過 25000 人,收穫了 22206 次贊同,包括 3666 次感謝和 11109 次收藏。「作為一名工作繁忙的高校教師,劉知遠哪有時間回答那麼多問題呢?」這是 AI 科技評論筆者在調研的時候,大家最好奇最關心的問題之一。
在清華大學 FIT 樓, AI 科技評論有幸與清華大學的 @劉知遠 助理教授進行了一次對話,他向筆者分享了他工作、生活的點點滴滴。
劉知遠,清華大學計算機科學與技術系自然語言處理實驗室助理教授。主要研究方向為表示學習、知識圖譜和社會計算。
2011 年獲得清華大學博士學位,已在 AAAI、IJCAI、ACL 等人工智慧領域的著名國際期刊和會議發表相關論文 30 余篇,Google Scholar 統計引用超過 1200 次。承擔多項國家自然科學基金。
曾獲清華大學優秀博士學位論文、中國人工智慧學會優秀博士學位論文、清華大學優秀博士後、中文信息學會青年創新獎,入選 CCF-Intel 青年學者提升計劃、中國科協青年人才托舉工程。擔任中文信息學會青年工作委員會執委、副主任,中文信息學會社會媒體處理專委會委員、秘書,SCI 期刊 Frontiers of Computer Science 青年編委。擔任 ACL、IJCAI、AAAI、NAACL、EMNLP、WWW、WSDM 等著名學術會議的程序委員會委員以及 TKDE、TOIS、JCST 等著名學術期刊審稿人。
http://nlp.csai.tsinghua.edu.cn/~lzy/
OpenNE 和 OpenKE
不論是中文詞法分析工具包 THULAC、中文文本分類工具 THUCTC、關鍵詞抽取與社會標籤推薦工具包 THUCTC,或是關鍵詞抽取與社會標籤推薦工具包 THUTag 等(部分整理可參考劉知遠此前的知乎回答:目前常用的自然語言處理開源項目/開發包有哪些?),清華自然語言處理實驗室團隊此前的工作更傾向於單點突擊,所開源的項目也比較零散;而最近開源的 OpenNE 和 OpenKE,實際上是清華團隊針對過往研究的一個較為系統的梳理。雷鋒網此前也做過覆蓋與報道,可參見:清華大學團隊開源OpenKE與OpenNE工具包,助力NLP系統梳理。
清華大學博士生塗存超和本科生張正彥貢獻的 OpenNE(Open-Source Network Embedding)針對網路表示學習(NE/NRL)進行了系統梳理,統一了 NE 模型的輸入/輸出/評測介面,並修訂復現了經典的網路表示學習模型,包括 DeepWalk, LINE, node2vec, GraRep, TADW, GCN 等。
清華大學博士生韓旭、林衍凱和已畢業碩士生謝若冰於近期共同完成整理推出 OpenKE 平台,實現了 TransE 、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx 等演算法的統一介面的高效實現,此外,能面向 WikiData 和 Freebase 兩大通用 KG 全量數據的預訓練好的知識表示模型下載。
很多學者基於一些大規模知識圖譜如 WikiData 與 Freebase 開展研究工作,往往需要研究者自行訓練知識表示模型,OpenKE 則將在 WikiData 和 Freebase 全量數據上訓練的表示模型也開放出來,供大家參考和使用,避免了大量重複勞動。劉知遠表示:
「這兩個工具包主要是為了進一步推進表示學習的發展,並讓更多的人關注這個方向和相關成果,認識到表示學習的重要意義和價值。」
從今年年初,劉知遠帶領兩撥學生團隊開始分頭著手做 OpenNE 和 OpenKE,前後也經歷了近一年的時間。劉知遠認為,在高校做開源工具包的邏輯實際上與工業界有些不同,這些參與項目的高校學生往往都是 NLP 研究一線的成員,梳理工具包的過程不僅對自己是一種鍛煉,內心深處也自然多一分對這個項目的認同感,希望能在這個過程中更深入、更全面地了解 NLP 領域。此外,也有一部分團隊成員是學校的本科生,受其他課業的任務影響,整個項目的周期也屬於細水長流的類型。
除了工具包外,資料庫也是一個研究者們嘗試涉足的方向。譬如目前比較常用的 WikiData 和 Freebase,屬於大規模通用的知識圖譜,探討的是這個世界事物之間的相互關係。
像谷歌、百度這樣的搜索引擎是通用知識圖譜的真正應用場景所在,而從高校的科研力量來權衡,在劉知遠看來,他的「小目標」更傾向於從應用和實際的角度做一些規模不大、但非常重要的一些知識庫,例如語言知識圖譜。
「其實在語言上,我們也需要考慮到這種知識和關係。比如看到一件事物產生了聯想,這便是隱喻知識庫。」
在今年 ACL 2017 和 IJCAI 2017 上,劉知遠團隊都有語言知識庫的相關成果發表,本科生牛藝霖和碩士生謝若冰的Improved Word Representation Learning with Sememes,將 HowNet 義原信息引入詞表示學習,發現義原對於複雜語境下的詞義精確識別具有重要價值;本科生袁星馳和碩士生謝若冰的 Lexical Sememe Prediction via Word Embeddings and Matrix Factorization ,則提出了一種新的面向新詞的義原自動標註演算法。
利用義原更好地理解辭彙語義,進行詞義消歧等工作,在劉知遠看來是探索通用語言知識的一種嘗試,而在深度學習的新場景、新浪潮下,NLP如何充分利用人類先驗語言知識和世界知識,實現真正的自然語言理解,是非常重要的研究課題。
劉知遠曾經在知乎的回答中提及關於自然語言處理未來趨勢的看法,其中也提及了先驗語言知識與深度學習模型的融合。在彼時,團隊也在模型中考慮先驗知識的作用,並做出了一些嘗試,但在劉知遠看來,「這些工作是在一些任務上完成的,考慮的都是一些特別具體的知識。但是,如果你真的像人一樣,把關於這個世界的各種各樣的知識都裝在大腦裡面,那麼它們是如何經過融合,讓你更好理解這個世界的?」
但在 2017 年,他同樣提及了先驗語言知識與深度學習模型的有機融合對於理解世界的作用。劉知遠認為,理解世界本身是一件系統的任務,需要考慮如何用更多形式的知識並綜合地利用它們,實現各種各樣的真正的能力。
在這個提問中,劉知遠提及的另一個亮點則是近年流行起來的對抗訓練思想(GAN)的應用。目前,這一思想已經在 NMT 等模型中發揮重要作用。而針對 GAN 的流行,劉知遠認為這些機器學習思想和模型對NLP更多是工具,他更看重的是如何利用這些工具實現兼顧複雜語境下的語言理解能力。
「語言理解本身是一個結合多模態複雜場景的、豐富語境下的消歧問題,」劉知遠告訴 AI 科技評論,「僅僅從考慮文章上下文的能力來看,NLP技術還遠沒有達到一個理想的狀態。」
劉知遠表示,清華團隊過去更多在 NLP 做了一些增量性的貢獻,還需要進一步積累達到質變。「目前大家都還是在做一些分而治之的工作,也就是說,團隊先把這個問題定義明確了,然後儘可能地提升它的效率。在未來的話,學者們需要把這種更複雜的語境綜合在一起,之後才能真正解決語言理解的問題。」
「作為學生,至少我很努力了」
2002 年就讀清華本科,2011年博士畢業,到 2013 年博士後出站留校任教至今,劉知遠一直沒有離開過這座象牙塔。在不少人的眼裡,劉知遠能在國內一流學府深造,並成為桃李滿天下的人民教師,著實非常幸運。但更多人不知道的是,劉知遠的經歷並非我們所想像的那般順利,他也自嘲「自認資質普通,沒有智商和競賽等光環加成」。
劉知遠第一年高考時被南京郵電大學錄用,從山東前往南京就學。但是,當他以大一新生的身份呆了兩個月後,劉知遠覺得這兒依然「不是特別符合我對大學的期望」。
雖然南京郵電大學是一所優秀的高校,不少同學也能在研究生階段步入清華大學就讀,但劉知遠和父母在多次長談後,最終還是決定「回爐重造」,再戰高考。「三、四年後的事情其實很難預估,所以與其我去追求幾年後的一個不確定的未來,不如多花一年的時間去換一個相對確定的結果。」
這個決定在今天的劉知遠看來當然「無比正確」,但不可否認的是,這段經歷也深刻地影響了他的求學之路。由於那一屆的清華生物系和電子工程都錄滿了,劉知遠陰差陽錯地來到了計算機科學與技術系就讀,並在四年後師從孫茂松教授攻讀博士。劉知遠曾在知乎上的一個回答中如是說:「我本科屬於『三無』人員,沒有像樣的科研經歷和論文,沒有程序設計競賽經驗,成績也不突出,在年級和班級都排名1/3 左右,所以特別感謝孫茂松老師在 2005 年推研中接收了我。」
但劉知遠的博士之路也經歷了不少糾結。2006 年複雜網路理論非常火熱,因此在直博的最初兩年里,他開展了辭彙同現網路、辭彙依存網路的分析研究。
和大多數求學者一樣,劉知遠一開始的研究方向也是瞄準了最熱門的領域來做,但困擾很快便出現了:這些分析結論對 NLP 有什麼用?這成了當時劉知遠最為苦惱的問題。他徵詢了不少老師同學的意見,甚至翻遍了各種資料文獻,試圖為語言複雜網路的應用找尋成功應用的蛛絲馬跡,為這一研究方向提供例證。但現實並沒有令他滿意。
誠然,也有學者嘗試利用複雜網路做關鍵詞抽取的任務,但劉知遠認為,從理論到應用還存在著一定的鴻溝。「你做了一個漢語的複雜網路,發現了其中的一些規律和統一特徵,但有什麼用呢?這個其實我自己也解答不了,我也不希望在博士畢業的時候還是解答不了,所以最終決定調整研究重點。」於是,劉知遠仍然沿著語言網路的思路,開始利用更有效的 PageRank 等圖演算法來開展關鍵詞抽取等研究工作。
在兩年的反覆糾結後,劉知遠最終在 2008 年將博士論文的研究方向轉移到自然語言處理應用任務上來,先是做了辭彙層面的語義分析工作,在 WWW 2008 發表了 poster 工作,再擴展成一篇 PAKDD。之後,劉知遠開始做關鍵詞抽取與標籤推薦研究,直到 2009 年才發了第一篇 ENMLP (自然語言處理的三大會議之一)論文,隨後,以每年一篇 EMNLP 論文結束了博士生涯。
在 CCF 2015 年公示的人工智慧領域學術會議列表中,ACL 屬於 A 類會議,而 EMNLP 則是 B 類會議。「在那個時候,因為你的見識等各種因素的限制,你掌握不了投遞論文的技巧,(所以沒能在 ACL 上發論文,)但是並不意味著說你的實力到不了那個水平。」回看這段經歷的劉知遠告訴 AI 科技評論,「至少那四五年博士期間,其實還是挺努力的,一直在努力地想怎麼能夠做更好的研究」。劉知遠發在 EMNLP 的這三篇論文,在 Google Scholar 上的引用次數統計也達到了近 400 次,因而,他對自己的博士生涯還是比較滿意的。
雖然劉知遠一開始回憶這段經歷時,告訴 AI 科技評論,自己「印象已經不太深了」,但實際上,卻是他在整個訪談過程中聊得最多的一段內容。而近年來,越來越多的中國高校在國際頂級學術會議上嶄露頭角。以劉知遠所在的團隊為例,僅今年的 ACL 上,孫茂松教授領導的清華自然語言處理組就有7篇論文被錄用。
劉知遠表示,在他求學時期,ACL、EMNLP 這類會議的錄用結果一出來,至少他們也會第一時間去看看研究的新趨勢;而近幾年,基於交流條件的提升,信息溝通的壁壘已經慢慢消失,一篇國外的熱門論文剛出來,馬上就會有中文版本流傳;此外,通過參與國際學術會議交流學習,或是邀請海外學者來華訪問演講,中西方的信息傳遞也變得越來越快,中國高校的眼界和見識也隨之水漲船高,也間接促進了學術論文的投遞數和錄用率。
但劉知遠也指出,來自國內的論文雖然絕對數目在增加,但從相對比例上講,與國外還是存在一定的差距。「我覺得這本身也和國內研究 NLP 的群體比較少有關,也是未來需要不斷往前走的一個過程。」而這就需要高校持續地培養相應的研究人才。
「做高水平研究,其實是培養人的一個途徑,你想培養高水平的人才,那你就一定是通過做高水平研究來完成。你不可能說,你做低水平研究,你能培養高水平的人才,對吧?所以我覺得兩者是相輔相成的。高校最重要的還是培養人,它本身承擔著要持續為社會培養高水平人才的任務。」
「好為人師」的劉知遠
對於劉知遠來說,從事教師職業幾乎是一件不需要猶豫和懷疑的事情。身為老師的爺爺從小帶給劉知遠耳濡目染的影響,而劉知遠小時候最喜歡的就是當小老師給弟弟妹妹上課,也覺得當老師是一件「挺好的事」。
在劉知遠看來,留在學校的人多多少少都有些情懷在其中,畢竟工業界所給的待遇也不差,而且隨著近年來的人工智慧熱,擁有深厚學術沉澱的博士生也同樣是炙手可熱的香餑餑。「當老師這件事,但凡你稍微有點不確定,你可能也就做不了老師了。」
在學校,同學們都親切地叫他「劉導」,實際上並不是「導師」、「博導」的意思,而是「輔導員」。從本科的時候,劉知遠就開始參與學院的行政事務,研究生階段當起了輔導員,留校後,這個工作還一直伴隨著他,便有了這個簡稱。
在 AI 科技評論筆者看來,輔導員的工作非常繁瑣,實際上是一個吃力不討好的活兒。劉知遠是這樣回應的,「我覺得,如果你做的事是有意義的,其實(當輔導員這件事)還挺好。本來你在高校的目的就是為了培養人,如果能做一些對同學有益的事情,這也就是你在學校的意義。」
「這也是我『好為人師』的一種體現吧,」劉知遠在整個採訪中提了兩次這個詞。還有一次,是他用來形容自己玩知乎的動機時提及的。
劉知遠玩知乎已經快四年了,不少人認識劉知遠也同樣是因為知乎。截至目前,劉知遠擁有超過 25000 名關注者,收穫了 22206 次贊同,包括 3666 次感謝和 11109 次收藏,並被知乎認證為「自然語言處理、深度學習、機器學習的優秀回答者」,儼然成為了知乎上的一名「網紅」。
其實,劉知遠一開始在知乎上只是看看別人有信息量的回答,了解一些自己不知道的東西。「其實你這一生都不見得會去經歷別的領域的一些事情,那麼別人把自己的經歷告訴你了,我覺得挺有意思的。那麼假如你知道一些事情,把它分享給別人,而且對方也得到了幫助,我覺得挺有意思的。這也算是『好為人師』的一種吧。」
近兩年來,劉知遠開始比較頻繁地在知乎上回答問題。在共計 389 個回答中,劉知遠的回答主要是圍繞 NLP 等學術問題的探討,也有對清華、計算機學科的一些評價。雖然偶爾也愛抖抖機靈,但劉知遠自認是一個「三觀比較正」的人,或許也是因為如此,他的回答也得到了不少認可,關注者也越來越多。
劉知遠也笑稱,大家欽羨的「高產」其實是一種誤解,只不過是因為他把玩知乎當作了自己的一種愛好,而其它人花在娛樂休閑上的時間,於他而言就是花在知乎上回答問題了。
在劉知遠的不少回答中,時常能看到他引經據典、旁徵博引,這一點從他的辦公桌一角得到了證明。除了字典、教科書等工具書外,各種散文、小說也是常客。2016 年,在一個題為「有哪些值得購買其大部分作品的作家?」的知乎問題中,劉知遠是這樣回答的:「魯迅,所有的小說,散文,雜文,史論,書信,都很值得看。」而他疊在書叢最頂端的,正是《魯迅全集》的第一部,書籤夾在全書中間的位置。
在以前,劉知遠會「刻意地」閱讀經典書目,甚至還會嘗試閱讀一些比較學究的歷史古籍。但現在,他將看書當作是一種「享受的過程」,不再刻意把閱讀當作目標。「這樣不那麼費腦,比較舒服。」劉知遠告訴雷鋒網 AI 科技評論,他對自己目前的生活感到「挺充實、挺滿意的」。說完,他拿起星巴克馬克杯喝了一口水。因為經常喝咖啡,杯沿的咖啡漬看起來有一些歷史了。
劉知遠今天穿得比較正式,因為在採訪結束後,他還需要去做嘉賓的接待工作。但在熟悉的 FIT 樓實驗室里,腳上的一雙深藍色拖鞋「出賣」了他。提起這個,他不好意思地笑笑,「我們到實驗室基本就這樣,便裝還是比較輕鬆舒服。」
處於一種努力、充實而不失舒適的狀態——這也許才是一個更真實的劉知遠吧。
頭圖 via www. http://phdcomics.com
推薦閱讀
清華大學團隊開源OpenKE與OpenNE工具包,助力NLP系統梳理
一條Twitter引發的學術爭論:NLP是交叉學科嗎?
百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?
推薦閱讀:
※全面應用 linux並棄用windows的經驗分享
※我們的老羅,以及他和O.S.G 的故事
※「開源」創造者為你論述這一術語的前世今生
※Karpathy 更新深度學習開源框架排名:TensorFlow 第一,PyTorch 第二