象牙塔的舒適區

西瓜:今天這篇可能會有爭議,不過是發自內心的肺腑之言

注重實踐和脫離實踐

緣起是讀到何世柱博士的《讓問答更自然》:

「據我了解,真實的工程實踐上,問答系統還是使用模板和規則,很少或者根本不會用到統計模型,更別說深度學習的模型了。而目前在研究界,問答系統幾乎全部採用深度學習模型,甚至是完全端到端的方法。究其原因,我個人認為問答系統是一個系統工程,而不是一個純粹的研究任務。目前研究界對問答系統還沒有一個統一的範式(不像信息檢索、機器翻譯、信息抽取等任務),因此,未來問答系統可能需要總結出一個或幾個通用範式和流程,可以分解為若干子任務,這樣會更易於推動問答的研究發展。」

我自己也曾從事過問答系統的研究,對何博士的這個觀點深表贊同。但是也有觀點認為,學術界和工業界的評價標準本來就不同,發論文和做工程的套路本來就不一樣。也有觀點把做工程看成大多數在處理邊邊角角的情況,並沒有什麼創新性。另有一種觀點認為,學術研究最重要的是給人帶來了什麼啟發,而不是處理了什麼問題。

其實我本人在很多年以前,也有類似的觀點。但是隨著經驗的積累,發現這種留在象牙塔的舒適感,對真正達到第一流的研究,是有害的。

幾位導師的啟發

在我成長的過程中,有幸得到幾位領域內最優秀的學者的指引。正是他們告訴了我,不能把學術前沿研究和工程實踐割裂開來,不能以學術界和工業界的評價體系不同,就去研究「屠龍之技」,自娛自樂。從實踐中來,到實踐中去,才是培養第一流研究的根本。

Jim Hendler

我在RPI的導師是Jim Hendler,語義網領域的奠基人。RPI的學風就是理論聯繫實際,強調學生的動手能力。 Jim本人格外強調工程的可實現性;強調做任何一個研究,先做現實世界的調查研究。當初在設計OWL語言(一種知識表達語言)的時候,有人認為應該從邏輯表達的理論性能出發來設計。Jim則認為,應該看看現實的網路世界裡,人們在用什麼方式表達。那些理論上完美的表達,如果人們不會用、不屑用、不明白,又有什麼意義呢?

他帶著學生去做應用統計;他向各行各業的人去普及和教育OWL,並從中獲得反饋。他非常關注工業界的進步,如RDFS++、RDFa這些實踐的總結,並融入了到研究中去。知識表達可能是最抽象的一種研究,但是Jim並沒有因此把它看成一個純學術的行為。之後的實踐也證明了這個路線的正確性。

OWL2這樣的從理論優美出發的語言,並沒有被實踐認可,而知識圖譜這類符合Jim路線的方法得到了發揚光大。

Tim Berners-Lee

我在MIT DIG實驗室師從Tim Berners-Lee,是Web的發明人。Tim是美國科學院和工程院兩院院士,所有科學榮譽拿了個遍(包括最近的圖靈獎)。他也同樣注重工程實踐,我曾目睹過他親自教實習生寫程序,從很具體的細節入手來理解Web科學的理論。

Tim極為重視工作的實踐可操作性。當初語義網的主流的語法是RDF/XML,一種很繁瑣而難懂的語言。Tim就親自操刀來簡化,設計了N3,並最終演化為Turtle,現在已經成為最常用的語法。當時的邏輯表達語言(如RIF)也過於注重形式化的理論優美,而忽視現實的可用性。Tim又帶著大家設計了AIR語言,用更簡潔實用的形式去滿足真正來自現實的需求(我參與了其中的語義模塊)。

Tim做研究,一貫自己動手做實現,他寫了語義瀏覽器Tabluator和推理機cwm。他做研究,首先考慮的是現實中的人,他們會怎麼來用我的創造?三十年前他發明Web就是基於這個理念,之後三十年他的科學實踐,也一直是這個思路。

David Karger

MIT DIG實驗室的隔壁是David Karger的實驗室,和David及他的學生也有很多交流。他早年做演算法出身,一個著名的蒙特卡洛演算法以他命名(Karger演算法)。近年來他逐漸關注演算法的可應用性,其研究對知識圖譜和搜索都產生了巨大的影響。在領域內大多數人都從機器角度思考問題的時候,他則想,使用這些語義數據的人是怎麼樣的?怎麼讓他們能更好理解數據、使用數據?語義數據到底在軟體應用中起到什麼核心作用。他從認知和人機交互的角度去實踐。

他是最早一批認識到分面瀏覽器的意義、及其與語義數據關係的學者。他領導設計了Haystack,Exhibit這些實用的系統。這些系統又深刻影響了Freebase的設計,並隨著Freebase被谷歌收購,影響著今天每一個人用的谷歌知識圖譜和搜索引擎。David並不把理論和實踐割裂開來——其實這可能也是MIT一貫的風氣,在MIT動手實踐、通過現實應用來檢驗研究幾乎是融入研究血液的一種習慣。

Mike Dean

在BBN訪問期間,我的導師是Mike Dean。作為DAML工作組的主席,他也曾為語義網領域的誕生做出了傑出的貢獻。但是貴為主席也不能阻礙他去親自動手實踐。他開發了DAML的爬蟲、閱讀器、資料庫、移動端(那可是2000年)、HTML擴展、地理應用等等各種工具,通過具體的可用性研究來確定語言設計的取捨。

我第一次和Mike合作是用Semantic wiki來做知識庫構造。和大多數學者不同,Mike建議我們先做實踐的可行性研究,真的搭一個最小化系統,找非專業人員來實操,發現真正的瓶頸在哪裡。這個方法可以說救了我們,讓我們在之後的研究中少走了很多彎路。

後來,我和他合作做一個純而又純的理論研究:語義資訊理論。他同樣是先和我一起從use case的構造開始,他自己動手寫了很多案例。在我們得到了理論框架後,他就開始想具體的應用場景,諸如保密通信、信息壓縮,並思考真正的應用的瓶頸在哪裡。Mike是一位偉大的科學家,但是在臨終遺囑里,他都沒有忘了實踐,號召大家給維基媒體基金會和萬維網基金會捐款。

實踐檢驗真理

這些世界級的學者,身體力行、言傳身教,告訴後輩們,什麼樣的研究才是有意義的研究,我們怎麼才可能得到研究的靈感,獲得第一流的成果。他們從來不把理論和工程割裂開來,而是把工程作為理論的土壤。當他們發現工業實踐和學術界脫節的時候,不是以「評價標準不同」為借口,不關心實踐而留在象牙塔里悶頭髮論文,而是興奮起來,因為實踐的瓶頸就是理論突破的金鑰匙啊!

實踐是檢驗真理的唯一標準!

留在象牙塔的舒適區,就是謀殺自己的生命。

想要八卦更多西瓜的故事?我們誠摯邀請你加入【文因學堂金融極客群】,參與文因學堂核心粉絲的交流圈。添加學委微信號 qgyx123,附上姓名、所屬機構、部門及職位,審核後會邀請您入群。

推薦閱讀:

四五歲的小孩子可以開始培養閱讀習慣了嗎,可以從哪些書開始?
為什麼特別有錢人家的孩子不會炫耀(裝逼)一般家庭的孩子卻會。?
魚龍混雜的幼兒園,到底應該怎麼選(總結篇)
如何看待現在的學生不愛運動?

TAG:教育 | 实践 | 科研 |