視覺計算-理論還是實踐?
(題圖是 Marr的合作者 Tomaso Poggio)
這兩天, 朋友圈裡朱松蒓教授的一篇雄文"正本清源:初探計算機視覺的三個源頭,兼談人工智慧"刷了一遍屏. 據了解為寫此文朱老師醞釀了好久, 因為計算機視覺和人工智慧長期積累之後終於做出了work的東西, 需要技術產業升級續命的金融資本主義如同蒼蠅見了血,瘋狂的撲了上來.學術圈也難免浮躁, 處在這個時代的CV學生們幸也不幸.幸運的是因為人才爭奪戰,以前無人問津難找工作的AI博士們,現在一畢業就能拿到難以想像的高薪.不幸的是過於功利的時代,本該打好基礎的學生階段大家都忙於不求甚解玩數據調參快速發文章,如果將來做研究難免後勁不足.
借一句師妹的評論: 朱老師一出場自帶千軍萬馬. 當頭棒喝也許能幫到今後想從事科研的CV學生. 朱老師的文章里提到了CV創始人David Marr(本文按中文起名習慣譯作馬大衛)的視覺計算理論. 勾起了當年回憶. 因此這裡也藉機寫一篇小文談談馬大衛先生的生平和工作.
我不久之前寫過一篇文章回顧了一下自己曾經做過研究工作. 這裡要再次感謝一下朱老師對我研究思路給予的指導. 2000年夏天朱老師在MSR china 訪問, 當時開班指點了一下我們這些迷茫中的研究眾生. 印象深刻的是, 朱老師上課一開場就說你們以前學的東西全是錯的! 並同時指出正確的路徑是什麼. 十幾年過去了, 朱老師仍然用強大的氣場鎮壓宵小, 要挑雙手大拇指來贊!
回到馬大衛先生, 網上能找到的生平介紹比較簡單, 馬大衛先生在二戰的尾巴,1945年1月出生於英國倫敦, 應當算是十分幸運的一代人. 其後有baby boom的一代嬰兒潮小弟托勢, 非常容易做出成績(類比中國生於80年代出生高峰之前的一代人較易成功).
馬大衛先生的學生階段是奔騰咆哮的五十年代. 社會發展欣欣向榮. 他中學畢業於拉格比(Rugby School)學校, 是英國歷史最悠久的私立貴族學校之一. 其後進入劍橋三一學院學習數學. 他高中和大學畢業時都拿到了額外的榮譽獎勵. 妥妥的精英學霸. 本科畢業後又對心理學產生了興緻, 跟隨英國著名神經生理學者Giles Brindley 學習. Giles在視網膜和顏色視覺的生理機制上有突出貢獻. 本人同時是個音樂學家, 還以某方面的出格行為而著稱(感興趣的請自行搜索).
經過本科碩士數學,博士研究生階段心理學,和神經生理學的訓練, 馬大衛先生於1972年獲得博士學位, 他的博士論文就是有關小腦和視覺神經生理機制的研究. 畢業後, 馬大衛先生來到了MIT. MIT是人工智慧研究的發源地, 當時是人工智慧領域的創始人Marvin Minsky在主導工作, 有一眾AI大牛.
在馬大衛的遺作視覺計算這本書的序言里提到: 他到MIT是應Minsky 和 Seymour Papert的邀請. 來到MIT之後,因為DARPA和NSF給了非常慷慨的資助, 並且有Whitman Richards和Richard Held(當時主管vision基金的人)特別關照, 可以"便宜行事", 加上一眾出色的合作者, 以及本人跨領域的背景和天分, 才做出來了開創性的工作. 以上列出的這些條件應該是搞出了不起研究的必要條件. 如果再有合適的時機加成,比如有大量的實驗結果, 而理論解釋青黃不接時. 就可以突破.
然而幸與不幸, 天妒英才, 僅5年之後, 1977年底馬大衛就被檢查出了白血病, 當時是毫無辦法治療的絕症. 在用盡各種當時的醫療手段都無法治療之後, 人生的最後一年, 馬大衛寫了視覺計算這本書. 嚴格的說, 這本書在他去世時(1980年11月17號)還沒有寫完. 部分內容是他的合作者和學生補充整理完成的, 首版出版於1982年.
我手頭的中文譯本是科學院生物物理所姚國正, 劉磊,汪雲九三位翻譯的, 出版於1988年. 姚先生的也因為癌症於2010年11月去世了. 他是受過中國傳統文學訓練的一代學人,文字功底很好, 為了翻譯這本書, 也傾注了很大的心血. 他當時主辦了針對這本書的講習班, 每一章都自己或者請人來講, 反覆討論, 務求做到充分理解. 翻譯全書幾個學者大概用了三年時間. 因此中譯本的質量也很高.
馬大衛先生在書里提過這本書是為閱讀樂趣寫的. 他說的樂趣也許是思考的樂趣, 因為這本書實在是不容易讀. 尤其對初學者, 常常會有每個字都認得, 連起來不知道在說什麼的感覺. 但是經過思考後, 尤其是體悟到其中隱含的深刻思想之後, 確實會有很大的樂趣. 每每在學界有了新的事實發現之後, 重讀這本書又會感受到以前未曾體悟的認識. 朱老師說他每年都會重讀一遍都有新發現. 此言非虛.
馬大衛在書的導論里總結, 從哲學意義上, 全書寫的是視覺的表象(representation)理論, 也就是如何從外部世界投射得到內部表示的計算框架. 因此這個計算框架是個自底向上的單向流水線. 目前應用領域裡涉及到的視覺任務, 比如物體定位, 跟蹤,識別, 三維重建等等都大概可以歸納在這個計算框架下. 對現在的這類研究工作仍然有指導意義.
另一方面, 當年就有人認識到, 人的視覺形成機制, 並不僅僅是一個被動接收的表示過程. 人與環境是互動的, 其中包含的不單單是自底向上的計算, 還有意識的參與, 自頂向下的指導和主動選擇. 視覺里有一個門派, 主動視覺就是專門做這個的. 我們當年也基於人的眼球運動的生理現象, 做了有關注意力的主動視覺計算的研究, 並歸納其為選擇性注意力形成機制的視覺. 受困於當年的計算平台, 大家只能在初級視覺里打轉, 理論並沒有多少應用價值. 而目前機器人大熱, 在相關的視覺應用中, 這一類工作應大有用武之地.
除此之外, 在2010年視覺計算這本書出了再版, 馬大衛當年的合作者,目前仍是MIT教授的Tomaso Poggio 在新版中的視覺計算框架下補充了一個學習層. 並認為學習是視覺計算高層表示中非常重要的成分. 這樣就更好的呼應了最近幾年所謂機器學習的研究熱潮.
就研究的方法論而言, 先實踐, 還是先理論,各有一派人堅持, 互相之間爭執不休, 也不大可能吵出結果. 而按照中國人的傳統智慧和後來西方哲學家總結的辯證法, 事物的發展總是在互相矛盾的事物之間搖擺並且最後螺旋上升的. 馬大衛先生三十年前就給出了視覺計算的理論框架. 但受困於當年的計算能力, 並沒有獲得多少實踐上的成功. 而最近的深度神經網路在實踐中取得了大大的成功, 卻又缺乏理論的指導. 按照事物發展的規律, 在考慮去創業掙錢發財之外, 學者們如果能靜下心來認真思考DNN背後的道理, 是否能有再一次理論突破的機會?
推薦閱讀:
※深扒人工智慧——歷史篇
※法律中的遞歸現象
※英國:臨床人工智慧數字革命一觸即發?
※阿里 A.I. Labs 三項重磅發布:開放語音後又開放 AR,還發了款路由器
※「可視化音樂」登場!讓你開始用眼睛「聽」音樂
TAG:人工智能 | 计算机视觉 | 深度学习DeepLearning |