【AI 幽靈】超 90% 論文演算法不可復現,你為何不願公開代碼?
過去幾年發表的 AI 頂會論文提出的 400 種演算法中,公開演算法代碼的只佔 6%,只有三分之一分享了測試數據,只有一半分享 「偽代碼」。這是今年 AAAI 會議上一個嚴峻的報告。科學家們正在通過「可復現性挑戰」 鼓勵復現新演算法,或研究依據論文自動生成代碼的工具。AI 將在未來扮演越來越重要的角色,我們需要信任這些 AI,那麼我們必須能夠復現它。
一個幽靈正在 AI 領域上空徘徊:復現的幽靈。
科研方法認為,科學研究應該可以讓其他研究人員在相同的條件下重現其結果。然而,由於大多數人工智慧研究人員不公布他們用來創建演算法的源代碼,其他研究人員很難做到復現和驗證。
頂會論文提出的 400 種演算法,只有 6% 分享代碼
去年,加拿大蒙特利爾大學的計算機科學家們希望展示一種新的語音識別演算法,他們希望將其與一名著名科學家的演算法進行比較。唯一的問題:該 benchmark 的源代碼沒有發布。研究人員不得不從已公開發表的描述中重現這一演算法。但是他們重現的版本無法與 benchmark 聲稱的性能相符。蒙特利爾大學實驗室博士生 Nan Rosemary Ke 說:「我們嘗試了 2 個月,但都無法接近基準的性能。」
人工智慧(AI)這個蓬勃發展的領域正面臨著實驗重現的危機,就像實驗重現問題過去十年來一直困擾著心理學、醫學以及其他領域一樣。AI 研究者發現他們很難重現許多關鍵的結果,這導致了對研究方法和出版協議的新認識。法國國家信息與自動化研究所的計算神經科學家 Nicolas Rougier 說:「這個領域以外的人可能會認為,因為我們有代碼,所以重現性是有保證的。但完全不是這樣。」 上周,在新奧爾良召開的 AAAI 會議上,重現性(reproducibility)問題被提上議程,一些團隊對這個問題進行了分析,也有團隊提出了減輕這個問題的工具。
最根本的問題是研究人員通常不共享他們的源代碼。在 AAAI 會議上,挪威科技大學計算機科學家 Odd Erik Gundersen 報告了一項調查的結果,調查針對過去幾年在兩個 AI 頂會上發表的論文中提出的 400 種演算法。他發現只有 6%的研究者分享了演算法的代碼。只有三分之一的人分享了他們測試演算法的數據,而只有一半分享了 「偽代碼」。(許多情況下,包括 Science 和 Nature 在內的期刊上發表的 AI 論文中也沒有代碼。)
研究人員說,這些缺失的細節的原因有很多:代碼可能是一項正在進行中的工作,所有權歸某一家公司,或被一名渴望在競爭中保持領先地位的研究人員緊緊掌握。代碼可能依賴於其他代碼,而其他代碼本身未發布。或者代碼可能只是丟失了,在丟失的磁碟上或被盜的筆記本電腦上——Rougier 稱之為 「我的狗吃了我的程序」 問題。
假設你可以獲得並運行原始代碼,它仍然可能無法達到你的預期。在機器學習領域,計算機從經驗中獲取專業知識,演算法的訓練數據可以影響其性能。 Ke 推測,不知道那個語音識別基準的訓練數據是什麼阻礙了她的團隊的進展。「每跑一次的結果都充滿了隨機性,」 她補充說,你可能 「真的非常幸運,跑出一個非常好的數字。」「研究報告中通常寫的就是這個。」
擊敗幽靈:從論文中自動生成代碼
在 AAAI 會議上,加拿大麥吉爾大學的計算機科學家 Peter Henderson 表示,通過反覆試驗學習設計的 AI 的性能不僅對所使用的確切代碼高度敏感,還對產生的隨機數 「超參數」 也非常敏感——這些設置不是演算法的核心,但會影響其學習速度。
他在不同的條件下運行了這些 「強化學習」 演算法中的幾個,發現了截然不同的結果。例如,運動演算法中使用的一個簡筆畫虛擬「半獵豹」,它可以學習在一次測試中奔跑,但只會在另一次測試中在地板上徘徊。
Peter Henderson 說,研究人員應該記錄更多這些關鍵細節。 「我們正試圖推動這個領域有更好的實驗程序,更好的評估方法。」
Peter Henderson 的實驗是在 OpenAI Gym 強化學習演算法測試平台上進行的,OpenAI 的計算機科學家 John Schulman 幫助創建了 Gym。John Schulman 說,Gym 有助於標準化實驗。 「Gym 之前,很多人都在進行強化學習,但每個人都為自己的實驗做好了自己的環境,這使得大家很難比較各種論文的結果。」
IBM Research 在 AAAI 會議上提出了另一種工具來幫助復現:一種自動重新創建未發布源代碼的系統,它為研究人員節省了數天或數周的時間。這個系統是一種由小型計算單元層組成的機器學習演算法,類似於神經元,用於重新創建其他神經網路。系統通過掃描一份 AI 研究論文,尋找描述神經網路的圖表或圖示,然後將這些數據解析為圖層和連接,並以新代碼生成網路。該工具現在已經復現了數百個已經發布的神經網路,IBM 計劃把它們放置在一個開放的在線存儲庫中。
荷蘭埃因霍芬理工大學(Eindhoven University of Technology in the Netherlands)的計算機科學家 Joaquin Vanschoren 為創建了另一個存儲庫:OpenML。它不僅提供演算法,還提供數據集和超過 800 萬個實驗運行及其所有相關詳細信息。 「你運行實驗的確切方式充滿了無證的假設和決定,很多這些細節從來沒有成為論文。」Vanschoren 說。
心理學通過創造一種有利於復現的文化來處理它的再現性危機,AI 也開始這樣做。 2015 年,Rougier 幫助啟動了一個致力於復現的計算機科學雜誌 ReScience,NIPS 已經開始從其網站鏈接到論文的源代碼(如果有的話)。
Nan Rosemary Ke 正在邀請研究人員嘗試復現提交給即將舉行會議的論文,以實現 「可復現性挑戰」。Nan Rosemary Ke 說,近 100 個復現項目正在進行中,大多數是由學生完成的,他們可能因此獲得學分。
然而,人工智慧研究人員表示,目前的激勵措施仍然不符合可復現性。他們沒有足夠時間在每種條件下都測試演算法,或者在文章中記錄他們嘗試過的每個超參數。因為他們面臨發論文的壓力——許多論文每天都在網上發布到 arXiv 上,而且也沒有同行評審。
此外,許多人也不願意報告失敗的復現。例如,在 ReScience,所有公布的復現項目迄今為止都是正面的。Rougier 說,他也嘗試過發表一些失敗的項目,但年輕的研究人員往往不希望批評別人,失敗的項目也就無人問津了。這就是為什麼 Nan Rosemary Ke 拒絕透露她想用作基準的語音識別演算法背後的研究人員的原因之一。
Gundersen 說這種文化需要改變。 「這樣做不是羞愧」 他說, 「這只是說實話。」
如果我們想要信任 AI,必須能夠復現它
Gundersen 說,隨著人工智慧領域的發展,打破不可復現性將是必要的。
復現對於證明實驗產生的信息能夠在現實世界中一致地使用,並且得到非隨機的結果是必不可少的。一個僅由其創建者測試過的 AI 在另一台計算機上運行時或者如果輸入不同的數據時,可能不會產生相同的結果。
當涉及到機器學習演算法時,可復現性問題會變得尤其突出。有很多原因導致人們不會共享源代碼或數據:代碼可能正在完成中,或屬於公司的專有信息,再加上研究人員擔心競爭,因此機器學習演算法的可復現性較差。在某些情況下,代碼甚至可能完全丟失:電腦破損或被盜、硬碟丟了,或者被狗吃掉(可以找這種借口)。
這種情況對行業的未來不是好消息。人工智慧一直在產生令人難以置信的繁榮,並且很可能我們會在未來幾年擁有超智能的 AI,它將在社會中扮演越來越重要的角色。如果我們想讓這種美好的未來持續繁榮,我們必須信任我們實施的每一個 AI,如果我們想要信任它,就必須能復現它。
參考鏈接:http://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies
https://futurism.com/scientists-cant-replicate-ai-studies/
【2018 新智元 AI 技術峰會重磅開啟,599 元早鳥票搶票中!】
2017 年,作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源 · 生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力,獲得 2017 年度活動行 「年度最具影響力主辦方」 獎項。
其中「2017 AI WORLD 世界人工智慧大會」創人工智慧領域活動先河,參會人次超 5000;開場視頻在騰訊視頻點播量超 100 萬;新華網圖文直播超 1200 萬。
2018 年的 3 月 29 日,新智元再匯 AI 之力,共築產業躍遷之路。在北京舉辦 2018 年中國 AI 開年盛典——2018 新智元 AI 技術峰會,本次峰會以 「產業 · 躍遷」 為主題,特邀諾貝爾獎評委、德國人工智慧研究中心創始人兼 CEO Wolfgang Wahlster 親臨現場,與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓,共同研討技術變革,助力領域融合發展。
新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場,共同參與這一跨領域的思維碰撞。
關於大會更多信息,請關注新智元微信公眾號或訪問活動行頁面:http://www.huodongxing.com/event/8426451122400
推薦閱讀:
※AAAI 2018最佳論文出爐,中國留學生再下一城
※【AAAI Oral】利用DeepMind的DQN解數學應用題,準確率提升15%
※在社交媒體上曬論文,會帶來更高的引用嗎?
※論文格式要求及字體大小