《機器智能的未來》系列三:Brendan Frey--當深度學習遇上基因生物學 | 將門推薦

讓機器具備人一樣的智能,賦予機器思考和推理的能力,是人類最偉大的夢想之一。60年前誕生的人工智慧幾經沉浮,今天乘著移動互聯網、雲計算、大數據的浪潮,終於進入到了全面爆發的前夜。機器智能將成為計算技術的下一次重要革命已經成為行業共識。

在將門看來,我們應該關注這場革新的關鍵要素---影響機器智能未來的核心技術、以及它們的開拓者們對於「知識和思想本質」問題的深入思考。於是我們向您推薦OREILLY對10位機器智能領域全球領先的研究者和實踐者的訪談集:《機器智能的未來》,希望在接下來的兩周,持續與您分享是什麼樣的創意和挑戰激發了這些成就,以及他們對機器智能未來的構想。

——將門聯合創始人兼CTO 沈強

本文選自《機器智能的未來》(The Future of Machine Intelligence)官方中文版第二章。 報告中、英文版版權屬於OReilly出版社。轉載已獲中文譯者認可。

英文版本下載:關注微信公眾號「將門創業」(thejiangmen),留言回復「720」,獲取鏈接。

Brendan Frey是Deep Genomics的聯合創始人之一,多倫多大學的教授,多倫多大學機器學習組聯合創始人之一,加拿大高等研究學院神經計算項目組高級成員,以及加拿大皇家社會成員。他的工作集中於使用機器學習理解基因組,以及發現基因藥物中的新機遇。

核心結論

  • 在基因藥物領域,深度學習理論的應用正在起飛:它能夠對診斷,護理,製藥以及保險領域產生衝擊性的影響。

  • 『基因型與顯性性狀的分離』,意指我們對於把基因以及疾病顯性性狀聯繫在一起這件事無能為力;這種無能為力阻礙了我們利用基因學來發揮出藥物的最大潛力。

  • 深度學習能夠引入劇增的數據:多虧了模型多隱層的結構,我們找到了能夠描述基因型和顯性性狀關聯性的複雜生物學過程,在二者之間架起了一座橋樑。

  • 深度學習已經成功應用於那些人類天生擅長的領域,比如圖像識別、文本和語言理解。然而人類的大腦並不是天生為理解基因組而設計的。這種差距的存在,決定了處理基因問題必須使用」超人類智能"。

  • 該領域的成果必須歸功於內在的生物學機制;過於簡單、過於"黑盒"的方法,只能帶來十分有限的價值。

問:讓我們先聊聊您的研究背景吧!

答: 我在1997年跟Geoffrey Hinton完成了博士學位的學習。我們共同完成了深度學習早期文章中的一篇,並發表於《科學》雜誌,這篇文章是最近大部分無監督學習以及自編碼機工作的先驅。在那個時候,我集中在計算機視覺、語音識別和文本分析等領域進行研究。同時,我也致力於研究在深度學習框架內的信息傳播演算法。在1997年,David MacKay和我完成了『環狀信念傳播』(或者叫做『加法-乘法演算法』)方面最為早期文章中的一篇,並在機器學習頂尖會議——神經信息處理系統會議(NIPS)上發表。

在1999年,我成為了滑鐵盧大學計算機科學系的一名教授。然後在2001年,我加入了多倫多大學,並和其他幾名教授一道,創立了機器學習研究組。我的研究組在深度架構中研究機器學習以及統計推斷,使用了基於變分法、消息傳播演算法以及馬爾可夫鏈蒙特卡洛模擬(MCMC)的方法。我經年累月的講授了一系列關於機器學習和貝葉斯網路的課程,參與的學生多達上千人。

在2005年,我成為了加拿大高等研究學院中神經計算項目組中的高級成員。這是一個令人激動的工作機會,有機會和這個領域的領袖們一起工作以及分享思想,這其中包括Yann Lecun,Yoshua Bengio,Yair Weiss,還有這個項目的主任 Geoffrey Hinton。

問:什麼原因導致了你開始研究基因組?

答:這是一個非常私人化的故事。2002年,在多倫多大學擔任教職數年以後,我的妻子和我發現,那時她懷著的孩子有一個基因問題。我們遇到的顧問並沒有把問題講的很清楚——她只能大概暗示,要麼什麼事情都沒有,要麼問題極其嚴重。這段因為多種原因顯得異常困難的人生經歷,跟我的職業生涯形成了鮮明的對比:從任何角度來看,我當時的主要工作——在Youtube視頻中檢測貓——都顯得太微不足道了。

我從中學到了兩課:首先,我希望能夠使用機器學習,提高面臨此類基因問題的數以億計的人類的生活水平。其次,降低不確定性是非常有價值的:給一個人消息,無論是好是壞,他們都能自己針對消息來做準備。而相較之下,『不確定』在通常情況下就很難處理了。

在經歷了這兩課以後,我腦中科研工作的目標就變了。我的工作集中在使用深度學習來理解基因如何工作。

問:為什麼你覺得機器學習結合基因生物學如此重要?

答:基因生物學,作為一個獨立的研究領域,正在源源不斷的產生數據。你很快就能幾乎足不出戶地使用一台比手機還小的設備來完成你的基因測序。基因本身還只是故事的一部分:大量的數據是用於描述細胞和組織的。我們作為人類,有些難以掌控這些數據,因為我們並不足夠『理解』生物學。但機器學習可以幫我們解決這些問題。

與此同時,機器學習社區中很多其他成員都意識到了這種需求。在去年機器學習的高級會議上,四位與會討論者,Facebook人工智慧主任Yann LeCun,DeepMind聯合創始人Demis Hassabis,謝菲爾德大學的教授Neil Lawrence,以及來自Google的Kevin Murphy,都指出醫藥就是深度學習的下一個前沿話題。

為了達成目標,我們就得建立『基因型』和『顯性性狀』之間的關聯。基因數據和顯性性狀數據要綁定在一起。然而非常不幸的是,就算是現階段綁定這類數據的最佳方案,也會包含大量又慢、又貴、又不精確的文獻查詢工作和分子生物學實驗工作。為了避免這種情況,我們需要這樣一種系統:它能夠描述所謂中間態的顯性性狀,即『分子顯性性狀』,讓它成為用基因型理解顯性性狀的敲門磚。在這個系統里,機器學習不可或缺。

如我們所述,已經有新一代年輕研究者使用機器學習來研究基因型如何影響分子顯性性狀了,比如Stanford大學Anshul Kundajes的研究小組。再列舉一些這個領域的領軍人物吧:多倫多大學與哈佛大學的Andrew Delong,Babak Alipanahi,以及David Kelly在研究蛋白質和DNA的交互作用;麻省理工學院的Jinkuk Kim在研究基因表達;華盛頓大學的Alex Rosenberg正在建立一種能夠檢測數以百萬計的基因突變及其如何影響基因剪接的實驗方法。與此同時,我也樂於見到像Atomwise、Grail等等在該領域蓬勃發展的初創公司。

問:當你開始研究基因組時,這個領域發展到什麼狀態了?

答:(當時)研究者在廣泛地使用簡單的『線性』機器學習方法,比如支持向量機、線性回歸,通過患者的基因表達數據來預測癌症。從設計上講,這些演算法技巧都是『淺層』的。每次給模型輸入一個樣本數據,就會簡單的產生『確診』或者『不確診』兩種結果。這種方法沒有考慮到生物學的複雜性。

在1990年代和2000年代早期,使用隱馬爾可夫模型或者類似的技術分析基因序列開始流行起來。Richard Durbin和David Haussler的小組在這個領域是領先的。大概就在同時期,麻省理工學院的Chris Burge研究組發明了一種能夠檢測基因的馬爾可夫模型,這種模型可以推斷出基因的起始位置,以及不同基因部分(被稱為『內含子』和『外顯子』)之間的邊界 。這些方法在底層的基因序列分析上相當有用,但是他們並沒有填補『基因型與顯性性狀分離』這一鴻溝。

寬泛來說,當時研究的形態,就是由簡單的『淺層模型』技巧驅動的,並不能充分描述關於基因序列編碼如何轉化為細胞、組織、器官這種底層生物機制。

問:研發足以描述底層生物機制的計算模型意味著什麼?

答: 為了將『基因型』和『顯性性狀』聯繫在一起,一種流行的做法是尋找疾病和基因突變的相關性,被稱為 『全基因組關聯分析』(GWAS)。這種方法也是『淺層』的,它沒有考慮到從基因突變的產生髮展到疾病的顯性性狀中間涵蓋的多個生物學步驟。GWAS也許可以識別出哪些DNA區域是重要的,但是多數由它識別到的基因突變與疾病毫無因果關係:在大部分情況下,就算你能夠『修正』這個突變,往往也不能影響疾病的顯性性狀表達。

一種全然不同的方法揭示了處於中間狀態的『分子顯性性狀』。就拿獲取基因表達舉例:在活體細胞中,當蛋白質與上游DNA序列以某種形式互相作用的時候,某個被稱為『啟動子』的基因就會被表達。一個尊重生物學的計算模型應當涵蓋這種『從啟動子到基因表達』的因果鏈。在2004年,Beer和Tavazoie合著了一篇我認為極具啟發性的論文。他們希望通過酵母中的啟動子序列來預測每一個酵母基因的表達水平:先從啟動子序列中推導出輸入特徵,然後形成因果邏輯的閉環。儘管最終他們的方法沒有奏效,但這種努力十分有吸引力。

我組的研究方法受到了Beer和Tavazoie工作的啟發,不過有三個地方不同:

· 我們檢查了哺乳類動物的細胞;

· 我們使用了更高級的數據挖掘技巧;

· 我們的工作集中在基因剪接上,而非基因轉錄上。

回顧起來,最後一點選擇的不同算得上是事發偶然。基因轉錄比基因剪接更難以建模。基因剪接是一種這樣的生物過程:基因的某些部分(那些『內含子』)被去除了,剩下的部分(那些『外顯子』)被連接在一起。有些時候外顯子也會被移除,這種情況會對顯性性狀造成巨大影響,比如產生神經障礙或者癌症。

為了用機器學習來破解基因剪接之謎,我的團隊與一名卓越的實驗生物學家Benjamin Blencowe所帶領的小組通力合作,建立起了一套框架,能夠從基因序列中抽取生物學指標,對充滿雜訊的數據進行預處理,並訓練『根據DNA序列預測基因剪接模式』的機器學習模型。這部分工作相當成功,而且有數篇文章發表於《自然》雜誌和《科學》雜誌。

問:基因組學和機器學習應用的其他領域有什麼不同嗎?

答:我們發現,相較於視覺、語音和文本處理,基因組學牽涉到的挑戰是獨一無二的。大量機器視覺演算法的成功,是建立在『被分類的物體佔據輸入圖像的主體位置』這一假設之上。在基因學中,研究難度之所以極高,是因為我們感興趣的那一部分只佔輸入整體的一個極小比例——大概百萬分之一。也就是說,你的分類器需要響應痕量的信號,其他的部分到處都是雜訊。更糟糕的是,這種雜訊相對來講也是有結構性規律的大段片段,但它們都與分類任務無關。這就是基因組學研究中的問題。

基因組學更令人關心的複雜性在於,我們自己並不真正了解如何翻譯基因。當我們檢查一個典型圖片的時候,可以很自然的識別出圖中的物體,更進一步地,我們就知道演算法需要去尋找什麼。這一點對於文本分析與語音處理同樣有效,這些都是我們『對真實有把控力』的領域。與之形成鮮明對比的是,人類不是與生俱來的能翻譯基因——實際上我們做的非常之差。所有這些就是為了說明,我們必須要轉而發展真正的『超人類智能』來突破人類的極限。

問:能向我們多講講你圍繞醫藥的研究工作嗎?

答:一開始,我們在沒有任何疾病數據的情況下,嘗試預測分子顯性性狀的訓練。一旦模型訓練好之後,我們意識到這個系統實際可以對疾病做準確的預測了:這個系統學習到了細胞如何讀取DNA序列並將其轉換為分子。一旦你有了一個能夠說明『事情如何正常工作』的計算模型,你就能用它來檢測『事情何時跑偏』。

然後我們就把研究系統轉到了疾病突變的大數據集上。假設在DNA中一些特定位置發生了突變。我們把突變前後的兩段DNA序列輸入給系統,並對分子顯性性狀的輸出結果進行比較。如果我們觀測到了很大的不同,那麼就把基因突變標記為『具有潛在致病性』。結果顯示這種方法是奏效的。

不過當然了,這種方法並非完美。首先,基因突變也許能夠改變分子的顯性性狀,但不會引起疾病。其次,這種基因突變也許不會改變被我們建模的分子顯性性狀,但通過其他方式引起疾病。第三點,我們的預測系統也當然無法做到完全精確。儘管有這些缺點,我們的方法還是能夠將『疾病』和『好的基因突變』準確分開。去年,我們在《科學》和《自然:生物技術》上發表的文章顯示,我們的方法要顯著比同領域的競爭者精確得多。

問:你的公司,Deep Genomics(深度基因),將往何處去?

答:我們的工作需要很多領域的專業技能,其中包括深度學習、卷積神經網路、隨機森林、顯卡計算、基因組學、基因轉錄學、高通量的實驗生物學,以及分子診斷學。舉例說明,我們公司的Xiong Hui研究出了用於預測基因剪接的貝葉斯深度學習演算法,Daniele Merico研發出了用於兒童病院的全基因組測序診斷系統。我們會持續不斷地招募在這個領域有才華的人。

寬泛點來講,我們的技術可以以多重形式影響醫藥界:基因診斷,優化藥物靶向,製藥,個人定製類藥品,更好的醫療保險,甚至生物合成。現在我們集中在基因診斷領域,這是我們技術的一種直接應用。通過我們的引擎,我們能夠為病患提供更多信息,讓他們以更低的成本做出可靠的決策。

更進一步來講,很多在這個領域的新技術,都需要有能力『理解基因內在工作機制』。比方說,使用CRISPR/Cas9系統進行基因編輯的能力。這種技術能夠讓我們『寫』DNA,這上面有非常大的市場。但知道『如何去寫』不等同於『知道寫什麼』:如果你編輯了DNA,可能會讓病情加重,而不是好轉。想像一下,如果你能用一個計算引擎得出在基因編輯之後一系列顯而易見的後果,那會是怎樣的情形? 坦率的說,要達到這一點,我們還有很長的路要走,但這就是我們最終的願景。

-END-

更多推薦>>《機器智能的未來》系列一:高維數據的機器學習 | 將門推薦

《機器智能的未來》系列二:Yoshua Bengio--會做夢的機器 | 將門推薦

【譯者介紹】王威揚,清華工學/經濟學學位入手後轉專業,芝加哥大學統計學畢業,誤入Machine Learning大坑,一線數據碼工。先後就職於芝大計算機系、文思海輝、京東、e代駕,混跡於數個Pre-A/天使輪項目,熟悉金融、電商、地理數據、文本數據的數據挖掘理論與實踐。

推薦閱讀:

阿爾法狗真的比人要聰明嗎?
史上規模最大的無人車道德研究:人們更傾向犧牲乘客而非行人
下一個風口:正能量演算法
微軟人工智慧又一里程碑:微軟中-英機器翻譯水平可「與人類媲美」
《奇點臨近》人機融合——人類進化的必然(上)

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning |