Nature長文:當AI深度學習遇上生物學

生物探索編者按

當下,被稱為第四次工業革命的人工智慧(AI),已經滲透到各個領域。如今,它為測量和分類超級龐大的生物數據提供了強有力的工具。但對於不知情的人來說,這項技術帶來了巨大的困難。2月20日,知名期刊Nature雜誌在線發表長文《Deep learning for biology》,深度分析了人工智慧帶來的機遇和挑戰。

大腦的神經網路長期以來一直激勵著人工智慧研究者。來源: Alfred Pasieka/SPL/Getty

四年前,谷歌的科學家出現在加利福尼亞州舊金山格萊斯頓神經病研究所神經科學家Steve Finkbeiner的家門口。Finkbeiner和他的團隊使用一種名為「機器人顯微鏡(robotic microscopy)」的高通量成像策略來產生大量的數據,這些策略是他們為研究腦細胞而開發的。但團隊因無法快速分析數據而發愁。因此,Finkbeiner對合作的機會表示歡迎。

這幾位谷歌的研究人員則在谷歌位於山景城的研究部門Google Accelerated Science(GAS)工作,這個部門旨在利用谷歌的技術加快科學發現的進展。GAS的科學家們很有興趣將「深度學習」方法應用於由Finkbeiner團隊生成的影像數據。

深度學習演算法從極大的帶注釋的數據集(如圖像或基因組的集合)中提取原始特徵,並利用它們來創建一個基於隱藏在內部的模式的預測工具。一旦訓練完成,演算法就可以應用這種訓練來分析其他數據。

Finkbeiner說,這種技術可以用來「解決真正困難、複雜的問題,並且能夠看到數據中的結構——這些數據量太大,對人類大腦來說太複雜,無法理解」。他說:「當時我不能誠實地說,不清楚地了解深入學習可能會遇到的問題,但是我知道我們以大約兩倍到三倍的速度生成數據,超出了我們的分析能力。」

如今,合作開始取得成效。Finkbeiner的團隊與谷歌的科學家們訓練了一套深度演算法,其中包含兩組細胞,一組人工標記以突出了科學家通常看不到的特徵,另一組未標記。當他們後來用這套演算法來識別未標記細胞的圖像時,Finkbeiner說,「它非常善於預測這些圖像的標籤應該是什麼樣子。」

Finkbeiner的成功表明了人工智慧(AI)最有前途的應用分支之一——深度學習正在深入生物學領域。在生物學中,深度學習演算法以人類無法做到的方式深入研究數據,發現人類可能無法捕捉到的特徵。研究人員利用這些演算法對細胞圖像進行分類,建立基因組連接,加速藥物發現周期,甚至可以找到不同數據類型的鏈接,從基因組學和成像到電子病歷。

BioRxiv上有超過440篇文章討論深度學習,PubMed網站在2017年列出了700多篇與深度學習有關的參考文獻。這些工具正成為生物學家和臨床研究人員廣泛使用的工具。但是,研究人員在理解和使用這些演算法方面仍面臨著挑戰。

1訓練智能演算法

深度學習演算法依賴於神經網路,這是20世紀40年代首次提出的一種計算模型,其中類神經元節點組成的網路層模擬人腦對信息進行分析。費城賓夕法尼亞大學的計算生物學家Casey Greene說,直到大約5年前,基於神經網路的機器學習演算法依靠研究人員將原始信息加工成更有意義的形式,然後才將其輸入到計算模型中。但是,數據集的爆炸式增長以及演算法創新,已經使人類的工作減少。機器學習的這種進步——「深度」部分——迫使計算機,而不是人類程序員,去尋找深藏數據之下的有意義的關係。隨著神經網路中的層對信息進行過濾和排序,它們還可以相互通信,從而允許每個層優化前一個層的輸出。

來源:Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

最終,這個過程允許訓練有素的演算法分析一個新的圖像,並正確地識別出它。但是,減少人類的參與,他們就無法控制分類過程,甚至無法精確地解釋軟體正在做什麼。Finkbeiner說,雖然這些深度學習的網路能夠驚人地準確預測,但「有時要弄清楚網路看到的是什麼才做出如此好的預測,仍然是一個挑戰。」

儘管如此,包括成像在內的許多生物學的分支學科,正在收穫這些預測的回報。十年前,自動化生物圖像分析軟體專註於測量一組圖像中的單個參數。例如,2005年,麻省理工學院布羅德研究所和哈佛劍橋哈佛大學的計算生物學家Anne Carpenter發布了一個名為CellProfiler的開源軟體包,幫助生物學家定量測量各個特徵:比如顯微鏡下熒光細胞的數量,或斑馬魚的長度。

但深度學習讓她的團隊走得更遠。「我們已經轉向測量生物學家們沒有意識到他們想用在圖像中來測量的東西,」 Carpenter說。記錄和結合視覺特徵,如DNA染色、細胞器結構等可以產生數千個「特徵」,其中任何一個都能揭示新的見解。當前版本的CellProfiler包含一些深入學習的元素,她的團隊希望在明年添加更複雜的深度學習工具。

Carpenter說:「大多數人都很難弄明白這些問題,但是單細胞圖像中的信息,實際上可能更多,就像細胞群的轉錄組分析一樣。」

這種類型的處理使得Carpenter的團隊採取一種更少監督的方法,將細胞圖像轉化為疾病相關的表型,並利用它進行分析。Carpenter是猶他州鹽湖城Recursion Pharmaceuticals的科學顧問,該公司正利用其深度學習工具,瞄準罕見的單基因疾病藥物開發。

2挖掘基因組數據

當談到深度學習時,也不是任何數據都可以的。深度學習通常需要大量的、標註良好的數據集。因此,成像數據就成了很自然的好選擇,基因組數據也是如此。

Verily Life Sciences(前身是谷歌生命科學)也一直使用此類數據。Verily是Google母公司Alphabet的子公司,研究人員開發了一種深度學習工具,可以比傳統工具更準確地識別常見的遺傳變異類型,即單核苷酸多態性。這種名為DeepVariant的軟體,將基因組信息轉換成圖像表示形式,然後將其作為圖像進行分析。

Mark DePristo,他領導了Verily深入學習的基因組研究,他認為DeepVariant對於研究非主流生物的研究人員特別有用,尤其是那些低質量的參考基因組和高錯誤率鑒定基因變異。他的同事Ryan Poplin在植物領域中使用DeepVariant,誤差率從20%降低到了接近2%。

加拿大Deep Genomics公司首席執行官Brendan Frey也專註於基因組數據,但其目標是預測和治療疾病。Frey在多倫多大學的學術團隊開發了關於健康細胞基因組和轉錄組數據的演算法。

這些演算法針對RNA事件構建預測模型,例如剪接、轉錄和聚腺苷酸化。Frey說,在應用於臨床數據時,演算法能夠識別突變並將其標記為致病性,即使它們從未看過這些臨床數據。在Deep Genomics公司, Frey的團隊正在使用相同的工具來識別和針對軟體發現的疾病機制,並開發由短的核酸序列衍生出來的治療方法。

藥物發現是另一個有大量數據集的學科。在這裡,深度學習演算法正在幫助解決分類挑戰,通過諸如形狀和氫鍵等分子特徵的篩選,確定對這些潛在藥物進行排序的標準。例如,位於舊金山的生物科技公司Atomwise開發了一種將分子轉換成三維像素網格的演算法。這可以使公司能夠以原子精度解釋蛋白質和小分子的三位結構,以及原子的精度,比如碳原子的幾何形狀。該公司的首席執行官Abraham Heifets表示,這些特徵被轉化為數學向量,演算法可以用來預測哪些小分子可能與特定蛋白質相互作用。他說,「我們做的很多工作都是針對沒有已知粘合劑的(蛋白質)靶標。」

Atomwise正在使用這一策略推動其新的AI驅動的分子篩選計劃。這個計劃掃描了一千萬個化合物的庫,為學術研究人員提供了多大72種潛在的小分子粘合劑,以獲取他們感興趣的蛋白質。

深度學習工具還可以幫助研究人員對疾病類型進行分層,了解疾病亞群,找到新的治療方法,並將其與合適的患者相匹配以進行臨床試驗和治療。例如,Finkbeiner所在的一個叫做Answer ALS的組織,致力於將一系列的數據——基因組學、轉錄組學、表觀基因組學、蛋白質組學、成像,甚至是多功能幹細胞生物學——從1000人的神經退行性疾病肌萎縮側索硬化症(也稱為運動神經元病)中結合起來。他說:「這是我們第一次有一個數據集,可以應用深度學習,並觀察深度學習是否可以揭示我們細胞培養皿中和患者發生的事情之間的聯繫。」

3挑戰和警告

研究人員警告說,儘管深度學習帶來了很多好處,但它也帶來了巨大的挑戰。與任何計算生物學技術一樣,由演算法產生的結果取決於輸入的數據。模型過擬合也是一個問題。此外,對於深度學習,數據量和質量的標準往往比一些實驗生物學家所期望的更為嚴格。

深度學習演算法需要非常大的數據集,這些數據集都要有很好的注釋,以便演算法可以學習區分特徵和對模式進行分類。Finkbeiner指出,在大約15,000個樣本之後,他的工作中的演算法訓練顯著提高。Carpenter說,那些高質量的「ground truth」數據可能非常難以實現。

為了規避這一挑戰,研究人員一直在努力研究如何用更少的數據進行更多的訓練。基礎演算法的進步使得神經網路能夠更有效地使用數據。Carpenter說,在一些應用程序中只對少量圖像進行訓練。科學家還可以利用轉移學習,即神經網路從一種數據類型獲得的分類能力應用到另一種類型的能力。例如,Finkbeiner的團隊已經開發出一種演算法,最初是根據形態學變化來預測細胞死亡。雖然研究人員訓練它研究嚙齒動物細胞的圖像,但它首次接觸到人類細胞圖像時的準確率達到了90%,而且隨著經驗的增加,其準確率達到99%。

在一些生物圖像識別工作中, GAS使用的演算法最初是針對從互聯網上挖掘的數億個消費者圖像進行訓練的。研究人員隨後對這種訓練進行了改進,使用了幾百種類似於他們希望研究的生物圖像。

GAS的研究科學家Michelle Dimon指出,深度學習帶來的另一個挑戰是計算機既不聰明又懶惰。它缺乏辨別生物學相關差異和正常差異的判斷力。她指出:「電腦很擅長查找批量變化。」因此,獲取將被輸入到深度學習演算法中的數據,通常意味著對實驗設計和控制應用的一個高門檻。GAS要求研究人員隨機將對照放置在細胞培養板上,以考慮諸如孵化器溫度等微妙的環境因素,並使用兩倍於生物學家可能使用的對照組。Dimon打趣道:「我們很難控制。」

Dimon說,這種危害強調了生物學家和計算機科學家共同設計融合深度學習的實驗的重要性。

儘管深度學習演算法可以在沒有人類先入之見和過濾器的情況下評估數據,但Greene警告說,這並不意味著它們沒有偏見。訓練數據可能會有偏差,例如,僅使用北歐人的基因組數據時。對這些數據進行訓練的深度學習演算法將獲得嵌入的偏差,並在他們的預測中反映出來,從而導致不平等的病人護理。如果人類幫助驗證這些預測,就會對問題進行潛在的檢查。但如果僅靠電腦來做出關鍵決策,這就會令人不安。Greene說:「把這些方法看作是增強人類比把這些方法想像成替代人類更好。」

接下來的挑戰就是,要準確理解這些演算法是如何構建特徵的。馬里蘭州巴爾的摩的Insilico醫學研究所的科學家Polina Mamoshina說,計算機科學家正在通過改變或調整模型中的個體特徵來攻擊這個問題,然後研究這些微調如何改變預測的準確性。但Greene警告說,不同的神經網路在同一問題上的工作方式不會以同樣的方式進行。研究人員越來越關注能夠做出準確又能解釋的預測演算法。

Greene說:「我認為,2018年高深度學習模式不會出現,但我希望我是錯的。」

End

參考資料:1)Deep learning for biology


推薦閱讀:

15-25歲,因為年輕,所以什麼都可以學嗎?
八字學習的九個基本步驟
《學習之道》與《刻意練習》精華提取
如何學習易經? 易經的學習方法
對聯口訣 (中)【收藏學習】

TAG:生物學 | 學習 | 生物 | 深度學習 | 深度 | Nature |