還在手工分析數據？其他生物學家已經用上了AI

09-14

來自專欄 Nature自然科研9 人贊了文章

導語：一種流行的人工智慧方法成為了調查和分類生物數據的強大工具。但對於不具備專業知識的人來說，這項技術造成了很大困難。

四年以前，谷歌的科學家出現在神經科學家Steve Finkbeiner家門前。這些科研人員在谷歌加速科學（Google Accelerated Science）工作，該研究部門位於加州山景城，目標是利用谷歌的技術加速科學發現。他們有興趣用「深度學習」來分析同在加州的格萊斯頓神經疾病研究所的Finkbeiner課題組產生的堆積如山的圖像數據。

腦神經網路長期以來一直給予人工智慧研究者靈感。來源: Alfred Pasieka/SPL/Getty

深度學習演算法從一個極大規模的加註的數據集（比如一系列圖像或基因組）中提取原始特徵，並利用這些特徵，創建一個基於其內部隱藏模式的預測工具。一旦經過訓練，演算法可以用這個訓練去分析其他或許來源完全不同的數據。

Finkbeiner表示，這項技術可以用來「處理相當困難、棘手、複雜的問題，並可以看到數據結構——那些對於人腦來說總量太大太複雜而無法理解的數據」。

他和他的團隊使用一種名為機器人顯微鏡的高通量成像方法產生了大量數據，這種顯微鏡是他們為研究腦細胞而開發的。但團隊分析數據的速度跟不上獲得數據的速度，因此Finkbeiner欣然接受了這個合作的機會。

他說：「其實我當時對使用深度學習能解決的問題並沒有一個清晰的理解，但我知道我們正在以分析數據的兩到三倍的速度產生數據。」

如今，這些努力正開始取得成效。Finkbeiner的團隊與谷歌的科學家們一起，使用兩組細胞，訓練了一個深度演算法。其中一組細胞被人工標記突顯出科學家不常看到的特徵，另一組則未被標記。Finkbeiner說，當他們後來將演算法用於其之前從未接觸過的未標記細胞的圖像時，演算法在預測這些圖像應有的標記時表現驚人。一篇詳細介紹這項工作的文章即將出版。

Finkbeiner的成功突顯了深度學習，人工智慧（AI）最有前途的分支之一，是如何正在進入生物學領域的。演算法已經滲透到現代生活，如智能手機、智能揚聲器和自動駕駛汽車。在生物學中，深度學習演算法以人類做不到的方式潛入數據中，檢測其他方法可能無法捕捉到的特徵。科研人員正在使用這些演算法來分類細胞圖像，建立基因組的關聯，促進藥物發現，甚至是從基因組學、成像、電子病歷這些不同類型的數據中尋找聯繫。

bioRxiv預印本伺服器上有超過440篇討論深度學習的文章；PubMed在2017年列出了700多篇參考文獻。這些工具或許很快就會被生物學家和臨床科研人員廣泛使用。但科研人員卻難以理解這些演算法到底在做什麼，也難以保證它們不會誤導用戶。

訓練智能演算法

深度學習演算法（參見「深度思考」）依賴於神經網路，這是一種於20世紀40年代首次提出的計算模型，其中的類神經元節點層模仿人類大腦如何分析信息。費城賓夕法尼亞大學的計算生物學家Casey Greene說，直到大約五年前，基於神經網路的機器學習演算法一直依靠科研人員將原始信息處理成更有意義的形式，然後才將其輸入計算模型。但數據集規模的迅速增長（來自諸如智能手機照片或者大規模基因組測序等）和演算法的創新減輕了人類的負擔。機器學習的這種進步，即「深度」部分，迫使計算機，而不是它們的人類程序員，去尋找像素和基點中的有意義的關係。神經網路中的層不僅具有過濾和分類信息的功能，還可以相互通訊，因此每一層都能夠優化前一層的輸出。

來源：Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

最終，經過這個過程，訓練過的演算法能夠分析一張新圖像並正確識別它，例如，圖像是否是查爾斯·達爾文或一個病態的細胞。但隨著科研人員與演算法漸行漸遠，他們不再能夠控制分類過程或甚至是解釋軟體具體在幹什麼。儘管這些深度學習網路在做出預測時可能非常準確，但Finkbeiner說：「要弄清楚網路看到了什麼使它能夠做出如此好的預測，有時仍然是個難題」。

不過，許多生物學的分支學科，包括成像，正從這些預測中受益。十年前，用於自動生物圖像分析的軟體重點測量一組圖像中的單一參數。例如，2005年，麻省理工學院和哈佛大學的布羅德研究所的計算生物學家Anne Carpenter發布了一個名為CellProfiler的開源軟體包，以幫助生物學家定量測量單個特徵：例如，一個顯微鏡成像區域的熒光細胞數或斑馬魚的長度。

但深度學習讓她的團隊走得更遠。她說：「我們已經轉而去測量那些生物學家沒有意識到想要從圖像中測量的東西。」記錄和結合視覺特徵，例如DNA染色、細胞器結構和一個細胞中空白區域的質量，可以產生數千個「特徵」，其中的任何一個都可能揭示新的見解。CellProfiler的當前版本包括了一些深度學習的元素，而且她的團隊希望明年能夠加入更複雜的深度學習工具。

Carpenter說：「大多數人可能難以理解這一點，但是一幅細胞圖像中所包含的信息實際上可能比一群細胞的轉錄組分析中所包含的信息更多。」

這種處理方式讓Carpenter團隊能夠採取一種只需有限監督的方法將細胞圖像轉化為疾病相關的表型並利用它盈利。Carpenter是猶他州鹽湖城Recursion Pharmaceuticals公司的科學顧問，該公司正靶向稀有的單基因疾病，利用深度學習工具進行藥物開發。

挖掘基因組數據

深度學習並不適用於所有數據。該方法通常需要大量注釋良好的數據集。圖像數據特別適合，基因組數據也可以。

其中一家使用此類數據的生物技術公司是位於舊金山的Verily 生命科學公司（前身為谷歌生命科學公司）。Verily的研究人員開發出一個深度學習工具，能夠比傳統工具更準確地識別一種名為單核苷酸多態性的常見的遺傳變異型。這款名為DeepVariant的軟體將基因組信息轉化為類似圖像的表達，然後把基因組信息當作圖像去分析（參見『深潛工具』）。

Verily公司基於深度學習的基因組研究主管Mark DePristo預計DeepVariant對那些研究主流之外生物體 —— 那些參考基因組質量低、遺傳變異識別錯誤率高的生物體——的科研人員特別有用。他的同事Ryan Poplin在植物學方面與DeepVariant合作，他的錯誤率已經降至接近2%，而其他方法的錯誤率一般維持在20%。

深潛工具

深度學習工具正在迅速發展，為了好好利用這些工具，實驗室需要計算機專業知識和合作機會。

加州舊金山格拉德斯通研究所的神經科學家Steve Finkbeiner建議，首先，請一位具有深度學習專長的同事出去吃午餐，然後諮詢相關實驗策略是否可行。他說，對於一些數據集，例如成像數據，現成的程序可能就可以了；對於更複雜的項目，請考慮邀請一位合作者。研討會和各種會議能夠提供培訓機會。

獲得雲計算資源意味著科研人員可能不需要現場的計算機群就能使用深度學習——他們可以在其他地方運行計算。谷歌的TensorFlow是一個用於構建深度學習演算法的開源平台，可以從軟體共享網站GitHub上獲取，同時它也是DeepVariant的一個開源版本，是一種用於準確識別遺傳變異的工具。

谷歌加速科學（位於加州山景城的谷歌的一個研究部門）的一位科學家Michelle Dimon介紹說，谷歌加速科學正與各領域的科學家合作，包括生物學家。項目需要一個亟需解決的生物問題，大量高質量、帶標籤的數據，以及一項讓公司的機器學習專家能夠為該領域做出獨特計算貢獻的挑戰。

那些希望跟上深度學習發展速度的人應該仔細讀一下由費城賓夕法尼亞大學的計算生物學家Casey Greene組織撰寫的全面且包含眾科學家觀點的綜述文章「深度綜述」（T. Ching et al.Preprint at bioRxiv http://doi.org/gbpvh5; 2018）。

加拿大多倫多Deep Genomics公司的首席執行官Brendan Frey也非常關注基因組數據，但其目標是預測和治療疾病。Frey在多倫多大學的學術團隊開發出經過健康細胞的基因組和轉錄組數據訓練的演算法。這些演算法在數據內構建RNA加工步驟的預測性模型，例如剪接、轉錄和多腺苷酸化的預測模型。Frey說，當將演算法應用於臨床數據時，即使演算法從未見過臨床數據，它們也能夠識別突變並標記致病性。在Deep Genomics公司，Frey的團隊正在使用相同的工具來鑒定和靶向該軟體所揭示的疾病機制，以開發源自短核酸序列的治療方法。

藥物研發是另一個擁有大量數據集，適合使用深度學習來處理的領域。在這方面，深度學習演算法正在幫助解決分類的難題，通過形狀和氫鍵等分子特徵進行篩選，以確定那些潛在藥物的分級標準。例如，舊金山的一家生物技術公司Atomwise開發了將分子轉換成三維像素（體素）網格的演算法。這種表現形式使公司能夠以原子精度解析蛋白質和小分子的三維結構，為特徵建模，例如碳原子的幾何結構。公司首席執行官Abraham Heifets說，這些特徵隨後被譯成數學向量，演算法可以使用這些向量去預測哪些小分子有可能與給定的蛋白質相互作用。他說：「我們所做的很多工作都是針對沒有已知靶向結合物的蛋白質。」

Atomwise公司正在使用這個策略推動它新的人工智慧驅動的分子篩選方案，該方案掃描一個有一千萬化合物的庫，為學術研究人員提供多達72種潛在的小分子結合物，用於他們感興趣的蛋白質。

深度學習工具還可以幫助科研人員為疾病類型分層，了解疾病亞群，找到新的治療方法並與適當的患者匹配用於臨床測試和治療。例如，Finkbeiner（Answer ALS聯盟的一員）致力於將來自1000名患有運動神經元疾病的患者的一系列數據（基因組學、轉錄組學、表觀基因組學、蛋白質組學、影像學、甚至是多能幹細胞生物學數據）結合起來。他說：「這是第一次，我們有一個能夠應用深度學習的數據集，並觀察深度學習是否可以揭示我們在培養皿中測量到的某個細胞的數據和病人身上正在發生的事件之間的關聯。」

挑戰與注意事項

研究人員提醒，雖然深度學習前景無限，但是也面臨諸多巨大的挑戰。與任何一種計算生物學技術一樣，演算法得到的結果的好壞取決於演算法使用的數據的好壞。模型與其訓練數據的過擬合也是一個問題。另外，用於深度學習的數據的數量和質量標準通常比某些實驗生物學家預期的更為嚴格。

深度學習演算法需要相當大規模且注釋好的數據集，以便演算法能夠學習去分辨特徵和分類模式。更大的、標記明確的數據集——有數百萬個數據點代表不同的實驗和生理條件——為科研人員訓練一個演算法提供了最大的靈活性。Finkbeiner指出，他工作中的演算法在經過約15,000個例子的訓練之後得到顯著改善。Carpenter說，那些高質量的「真值」數據可能極難獲得。

為了繞過這個難題，科研人員一直在努力研究使用更少數據進行更多訓練的方法。Carpenter說，底層演算法的進步使得神經網路能更有效地利用數據，從而使一些應用僅需使用少量圖像進行訓練便可實現。科學家們還可以採用遷移學習，即神經網路將從一種數據類型獲得的分類能力應用於另一種數據類型的能力。例如，Finkbeiner的研究小組開發了一種演算法，最初被訓練用於以細胞形態變化為基礎預測細胞死亡。儘管科研人員訓練它去研究嚙齒動物細胞的圖像，但當它第一次用於人類細胞圖像時就達到了90%的準確率，隨著經驗的增加，準確率更是高達99%。

對於一些生物圖像識別工作，谷歌加速科學最初使用從網路上採集到的數億客戶圖像來訓練演算法。科研人員隨後改進了訓練，只使用幾百張類似他們研究對象的生物圖像。

谷歌加速科學的研究科學家Michelle Dimon指出，深度學習的另一個局限是計算機既不智能又懶惰。它們缺乏能夠區分生物學相關差異和正常差異的判斷力。她指出：「電腦在查找批量差異方面相當出色。」因此，為了獲得可用於訓練深度學習演算法的數據，科學家必須對實驗設計和對照設置更高的門檻。谷歌加速科學要求研究人員隨機在細胞培養板上設置對照，以考慮微妙的環境因素（例如培養箱溫度）所帶來的影響，並且設置的對照組數量應該比生物學家在通常情況下設置的高一倍。Dimon開玩笑說，「我們增加了移液的難度」。

Dimon說，這些難點表明了生物學家和計算機科學家合作設計有關深度學習的實驗的重要性。在谷歌的最新項目Contour中，這種精心設計變得更為重要。Contour是一種通過突出顯示趨勢（比如劑量反應）代替將細胞歸入特定類別（比如活細胞或死細胞）的方式歸類細胞成像數據的策略。

Greene提醒，儘管深度學習演算法可以在沒有人類預設和過濾的情況下評估數據，但這並不意味著它們是沒有偏見的。訓練數據可能是有偏差的，比如碰巧只使用北歐人的基因組數據。用這樣的數據訓練出來的深度學習演算法將會獲得植入偏差並在它們的預測中反映出來，這反過來會導致不平等的病患治療結果。人類協助驗證這些預測在某種程度上可解決這一問題。但如果只使用計算機來做出關鍵的決策，這些問題就會成為麻煩。Greene說：「把這些方法看作是人類的擴充比把這些方法看作是人類的替代更合理。」

另一個挑戰就是準確理解這些演算法是如何構建它們用於數據分類的特徵。馬里蘭州一家使用深度學習來改進藥物研發的公司Insilico Medicine的研究科學家Polina Mamoshina表示，計算機科學家們正通過改變或打亂模型中的單一特徵並研究這些調整如何改變預測的準確性來攻克這個問題。但Greene提醒說，不同神經網路在研究相同問題時的處理方式並不一樣。他說，科研人員越來越關注既能準確預測又能做出可解釋預測的演算法，但目前這些系統仍然是黑盒子。

Greene說：「我不認為高度可解釋的深度學習模式將會在2018年出現，儘管我很希望自己是錯的。」?

Nature|doi:10.1038/d41586-018-02174-z

原文發布在2018年2月20日的《自然》技術專題上

原文作者：Sarah Webb

點擊右邊標題閱讀英文原文：Deep learning for biology

本文由施普林格·自然上海辦公室負責翻譯。中文內容僅供參考，一切內容以英文原版為準。歡迎個人轉發，如需轉載，請郵件Chinapress@nature.com。未經授權的翻譯是侵權行為，版權方將保留追究法律責任的權利。

思想常新者以自然為其可靠之依據——Nature自然科研ID：Nature-Research