基於神經網路的 Google AI以及 TPU 的雲端數據中心在新葯研發領域有哪些潛力?

谷歌I/O 2017CEO皮柴談到他對神經網路人工智慧在醫療保健,病理學,生物以及藥物研發領域的用充滿信心。那麼具體來說在新葯研發會有怎樣的應用前景?作為藥學專業的我們希望加強人工智慧領域的背景知識時可以從哪些資料入手,是否有必要了解TensorFlow等軟體的使用?

本題已收錄至知乎圓桌:Google I/O 2017,更多「Google I/O」相關話題歡迎關注討論


藥學+ML背景的路過(●°u°●) 」

這兩年拿DL做藥物發現的paper春筍般湧現,以AtomNet為例,通過CNN預測藥物活性的準確率達到了當年的state of art。感覺現在最大的挑戰是需要給藥物小分子訓練一個更好的embedding,fingerprint目前固然效果不錯,但能不能繼續沿著走下去就不好說了。藥物發現就是generative model嘛,那基於某受體的藥物發現呢?conditional generative model. 感謝DL在CV,NLP領域發展了這麼多年,目前終於要向生物醫藥領域靠攏了,exciting(?????????)

PS: 這個領域目前也有了幾家曝光度不錯的startup,比如說Insilico Medicine 和 Atomwise - Better medicines faster.


如果我審題正確的話,提問的小夥伴應該是想知道AI在新葯研發中有哪些應用吧?我就不限Google AI 和 Cloud TPU 來瞎說了。

現在是新葯發現的黃金時代,幾乎每一個做生物機制的老師都認為他們的蛋白很重要,都可以針對這個蛋白找到一個小分子或抗體,抑制或促進這個蛋白的功能,達到調控疾病進程的目的。這時候,你可以直接拿著化合物庫裡面的幾十萬個小分子直接做實驗,測試其與目標蛋白的結合活性,但這樣花費的人力物力太大。所以現在通用的方法是解析出蛋白質的三維結構之後,用計算的方法模擬,把一個小分子塞進蛋白的凹槽裡面,預測小分子與蛋白的結合構象和親和能力,這個過程有個專業的術語叫分子對接 (Molecular Docking)。

分子對接是一門挺老的技術,但遠遠不夠成熟,目前用它預測小分子與蛋白的結合構象時還算準確,但預測小分子與蛋白的親和能力時是非常不準確的,以至於用分子對接的方法預測認為有活性的小分子,實際生物活性測試結果跟隨機抽的小分子的測試結果差不多,或者說提高不大。大家一直沿用分子對接技術是因為沒有更好的替代方法(這也是這幾十年來藥物設計專業一直被邊緣的原因之一)。

深度模型在人臉識別、無人駕駛和自然語言處理等應用中具有顛覆性的效果,人們有理由相信其也能提高小分子與蛋白的結合模式以及親和力預測的準確性,因為小分子與蛋白質的結合模式其實可以抽象為一張三維圖片,當然也確實是有人這麼做的,比如這篇文獻Protein-Ligand Scoring with Convolutional Neural Networks。這類型的文章非常多,但其預測結果準確性相比傳統對接方法或者其他機器學習演算法來說其實提高不大。在我看來除了建模方法的問題,更嚴重的問題是用來訓練模型的實驗數據其實是不可靠的(不同實驗技術,不同操作人員,不同批次,數據選擇性發表),不像普通的圖片識別,標記裡面有張臉就是有張臉,標記有隻貓就是有隻貓,蛋白與小分子結合與否,不同的實驗方法,實驗人員,做出來的都不一樣。所以,深度模型預測小分子與蛋白的親和力時,一方面用來訓練模型的的數據是不可靠的,另一方面如果你要保證數據的可靠,數據的量會不足。最終導致的結果是用深度學習演算法和淺層機器學習演算法預測出來的東西一樣,隨機性很大,充滿玄學。

此外,新葯研發中還有一類很重要問題可以用到AI,那就是藥物的ADMET(吸收分布代謝排泄毒性)預測。對於每種預測,理論上你都可以把深度神經網路往上套,不同建模抽象方法的產出結果參差不齊,雖然改進不大,但一直在提高。

當然,廣義上說,現在大部分的生物信息學工作都是為了後面做葯服務,AI在這方面的應用就更廣了。1)現在的精準醫療要求針對病人的基因型(遺傳背景)個性化給葯,AI能幫助我們尋找具有合適遺傳背景的病人進行用藥;2)也能預測藥物可能作用的其他靶標,從而預測藥物的新用途;3)還可以通過分析病人的基因組,轉錄組,代謝組信息,構建生物大分子相互作用網路,找出對信號通路起決定作用的幾個關鍵基因或蛋白,指導聯合用藥,以阻斷整條通路,達到更好的調控疾病進程的目的。

總得來說,AI在新葯研發領域還沒有殺手級的應用,但毋庸置疑的是,這是未來的方向,可能還需要一代人的努力。像tensorflow這種框架以後和SAS或Excel一樣通用,會是一些科研必備技能。最好能跟著別人一起上手做項目,人在解決問題時最能提高能力。如果有興趣,可以熟悉一下deepchem/deepchem框架,這個AI框架專門為藥物發現的過程設計,按照發起人Bharath 本人的說法是為了讓藥物發現人人都能上手(Democratizing Drug Discovery)。當然,各種客戶端或在線的軟體對上手也是很有幫助,像Maestro 11 | Schr?dinger, Drug Discovery - OMICtools 。另外,學好統計很重要,絕大多數人的統計是弱掉渣的。


和Atomwise合作過的人來強答一下……

上面的回答提到了傳統的docking,這是基於量子力學來計算ligand和receptor相互作用的方法,利用已有的protein和small molecule的結構來計算電子云分布而得到binding affinity score。其特點是計算量大(當然現在硬體發展很快,用顯卡並行計算的話速度還可以接受),而且對於receptor存在構象變化的情況處理不是很好。雖然現在的docking軟體(比如我用的autodock)已經有了receptor flexibility的選項,但是鑒於蛋白巨大的分子量帶來的海量自由度,計算還是十分困難的。如果非要計算的話另有molecular simulation (MB),可以精確地計算動態的binding過程,這個計算量高了不止一個數量級,雖然相比於docking更加精確,但是對於藥物開發來說,用MB預測很多小分子和target protein的interaction還是不太現實。【非專業做計算的,如有錯誤請見諒】

接下來說這個新興的DL做藥物研發的。他們利用已知的protein-small molecule interaction
data對程序做training來分析具有怎樣特徵的分子會bind到target protein上,然後根據training的結果對commercially available的compounds進行海量篩選,然後排序,這個計算量應該比傳統的docking和MB要小,尤其是receptor複雜度提升的時候。接下來就是把結果告訴我們這些磚工來做assay確認是否有活性。

答主組裡是做botulinum neurotoxin inhibitor的,就是你們用來除皺紋的那個肉毒素的抑製劑。其有活性的light chain是一個相對較大的protease,而且似乎比較flexible。答主就已知的inhibitors做過docking,結果慘不忍睹,和實驗完全對不上(斷送了發一篇大paper的希望T^T)。Atomwise不知怎的勾搭上了老闆用他們的DL演算法一通算,給出了一個含有2000個compounds的library,我買了其中top score的40個來做assay,還真的發現了一個active compound。就這個結果來說其表現還不錯。有趣的是我大略瀏覽了下給出的library里的compounds結構,多樣性非常之高。我們通常做structure based drug design往往局限於已有的scaffold和常見的取代基團,而DL給出的結果則打破了這一局限,畢竟DL不懂chemistry,只懂得特徵匹配。

小結一下我覺得DL做藥物設計還是個新興的事物,與傳統的drug design方法相比有優勢,尤其是在複雜的protein target上。其局限性在於必須有足夠而且high quality的已有data作支撐來做training,結果需要high throughput screening來驗證。

至於其發展前景答主還是相對樂觀的,再不濟也能和docking平起平坐吧……這兩個互相補充也不錯。希望各位CS的大神能不斷優化演算法來解救做chem的磚工……

暫時就這些吧,歡迎批評指正。


推薦閱讀:

美國藥學或化學專業大學推薦?
如果沒有臨床試驗會怎樣?為什麼需要臨床試驗?臨床試驗需要多久?
醫藥公司願意研製治療極度罕見病的藥物嗎?會如何盈利?
為什麼阿茲海默病的藥物研發失敗率極高且多失敗在三期臨床?
據說全球最大仿製葯企要和中國合資辦廠,對中國醫藥行業會是激勵還是衝擊?

TAG:人工智慧 | 藥物研發 | GoogleIO | 神經網路 | TPUTensorProcessingUnit |