利用GAN(AAE)做新藥物分子研發

編者:非醫學背景,對藥物知識了解不全面,但是模型和理論能看懂,如果在藥理層面理解有失誤,敬請原諒。

前言

2016年開始,對抗式生成網路成了AI行業的新寵,各大期刊paper基本都離不開GAN這個字眼,但是實際上GAN的應用目前還是非常少,大多集中在研究階段,主要的應用以圖像修復,生成樣本等等,而今天給大家分享一個我近期看到的利用GAN做的最有意思的應用,本文介紹的應用是由Insilico Medicine公司發表的首次利用GAN結構過藥物分子預測與研發的應用[1],該公司本身也是主要利用AI做藥物研究的企業。

本應用主要是利用AAE(Adversarial Autoencoders對抗式自編碼,GAN的一個延伸模型)[2],研究人員把它作為基礎,加上已知的醫療特性和有效濃度,將之用在訓練神經網路上。研究人員會把和所需化合物相關的信息輸入到網路中,網路對其進行調整後會輸出類似的數據。 網路由三個部分構成:編碼器,解碼器和鑒別器。其中每一個在與另兩個「協作」中都有自己特定的角色。 編碼器與解碼器一起壓縮、恢復母化合物的信息,而鑒別器則使壓縮後的信息更適於恢復。 當網路已經學習過大量已知分子結構後,編碼器和鑒別器則會結束工作狀態,網路就能用解碼器自動生成對分子的描述[3]。

模型介紹

如圖模型特點概括為:

總體:該模型建立了一個7層的AAE結構。

輸入輸出:使用了分子「指紋」作為一個固定長度的向量,在系統中,所有分子均表示為「SMILEs」的形式呈現,但是這種存儲的長度是隨機的,所以利用分子「指紋」可以固定長度的同時保證完整的信息。

優化:潛在層(latent layer)作為鑒別器(discriminator)。在潛層中,還引入了負責生長抑制的神經元,當陰性表示治療後腫瘤細胞數量減少。

訓練:訓練AAE時,使用NCI-60細胞系檢測數據分析了在MCF-7細胞繫上的6252個化合物。

結論: 使用AAE的輸出來篩選PubChem中的7200萬種化合物,並選擇具有潛在抗癌特性的候選分子。

編者總結

本文首創性的利用的AAE(GAN)應用的藥物研發中,通過把分子結構規範為分子「指紋」加上固定的參數作為結構的輸入,使得模型既有「經驗」的部分,也有自學習的部分,中間還加入了個性化的神經元,充分利用了AAE的特點的同時,不忘結合實際情況,所以無論當前結果好壞,對於未來藥物研發都具有指導和標誌意義。

相關鏈接

[1]impactjournals.com/onco

[2][1511.05644] Adversarial Autoencoders

[3]用GANs尋找潛在藥物,抗癌新葯指日可待 | 雷鋒網

[4]對抗自編碼器:Adversarial Autoencoders

---人工智慧應用系列·介紹---

本系列介紹各領域的一些有趣的人工智慧應用,原理可能並沒有那麼複雜,目的是開拓大家的視野和思路,也許人工智慧能做的事情比我們想像的還要多。

專欄地址:人工智慧應用系列 - 知乎專欄 (歡迎投稿和關注)

本人的Live:「跨領域人工智慧應用」系列Live的開篇--如何做跨領域人工智慧應用


推薦閱讀:

醫藥研發外包的全球化浪潮中,中國或成最大贏家
丁列明:良好的醫藥產業需要良好的頂層設計
抗癌已達拐點,全新廣譜抗癌新葯或將誕生
質子親和勢-氣相下物質的鹼性

TAG:人工智能 | 药物研发 | 医学影像 |