化學界誕生了一個「AlphaGo」，居然來自中國，對製藥業影響深遠

04-30

?化學界的「AlphaGo」竟來自上海大學，圖片來自http://zdnet.com

編者按：

很多人可能對Mark Waller教授比較陌生，對他任職的單位上海大學也不熟悉，但最近Waller在Nature雜誌上發表了一項人工智慧領域的重要研究，化學界的「AlphaGo」由此誕生，引起國內外製葯領域高度關注。這可能也是上海大學近年為數不多能登上《自然》的研究，Waller為上大物理系教授，2016年3月全職加入上海大學。為此，我們邀請同濟大學生物信息學教授、IEEE會員劉琦對這項研究進行深入的解讀，以及剖析化學界「AlphaGo」仍存在的短板。劉琦教授目前主要致力於計算機和生命科學的智能計算和機器學習的交叉研究。

撰文 | 劉琦（同濟大學教授）

責編 | 葉水送

知識分子為更好的智趣生活 ID：The-Intellectual

●●●

2018年3月29日，國際頂尖學術期刊Nature在線發表了上海大學教授Mark P. Waller團隊利用深度學習的逆向合成路線設計藥物的研究論文（Planning chemical syntheses with deep neuralnetworks and symbolic AI）。

我和Mark曾在葯明康德的小型會議上有過交流，知道他的工作早在一年前已發布在預印本arXiv上，現在終於正式發表，表示祝賀。該工作是Nature雜誌繼2016年發表的基於機器學習技術進行晶體製備策略預測的封面文章之後[1]，再次發表的一項基於人工智慧技術進行藥物自動化開發的研究成果。基於AI加速藥物研發，正越來越受到業內廣泛的關注。

相比於《自然》雜誌2016年發表的晶體合成反應預測工作，本次工作關注於計算機輔助的合成設計（Computer-assisted synthesis planning，CASP），其核心又被稱為反合成分析（Retrosynthesis analysis）。

反合成分析可認為是小分子正向反應預測（Forward reaction prediction）的逆過程。有機合成大師埃里亞斯·科里（Elias Corey）於20世紀60年代首次提出反合成設計的思想，並據此設計了第一個初步實現CASP的軟體LHASA。1990年，科里教授由此獲得了諾貝爾化學獎。

實現反合成分析有兩個關鍵點：1）對有機化學反應的深刻了解，即規則的掌握；2）基於這些規則，對目標分子進行遞歸式拆分，最終獲得易得原料，即路線的設計。傳統的CASP通常是基於規則的專家系統，這些規則可人為地進行編碼或者從資料庫中用演算法進行自動提取，而路線的設計則主要依賴於啟發式演算法評估拆分的合理性。傳統反合成分析方法存在著諸多問題制約其廣泛應用，包括泛化能力差、缺乏化學合理性等，常令合成化學家望而卻步。

在這項研究工作中，Waller團隊將深度神經網路及強化學習等概念整合至一個通用的架構中，提出了採用三種不同的神經網路結合蒙特卡洛樹搜索（Three different neural networks together with MCTS）的演算法框架（3N-MCTS）。這三種神經網路分別為：拓展策略網路（Expansion policy network）——用來搜索當前位置可能存在的單步逆向化學變換路徑（Transformation）；篩選網路（Filter network）——用來對反應的可行性做出判斷；展示策略網路（Rollout policy network）——用來在展示步驟中應用多次採樣方法對搜索節點進行定量評價。該工作相對於傳統基於規則的反合成設計來說，大量借鑒了深度神經網路及強化學習的思想，是對傳統方法的一次重要的改進，這也是該工作能夠發表於Nature的原因之一。

?蒙特卡洛樹搜索（MCTS）方法的流程圖

蒙特卡洛樹搜索（MCTS）是逆合成路線規劃的核心框架，分成四個步驟：選擇（Selection）、拓展（Expansion）、展示（Rollout）、更新（Update）。其中：拓展策略網路（Expansion policy network）與篩選網路（Filternetwork）組成一個流水線（Pipeline），應用在拓展步驟（Expansion）；展示策略網路（Rollout policy network）則應用在展示步驟（Rollout）。這四個步驟中，選擇和拓展步驟非常容易理解，即首先選擇當前最適合拓展（位置權重最大）的化合物節點，進行可能的合成策略預測。其中拓展策略網路是基於深度神經網路進行合成策略預測，篩選網路是將前一步預測的合成策略進一步進行可行性判定。展示和更新步驟的核心思想為馬爾可夫決策過程（Markov decision process），我們可將該過程類比於機器下棋，機器在展示步驟並不做真正的分支延展，而是通過反覆的採樣對局來探索可能的狀態空間。

所不同的是，在逆合成分析中，機器並沒有對手，其探索結束的標準也不是輸贏，而是探索所獲得的所有合成原料均可歸屬於事先定義好的一個易得原料集合，在文中被稱之為All molecules are solved，或探索達到了事先定義的樹最大深度值。其展示的過程將依次從展示策略網路（Rollout policy network，類似於Expansion policy network，但是網路結構更加簡單，方便快速進行rollout）預測的rollout rules中進行選擇，同時探索結束後將根據不同的探索結果獲得不同的反饋（強化學習）。在更新步驟中，將根據展示步驟的多次模擬，進行通過節點的訪問次數計數以及位置權重更新。直觀來說，模擬過程中訪問次數越多的節點，其位置權重越大，那麼在下一次探索中也就更可能被訪問，這個過程可以用一句俗語總結：「世上本無路，走的人多了，也就成了路！」，這也是MCTS核心思想的一種體現。

如果讀者對於DeepMind的AlphaGO有所了解的話，一定會驚奇的發現，該工作的四個步驟，可類比於AlphaGO一文中所提出的四個步驟（Selection, Expansion, Evaluation, Backup）。2016年，DeepMind團隊在Nature雜誌發表AlphaGO研究成果[2]，其升級版本AlphaGOZero以封面文章形式於2017年在Nature雜誌發表[3]。頂級雜誌連續三年發表四篇AI的應用，並且兩次均為封面文章，說明AI技術的應用受到了極大的關注。

3N-MCTS的驗證以2015年之前發布的化學反應作為訓練數據，以2015年之後發布的化學反應作為測試數據。在雙盲AB測試中，來自中國和德國的45位有機化學家對9個不同目標分子的文獻報道的合成路線和3N-MCTS生成的合成路線進行判斷，有57%的化學家選擇3N-MCTS生成的路線，43%的化學家選擇了文獻報道路線，並且雙方沒有選擇上的統計顯著性差異，表明3N-MCTS生成合成路線的水平與文獻報道路線水平相當。同時在對於3N-MCTS生成的合成路線和廣度優先搜索（heuristic BFS）生成的合成路線的比較中，受試科學家顯著傾向於選擇前者，表明3N-MCTS生成合成路線的水平顯著優於BFS的基線水平。

最後，Waller團隊進一步論證了上述四個步驟對反合成分析整體性能的提升均有貢獻，這一點上，大家也可以類比於AlphaGO一文進行理解。

此次，Waller團隊的研究成果是當前化學合成領域的一個重要的突破，對於化合物合成特別是藥物合成具有重要的意義。目前，計算機輔助化合物逆向合成主要有兩種解決方案：1）基於人工規則的逆向合成路線設計，這種方案目前的典型代表為韓國蔚山國立科學技術研究所（UNIST）Bartosz Grzybowski教授團隊開發的Chematica系統，該系統遵循50000條有機合成規則並基於這些合成規則進行合成路線的設計；2）基於深度學習的逆向合成路線設計，Waller團隊的3N-MCTS演算法框架即為該方案的典型代表。

縱觀3N-MCTS的整個設計方案，和AlphaGo的整體思路非常類似，均採用了深度神經網路+蒙特卡洛樹的實現方式，將合成路徑的選擇類比於圍棋對弈中落子路徑的選擇。這種方法值得肯定，也取得了令人滿意的結果。最後我對該工作做一個總結和展望：

首先，該工作能發表在Nature雜誌，可以說既是「意外」, 又「驚喜」。「意外」系指其整個設計框架借鑒於AlphaGO, 故可能從方法學角度來說並未做實質性的創新；「驚喜」系指該工作做了一個非常巧妙的類比和應用，嘗試解決化學合成領域的一個重要的問題，並取得了理想的結果，對該領域產生了重要的貢獻。

其次，3N-MCTS的整個方案基於深度神經網路構建，故需要大量的高質量標記樣本進行訓練。而化學合成反應的標記樣本並不容易獲得。該工作所用的訓練樣本均來自於Reaxys資料庫，該資料庫是商業資料庫，不可公開獲取。進一步擴充相關的化學反應標記數據，將能夠獲得更好的預測效果。

再者，前述所說的篩選網路是一個二分類的深度神經網路，它基於資料庫中的陽性數據（可行路線）和陰性數據（不可行路線）進行訓練。而資料庫中的陽性數據遠多於陰性數據。為了解決這個問題， Waller團隊採用了data sampling 和data augmentation的方法進行負樣本生成，但並不能夠窮盡所有的陰性數據，並且陰性樣本的選擇和生成將對整個系統的預測性能產生重要的影響, 這一點值得未來進行系統的討論。

最後，目前其輸入化合物預測的編碼均採用基於Smile格式的ECFP4指紋編碼，該指紋編碼維度很高，易造成過擬合，未來的方向可以考慮進一步嘗試其他的化合物編碼方式進行預測。Waller團隊也提到其目前的模型基於已有的訓練數據，對某些特定反應機理、三維結構或互變異構體對複雜化合物合成的影響還無法考慮，在複雜天然產物的逆合成以及立體化學選擇性預測方面有很大改進空間。同時，目前的方法只提供了可能的設計路線，而對反應的條件還無法做出準確的預測。

?用AI來篩選藥物，已誕生了一批創新公司，圖片來自http://agfahealthcare.com

總體來說， Waller團隊的工作是基於AI對於藥物逆合成路線設計的一次有益嘗試，同時也存在諸多改進空間。另外，我們注意到該文的第二作者Mike Preuss來自於英國BenevolentAI公司，該公司目前是也已基於AI進行藥物研發的獨角獸公司, 說明學術界和工業界均對於AI加速新葯研發產生了關注。我們期待未來AI技術在該領域再次獲得激動人心的研究成果。

相關文章

[1] Raccuglia P et al. Machine-learning-assistedmaterials discovery using failed experiments, Nature, 2016.

[2] Siliver D et al. Mastering the game of Go withdeep neural networks and tree search, Nature, 2016.

[3] Siliver D et al . Mastering the game of Go without human knowledge,Nature, 2017.

製版編輯：黃玉瑩 |

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

商務合作請聯繫

business@zhishifenzi.com

知識分子為更好的智趣生活 ID：The-Intellectual