前沿 | AI人工智慧可準確預測化學反應產率,有望用於新葯研發
人工智慧(AI)是近年來的爆款話題。在醫藥行業,關於AI能否有效設計新葯的爭論也從未停歇。近日,發表在頂尖學術期刊《科學》上的一項研究,則讓我們看到了積極的一面:來自普林斯頓大學(Princeton University)和默沙東研究實驗室(Merck Research Laboratories)的化學家們開發了一款人工智慧,可以精準地預測化學反應的產率,這有望在新葯開發上得到廣泛的應用。
從本質上看,新葯的合成與製造是化學反應。化學家們為了得到想要的分子,必須以合適的比例加入正確的原料,並提供恰當的反應條件。這聽起來雖然很簡單,但讓機器來預測和設計高產率的化學反應卻並不容易。一個典型的化學反應需要有大量不同的化學分子參與。而每一個額外分子的加入,都會為計算添加一個維度。即便對於近年表現出彩的人工智慧,化學家們也不是很確定它是否能勝任這項工作。
為了讓機器學會設計高產率的化學反應,我們需要幫助它建立一個多維度的模型。但從歷史上看,這一直是個瓶頸。其背後的原因在於這個模型過於複雜,而我們能用來訓練這個模型的數據卻遠遠不夠。幸好,隨著默沙東在機器人系統上的大量投入,現在我們能在短短几天內,完成數千個化學反應。這產生了大量可以用來訓練AI的數據。
▲默沙東研究實驗室的Spencer Dreher博士(圖片來源:默沙東官方網站)
「我非常高興地看到,我們產生的數據質量很高,能用於建立有效的模型。」默沙東研究實驗室的Spencer Dreher博士說道。
在獲得了這些數據,並利用程序對每一個輸入進模型的化學品進行定量標註後,研究人員們考量了多種統計學模型的準確率。有趣的是,行業中常用的線性回歸模型在這一任務的執行上表現並不好,而表現最好的是一類叫做「隨機森林」(random forest)的模型。此類模型能從訓練資料庫中隨機提取出小量的樣本,構建決定樹(decision tree),而每一棵決定樹都能對特定的化學反應產率進行預測。這些預測會被綜合評估,產生一個總體的預測產率。結果表明,這款模型能很好地對訓練數據之外的化學反應進行產率的預測。
▲「隨機森林」模型表現最佳(圖片來源:《科學》)
▲該模型可以準確預測產率(圖片來源:《科學》)
「只要幾百個反應數據,我們就能準確地用模型預測產率。化學家們甚至都不需要機器人的幫助,自己就能完成這些反應。」這項研究的第一作者Derek Ahneman博士說道。
▲普林斯頓大學的Abigail Doyle教授(圖片來源:普林斯頓大學)
「我們開發的這款軟體能適用於任何反應或任何底物類型,」該研究的通訊作者之一,普林斯頓大學的Abigail Doyle教授說道:「我們希望人們能將這一工具應用於其他反應之中。」
參考資料:
[1] Chemists harness artificial intelligence to predict the future of chemical reactions
[2] Predicting reaction performance in C–N cross-coupling using machine learning
推薦閱讀:
※AI與安全
※人類身體2070年能被機器人部件替代
※你聽說過AI(人工智慧)音樂嗎?
※【線上直播】AI行業需要什麼樣的人才
※有關AI的利弊,李開復真的說對了嗎?(芥子說物聯 第十二期)