機器學習(machine learning)在化學上的應用實例

很多朋友之前問我,機器學習在化學上有用嗎?怎麼用?

因為之前太忙,也沒有看到什麼特別重磅的文章,所以一直不理不睬,最近看到兩篇非常好的工作,分享給大家。

首先是最近的Science.

"Predicting reaction performance in C–N cross-coupling using machine learning"

Science 15 Feb 2018: DOI: 10.1126/science.aar5169

Predicting reaction performance in C–N cross-coupling using machine learning?

science.sciencemag.org圖標

作者自己是這麼寫的

機器學習方法正在成為眾多學科科學研究的組成部分。 在這裡,我們證明機器學習可以用來預測在多維化學空間中使用通過高通量實驗獲得的數據的合成反應的性能。 我們創建了腳本來計算和提取原子,分子和振動描述符,用於鈀催化的Buchwald-Hartwig芳基鹵化物與4-甲基苯胺在各種潛在抑制/添加劑存在下的交叉偶聯反應。 使用這些描述符作為輸入和反應產量作為輸出,我們表明隨機森林演算法提供了比線性回歸分析顯著改進的預測性能。 隨機森林模型也成功地應用於稀疏訓練集和樣本外預測,表明其在促進採用綜合方法論方面的價值。

我不打算花太多篇幅普及什麼是鈀催化的Buchwald-Hartwig偶聯反應,什麼是隨機森林演算法,這兩者在相關領域都是如雷貫耳的存在,自行百度或者Google即可。

簡而言之,作者們首先使用Merk的高通量反應儀,做了4608個偶聯反應。然後這些數據作為機器學習的訓練數據集,主要是考慮不同的鈀催化劑配體對產物的影響。

結果還是非常震撼的,讓人激動。

這個工作的意義無疑是巨大的,相信每一個做偶聯反應,人肉篩過條件的小朋友們都會瑟瑟發抖。更重要的是,這篇文章還只是撿了Buchwald-Hartwig偶聯這個神級反應(軟柿子)捏,其它大量問題顯然也可以用同樣的思路來解決。

另一篇文章是來自JPC Letter,也很漂亮。

Accelerating Chemical Discovery with Machine Learning: Simulated Evolution of Spin Crossover Complexes with an Artificial Neural Network

J. Phys. Chem. Lett., 2018, 9 (5), pp 1064–1071

DOI: 10.1021/acs.jpclett.8b00170

Accelerating Chemical Discovery with Machine Learning: Simulated Evolution of Spin Crossover Complexes with an Artificial Neural Network?

pubs.acs.org圖標

老規矩,先看作者怎麼寫的。

機器學習(ML)已經成為對材料發現的模擬的有力補充,它通過縮短與第一原理方法相競爭的精度來評估能量和性質。我們使用遺傳演算法(GA)優化來發現非常規自旋交叉複合物,並結合預測無機複合物自旋態分裂的人工神經網路(ANN)的高效評分。我們探索了由8種金屬/氧化態組合和32配體池組成的超過5600種候選材料的複合空間。我們通過限制GA遠離最近的ANN訓練點,同時使屬性(即自旋分裂)適應性最大化,從而導致發現全部化學品的80%的線索,引入用於錯誤感知ML驅動發現的策略空間枚舉。在51個複合子集上,平均無符號誤差(4.5千卡/摩爾)接近人工神經網路基線3千卡/摩爾誤差。通過在幾秒鐘內從訓練好的人工神經網路獲得線索,而不是從DFT驅動的遺傳演算法獲得數天,該策略證明了ML加速無機材料發現的力量。

這篇文章作者主要是想發現新的無機材料,高自旋和低自旋態之間的energy gap比較小的那些材料。顯然一個一個材料合成然後來測試是費時費力的,需要先從理論上預測,然後合成驗證,這樣才可以節約大量時間。

傳統方法可以用DFT來算,但是用過DFT的人都知道,準是准,就是太太太太慢了。

所以作者想發展一類機器學習演算法,使獲得在和DFT差不多精度的前提下,大幅提升計算速度。

具體演算法不提了,總之,作者最後搞定的這個演算法,用372分鐘算完了,要是用DFT要4天多,精度對比如上圖所示,完全在可接受的程度。

如果這個方法可以進一步發展,那麼作者完全有可能在短時間內實現對百萬量級的候選材料的理論計算,前景可想而知。

每天學習,多一點進步,這個世界讓我瑟瑟發抖。


推薦閱讀:

《膠我選》是幹什麼的
【元素家族——連載128】野外生存必備良藥
【展品】從天而降的金屬?

TAG:機器學習 | 材料科學 | 化學 |