如何用機器學習的方法預測蛋白- 蛋白相互作用抑製劑？

02-04

導語

蛋白質-蛋白質相互作用（PPI）與許多生物效應有關，所以特異性干擾蛋白質-蛋白質識別過程的小分子在將來的藥物開發中將變得越來越重要。

本文通過依賴經典QSAR描述符的機器學習方法，將具有蛋白質-蛋白質相互作用（PPI）抑製劑的數據集與FDA藥物資料庫和ZINC資料庫的子集進行比較，得到一個包含三個描述符（SHP2、nRCOOR、Mor11m）的決策樹，通過相關程序驗證，表明它不是偶然相關的結果，而是具有預測潛在PPI抑製劑價值的。此項工作創新性地定義PPI抑製劑識別規則，有利於PPI抑製劑設計及虛擬化合物資料庫的評估和預篩。

圖.決策樹篩選PPI抑製劑的過程

研究過程

1.建立PPI抑製劑資料庫

化合物分子量大於400g/mol，化合物結構高度多樣性，選取FDA批准的藥物資料庫為參考的來源。

2.描述符的篩選

由DRAGON 5計算，得到1664個描述符。如constitutional, molecular profile, functional group count等。

通過從描述符集合中去除與相關係數高於0.9的描述符以及恆定描述符和近似恆定描述符。最後，篩選為637個描述符。

3.初始決策樹建立與修剪決策樹

決策樹通過數據挖掘軟體包WEKA產生。初始決策樹使用了8個描述符，且具有非常高的正確率，對訓練集化合物進行了近乎完美的分類，但是，真陽率在交叉驗證運行中低得多，說明初始決策樹過度配置，並且沒有足夠的預測能力。

為此，將樹的大小進行修剪，限制為最相關的三個描述符（SHP2、nRCOOR、Mor11m）：

SHP2是決策樹頂部最相關的描述符，與分子性質如形狀，大小和延伸有關；

nRCOOR表示分子中酯官能團的數量，此描述符分支點用於排除酯官能團，酯官能團通常不被認為是類葯樣的；

Mor11m表示分子三維結構。

通過修剪得到的決策樹在訓練集的分類方面表現得稍差一些，但是交叉驗證真陽率高，其預測能力也高得多。

表.初始決策樹與修建決策樹對比

4.決策樹的驗證

A.Y-Scrambling

以隨機的方式把25個 PPI抑製劑的分類標籤重新分配到數據集上，再嘗試用混雜的活性數據構建決策樹。如果分類規則是基於機會相關性的，那麼產生的隨機數據集應是此模型與基於真實數據的模型相似的。

但置換測試的結果顯示，在所有情況下所獲得的模型都沒有任何有用的預測能力，且這些模型無法可靠地識別數據集中的真陽性。

B.交叉驗證

交叉驗證程序從訓練集中消除一個或多個數據集（實例），從剩餘的實例中推導出一個定量模型，並預測一個或多個未包括在模型推導中的實例的PPI類。

C.用ZINC子集進行測試

從ZINC7 2007版資料庫中提取了1130個分子，以獲得與25個PPI抑製劑類似的分子量分布的化合物集合。結果顯示有185種化合物被預測為潛在的PPI抑製劑，遠大於訓練數據集，且

「假陽性」的數量很高，表明ZINC資料庫比FDA批准的藥物資料庫包含更多其化學性質和分子形狀與已知的PPI抑製劑類似的化合物。

把ZINC子集限於分子量為400至600g / mol的化合物時，「假陽性」的數目減少，表明，所提出的模型對於分子量較小的化合物效果稍好。

總結

本文利用低維QSAR描述符建立決策樹來篩選PPI抑製劑，並通過建模技術進一步修剪決策樹得到真陽率更高的PPI抑製劑。通過單個描述符可以實現10倍富集的事實清楚地表明，可以基於經典的，低維的QSAR描述符進行有效的虛擬篩選或預選潛在PPI抑製劑。生成的子集可以進一步通過更為複雜的建模技術繼續剔除部分假陰性、假陽性藥物，且從驗證實驗的結果顯示，得到的決策樹並非偶然相關。因此，文中建立的PPI抑製劑識別規則對預選潛在PPI抑製劑有重要意義。

參考文獻：

Neugebauer,A.Hartmann,R.W.;Klein,C.D.Prediction of Protein-Protein Interaction Inhibitors by Chemoinformatics and Machine Learning Methods.J.Med.Chem.2007,50,4665-4668.