動力學模擬蛋白質摺疊的研究,現在還存在什麼問題?

進一步說,是否還有哪些方面值得研究?


我想首先界定清楚這個問題裡面的兩個概念,其一是「動力學模擬」,其二是「蛋白質摺疊」。
(一)先談「蛋白質摺疊」吧。所謂的蛋白質摺疊,究竟是怎樣的問題。簡單來說,蛋白質摺疊的問題就是從一條沒有固定結構的氨基酸序列(多肽鏈)摺疊成為具有特定三維結構的蛋白質分子的過程。這個問題從不同的角度切入,實際上是不同的問題:
A、組合優化問題。蛋白質的天然態結構其實是一個能量最低的狀態,但是蛋白質究竟是怎樣從各種各樣的氨基酸殘基密堆積中找出這樣一種「正確的」的能量最低的結構呢?從這個角度切入,會發現摺疊問題是一個組合優化的NP問題,類似的問題有K-SAT問題(K&>2)等等。
B、機器學習+統計推斷問題。從已知的序列和結構的對應關係中不斷學習,從而當面對一條新的序列,從已知的一些信息中推斷出可能的蛋白質的結構,這是信息學的方法。
C、從進化和生物序列設計原則(design principle)的角度。認為現在的天然態蛋白質經過很長時間的進化,因此其序列和結構應該是某種意義上經過優化的,這裡面或許蘊含著許多優秀的特徵。認識這些特徵,對蛋白質的摺疊過程也應當是有利的。
D、物理學和化學的視角。從生物分子內部,以及生物分子外部環境中存在的物理的、化學的各種要素出發,分析每一個時刻蛋白質分子的受力與運動的情況,來模擬一個真實的蛋白質的摺疊過程。這個問題裡面提到的「蛋白質摺疊」問題,其實僅僅只是D這一個層面的問題。真正希望解決清楚蛋白質天然結構的問題,應該是「結構預測」問題,這一問題應該最終是由B和C層面的技術的改進而得到更簡單,更基礎的解決,而D則應該是為我們描繪一幅更細節,更美妙的圖景。

(二)談談「動力學模擬」。「動力學模擬」中的「動力學」,對應的英文單詞是「Dynamics」,而在摺疊問題上,我們還常常提到另一個「動力學」,對應的英文單詞是「Kinetics」。這兩個問題實際上有不同的側重點:
A、Dynamics關注的核心問題是摺疊能量面的刻畫,研究的主要目的是為了建構出蛋白質摺疊等運動過程中的一個準確的能量面,一般也蛋白質摺疊過程中「過渡態」(位於能壘上)和形成正確摺疊的重要的「中間狀態」的尋找認為是屬於動力學研究的範疇。
B、Kinetics關注的核心問題是在能量面上的「粒子」的擴散問題,實際上也就是——當我們知道了與「能壘」「勢阱」有關的一些情況之後,怎樣從這些來得到與「反應速率」相關的一系列概念。
實際的一個研究很難說將「Dynamics」與「Kinetics」完全區隔開。
一個實際的「動力學模擬」的過程可能是這樣的:
(1)物理背景和生物背景的分析,反應坐標(廣義坐標,某種意義上類似於「序參量」)的選取。
(2)模擬體系的搭建,如果涉及到一些需要特別關注的細節還涉及到力場參數的選擇等等。
(3)分子動力學模擬,採樣,還原得到一個精細的能量面的刻畫,找出過渡態等重要的中間狀態。
(4)從分子動力學模擬的結果,來進行動理學的分析,例如首先對微觀狀態進行聚類分析(clustering),然後建立一個Markov鏈來描述狀態之間的轉移,了解狀態間轉移所需要的時間,找出一些限速的步驟,分析一些重要的轉化的步驟之間的協同性(cooperativity),找出摺疊的路徑等等。

我想把問題限制住不至於過於發散,因此這裡將主要談真正屬於「Dynamics」的部分。我列舉一些我自己比較關心的,與真正研究摺疊問題有關的關鍵性的問題。

1、計算能力的問題。現在的分子動力學模擬所需要耗費的機時仍然很長,尤其是如果希望模擬到全原子(每一個原子都作為模擬中的一個單位,記錄其坐標,偶爾有時候的「全原子」會把氫原子排除在外)或者更細節的一些情況(甚至考慮電荷的非均勻分布,在實際全原子的基礎上再引入一些帶有電荷,但是沒有質量的虛粒子),這時成千上萬的原子集合在一起(尤其是如果我們希望模擬膜蛋白的話,還需要搭建一個生物膜體系,這時所需要考慮的原子數目太多了),不管有怎樣高效的方法,如果希望分析某一個特定能量尺度的問題,就必須考慮這一層次下的相互作用,當這些細節考慮得越來越多,實際的計算所能模擬的時間尺度則就只可能非常短的(ns),而生命活動中有些過程涉及的時間尺度會相對比較長。
2、非平衡的問題。這一點先接著上一個問題的後面來談,注意到一個細節:如果我們來做一些單分子實驗,例如用一些力學的手段來迫使蛋白質去摺疊,模擬這一過程,如果我們希望與實驗相符合,實驗拉動一次蛋白,可能花費的時間是μs或者ms量級的。實驗的這一結果可以被看成是准靜態的,因為這一個拉動過程對蛋白質來說其實是相當緩慢的變化,因此每個小小的變化都可以看成是平衡模擬。而在計算中,勢必會希望用儘可能短的時間來模擬這一過程,如果現在計算能力受限,那麼在1ns的時間內重複1μs的實驗過程,這種推斷很可能是完全錯誤的——因為非平衡下可能有許多完全不一樣的物理。解決這一問題的一個思路是從第二定律的角度出發,可能利用Jarzynski等式可以做出一些有意思的突破。
3、多尺度的問題。模擬是否需要到全原子的尺度?當研究一個大的分子機器的運動的時候,顯然不需要考慮到它周圍的水分子的運動,也不需要考慮局部的細節,我們只希望看到某種大尺度的變構。例如把一個氨基酸殘基視為一個「粗粒」,用這樣的「粗粒」來跑一個模擬,這樣的模擬應該更有效率。事實也是如此,可是這些粗粒之間的相互作用強度應該是怎樣?怎樣來建構一個具有普遍性的,適用於多尺度的模擬的某種力場或者蛋白質的理論,使得它能像重整化群理論那樣成功?在我看來多尺度的問題是解決蛋白質摺疊問題的關鍵所在,但是怎樣將一個粗粒化的模型跟一個全原子的力場,或者量子化學的力場銜接起來,或者是自己想像中建立了一個抽象的模型,例如一個用「自旋」來描述氫鍵的模型,怎樣讓其他人相信這個模型是可以描述蛋白質問題的。這些都是困難所在。不過現在也有一些比較成功的一些模擬技術有的開始越來越關注這一問題,如CafeMol。
4、溫度的問題(採樣效率的問題)。如果你做過Monte Carlo模擬,這一部分解釋起來就很簡單,如果溫度很低,那麼我嘗試一步改變,可是溫度太低,這樣的改變不能被接收,則放棄掉這一個嘗試。分子動力學模擬也有同樣的困境,當溫度比較低(相對於某一個勢壘的高度換算成的kT而言)的時候,系統會最終陷落在某一個能量並非最小的狀態中,使得模擬無法遍歷各個構型,這時所謂的「摺疊」可能是完全錯誤的,同時伴隨著大量機時的浪費,嘗試解決這一問題的方法最出名嘗試的莫過於副本交換的分子模擬(Replica-Exchange Molecular Dynamics)。
5、化學的問題。怎樣準確模擬一些配體離子或者小分子與蛋白質的配合作用,這裡面涉及到的不只是簡單地Coulomb作用(也不只是靜電屏蔽),涉及到帶電粒子又對蛋白質產生的極化等等。而一個獨立的氨基酸的pKa可以實驗測量,可是在某個環境中的氨基酸殘基的pKa則很難準確地估計,這些都是化學上的一些挑戰。現在一般解決這些問題可能會需要採用更多的實驗的結果或者從頭計算的結果來進行擬合,在現有的一些力場的基礎上進行修改,如果希望考慮電荷的轉移等問題還需要考慮引入極化力場,這時有可能虛原子的引入是有必要的——不過「給我12個參數,我可以把大象立在牆上」,這種時候的參數是否仍然值得相信又是另外一個重大的問題。不過總的來說,從一些小的,能夠精確求解的量子化學基態出發,推斷「受力」和極化的情況,繼而用這一結果來研究更大的生物體系的問題,這並不是一個太離譜的思路。有關化學的問題還包括,怎樣用分子模擬來反映如尿素,鹽酸胍等分子或者pH條件對蛋白質產生的變性作用。
6、真實情況可能更加複雜。細胞中可能有著流體力學環境或者擁擠環境(包括分子伴侶的作用),這些會加速蛋白質的摺疊,而蛋白質的摺疊過程還可能與其它過程想耦合,例如摺疊與結合(binding)、摺疊與聚合等等過程的耦合,結構域交叉(domain swapping)蛋白質的摺疊等等,特別是現在發現的一些天然無序蛋白質,它們可能在不同的環境,在不同的結合或者修飾的狀態下,表現出完全不同的有序或者無序的結構,這是對Anfinsen——Wolynes以來的蛋白質摺疊的關鍵的思想的挑戰。
7、阻措(Frustration)的問題。這是蛋白質摺疊最大的困難所在。雖然之前的Go模型假設蛋白質因為經過了千百萬年的進化,相應的阻措應該最小,但是這一假定還是過於強大,有的蛋白質結構很接近但是摺疊的過程可能很不相同,這就是Go模型所不能解釋的,通往正確摺疊的道路上必然還存在著很多其它的歧路,那麼怎樣保證「未選擇的路」就是不正確的呢?摺疊問題總的來說還是太困難,因此絕大多數時候我們都是先通過去摺疊來猜測摺疊過程中的一些可能的過程(當然一個重大的批評就是說「建構一座大廈的過程顯然會跟拆毀一座大廈很不同」),但是不管怎樣這是使得這一問題能夠入手的關鍵性的簡化,在去摺疊的問題研究得更清楚的情況下,或許才能讓我們用更簡單的眼光來重新審視摺疊過程。


我比較同意前面王亮的答案,不過順序反過來,先是時間尺度問題,再是力場精度問題。
蛋白質摺疊大約需要微秒毫秒量級的模擬,現在有這個計算能力的課題組全世界也屈指可數。不過隨著計算機技術的發展,這個難題估計很快就會解決。現有分子力學力場包含大量經驗和半經驗的參數,長時間尺度下的力場優化,在計算能力有限的情況下,這方面的研究也很少。
不過畢竟現在已經有了成功的例子,而且借著去年諾獎東風,生物學家對分子動力學模擬的信心空前高漲,相關研究估計會有一個高潮。


用一句人話回答,就是人們還沒搞清楚如何用數學和演算法來描述蛋白摺疊的機理,所以有時候動力學系統包含了太多的細節參數,從面算的很慢,而有些重要的原子間關係又沒考慮到,以致於結果與實際有差距。


在energy landscape上,md浪費了太多時間在一個local minimum,以等待足夠的fluctuation去跑到鄰近local minimum。 我的folding在等待 永遠在等待 呵呵呵


準確性還不高,計算量太大。暫時還不如機器學習演算法,但更有前途,不需要訓練語料


計算能力不足。
什麼時候多數分子動力學模擬能在一天內輸出數據,可以做的工作就多太多了。

比如:對35個氨基酸的小蛋白用分子動力學做20ns 的摺疊模擬,以我們實驗室的計算能力一跑就是幾個星期,實驗室里最常出現的矛盾是搶計算節點。不過現在據說大部分用 GPU 來做了,估計會好很多。


推薦閱讀:

在 MD 安德森癌症中心學習是一種怎樣的體驗?
網上的生物信息學資源都有哪些?
如何快速掌握TCGA資料庫?
與生物有關的交叉學科有哪些,他們的發展情況如何?
如何自學生物信息學?

TAG:生物學 | 生物信息學 | 計算生物學 |