如何預測蛋白質上單個或幾個氨基酸突變對蛋白質整體構像或性質的影響?
12-24
有什麼理論可以進行預測,或者是已開放的相應預測工具?
根據需要來看:
- 首先是心裡要大致有個基本的概念,要知道不同的氨基酸殘基的帶電、親疏水情況、二級結構傾向性甚至不同的氨基酸殘基的大小。了解天然態結構下與突變殘基空間上靠近(而不只是序列上靠近)的殘基,分析一下相互作用可能發生怎樣的變化。這樣可以自己大致估計到突變前後主要可能是什麼因素髮生了改變,然後可以針對可能發生改變的因素進行一下簡單的分析,例如加進去一個 Pro ,你擔心二級結構發生改變,可以多用幾種二級結構預測工具試試看預測的結果。
- 如果大致心裡有了個數,希望來預測一下結構。簡單的就是在線做一個同源建模,在線的工具有:SWISS-MODEL,常用的軟體有:MODELLER,建模的時候可以人工指定已知的 PDB 結構為模板。這些在線服務和軟體的教程網上有很多,例如:http://www.cbi.pku.edu.cn/chinese/documents/quickguide/guideswissmodel.pdf,MODELLER基礎教程---基於單模板的同源模建,當然,英文的資料就更多了。關於各種方法適用性的討論也有很多,例如:分子模擬還是同源建模。大多數時候,自己做一個 SWISS MODEL 總是很方便的。
- 同源建模之後可能會得出多個候選的結構,本身各種同源建模的方案都會給出一個綜合的「評分」,但是如果還不放心,事後就還應該對這些結構再進行一些優化,優化的時候也有很多講究,例如是直接跑極小化還是加上盒子、水、離子跑極小化,如果有需要還應該做分子動力學模擬。
以上說了這麼多,其實說到底,理論預測只是提供了一些可能性,這些預測並不能保證絕對準確,尤其是突變的情況比較複雜的時候,何況就算知道了突變之後的結構,對於其性質和功能的研究還是會需要實驗。
分享一點實際經驗
對目的蛋白的信息了解的越多越容易預測
- 二級結構預測(psipred)突變氨基酸會不會終止一段α-helix?
- 三級結構預測:突變的氨基酸會不會改變局部電荷性質(例如:RtoE, DtoH)?會不會改變局部疏水/親水特性(例如:疏水核心的某個氨基酸突變成親水性或帶電荷氨基酸)?
- 氨基酸性質:在於氨基酸側鏈:側鏈的大小,電荷,親疏水性
以上三點@傅渥成已經說得很好了。
- 蛋白質功能
- 相互作用蛋白:結合強度,結合比例,結合方式:靜電力/疏水作用/氫鍵等
- 以及一些更細節的,自己在實驗中對蛋白質性質的了解
- 序列比對:不同物種間的保守性,往往保守性很強的氨基酸可能會是決定蛋白質結構、性質的關鍵氨基酸,其實大多數氨基酸的突變都不會對蛋白質結構性質產生很大的影響,尤其是突變成性質相似的氨基酸基本不會有影響,決定蛋白質性質的一般也就是幾個關鍵氨基酸。
我寫一下我們課程上老師給的資料和說的一些方法,僅供參考。
1、「摺疊(fold)」的概念
「摺疊(fold)」是近年來蛋白質研究中應用較廣的一個概念,它是介與二級和三級結構之間的蛋白質結構層次,它描述的是二級結構元素的混合組合方式。
2、二級結構的預測方法介紹:
(1)Chou-Fasman演算法:
是單序列預測方法中的一種,它是使用氨基酸物理化學數據中派生出來的規律來預測二級結構。首先統計出20種氨基酸出現在α螺旋、β摺疊和無規則捲曲中出現頻率的大小,然後計算出每一種氨基酸在這幾種構象中的構象參數Px.構象參數值的大小反映了該種殘基出現在某種構象中的傾向性的大小。按照構象參數值的大小可以把氨基酸分為六個組:Ha(強螺旋形成者)、ha(螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中斷者)、Ba(強螺旋中斷者)。Chou和Fasman根據殘基的傾向性因子提出二級結構預測的經驗規則,要點是沿蛋白序列尋找二級結構的成核位點和終止位點。這種方法可能能夠正確反映蛋白質二級結構的形成過程,但預測成功率並不高,僅有50%左右
(2)GOR演算法:
也是單序列預測方法中的一種,因其作者Garnier, Osguthorpe和 Robson而得名。這種方法是以資訊理論為基礎的,也屬於統計學方法的一種,GOR方法不僅考慮被預測位置本身氨基酸殘基種類對該位置構象的影響,也考慮到相鄰殘基種類對該位置構象的影響。這樣使預測的成功率提高到 65% 左右。GOR方法的優點是物理意義清楚明確,數學表達嚴格,而且很容易寫出相應的計算機程序,但缺點是表達式複雜。
(3)多序列列線預測:
對序列進行多序列比對,並利用多序列比對的信息進行結構的預測。調查者可找到和未知序列相似的序列家族,然後假設序列家族中的同源區有同樣的二級結構,預測不是基於一個序列而是一組序列中的所有序列的一致序列。
(4)基於神經網路的序列預測:
利用神經網路的方法進行序列的預測,BP (Back-Propagation Network) 網路即反饋式神經網路演算法是目前二級結構預測應用最廣的神經網路演算法,它通常是由三層相同的神經元構成的層狀網路,使用反饋式學習規則,底層為輸入層,中間為隱含層,頂層是輸出層,信號在相鄰各層間逐層傳遞,不相鄰的各層間無聯繫,在學習過程中根據輸入的一級結構和二級結構的關係的信息不斷調整各單元之間的權重,最終目標是找到一種好的輸入與輸出的映象,並對未知二級結構的蛋白進行預測。神經網路方法的優點是應用方便,獲得結果較快較好,主要缺點是沒有反映蛋白的物理和化學特性,而且利用大量的可調參數,使結果不易理解。許多預測程序如PHD、PSIPRED等均結合利用了神經網路的計算方法。
(5)基於已有知識的預測方法(knowledge based method):
這類預測方法包括Lim 和 Cohen 兩種方法。Lim 方法是一種物理化學的方法,它根據氨基酸殘基的物理化學性質,包括:疏水性、親水性、帶電性以及體積大小等,並考慮殘基之間的相互作用而制訂出一套預測規則。對於小於50個氨基酸殘基的肽鏈, Lim 方法的預測準確率可以達到73%. 另一種是 Cohen 方法,它的提出當時是為了α/β蛋白的預測,基本原理是說:疏水性殘基決定了二級結構的相對位置,螺旋亞單元或擴展單元是結構域的核心,α螺旋和β摺疊組成了結構域。
(6)混合方法(hybrid system method):
將以上幾種方法選擇性的混合使用,並調整他們之間使用的權重可以提高預測的準確率,目前預測準確率在70%以上的都是混合方法,其中,同源性比較方法、神經網路方法 和 GOR方法 應用最為廣泛。
(7)三級結構的預測:
1)同源性建模:
假設對已知結構的另一個蛋白質序列來排列一個蛋白質的序列,如果靶序列和已知結構序列在整個序列的全長有很高的相似性,在合理的信任度上,我們可以使用已知結構作為靶蛋白質的模版。
2)「串線(threading)」演算法:
串線結構分析是試圖把未知的氨基酸序列和各種已存在的三維結構相匹配,並評估序列摺疊成那種結構的合適度。串線法最適用於摺疊(fold)的識別,而不是模型的建立。它是快速用未知序列的氨基酸側鏈替換已知序列中的氨基酸位置。Jones等首先從蛋白質結構資料庫中挑選蛋白質結構建立摺疊子資料庫,以摺疊子資料庫中的摺疊結構作為模板,將目標序列與這些模板一一匹配,通過計算打分函數值判斷匹配程度,根據打分值給模板結構排序,其中打分最高的被認為是目標序列最可能採取的摺疊結構。Threading 方法的難點在於序列與摺疊結構的匹配技術和打分函數的確定。(Jones等,1992)
(8)蛋白質二級結構預測:
蛋白質二級結構的預測通常被認為是蛋白結構預測的第一步,是根據它們被預測的局部結構,對蛋白序列中的氨基酸進行分類。二級結構的預測方法通常分為多序列列線預測和單序列預測的方法。由於單序列預測所提供的信息只是殘基的順序而沒有其空間分布的信息,所以單序列預測的演算法預測準確率並不高而且對於一些特殊結構,這些演算法很難預測成功。多序列列線預測和神經網路的應用大大提高了二級結構預測的準確度,通過對序列比對的預測可以明確的提供單一位點在三維結構上的信息。這樣通常二級結構預測的準確率比單序列預測能夠提高10%.許多方法據說可達到70%-77%,目前較為常用的幾種方法有:PHD、PSIPRED、Jpred、 PREDATOR、PSA。其中最常用的是PHD。PHD結合了許多神經網路的成果,每個結果都是根據局部序列上下文關係和整體蛋白質性質(蛋白質長度、氨基酸頻率等)來預測殘基的二級結構。那麼,最終的預測是這些神經網路每個輸出的算術平均值。這種結合方案被稱為陪審團決定法(jury decision)或者稱為所有勝利者(winner-take-all)法。PHD被認為是二級結構預測的標準。
(9)蛋白質三級結構預測:
蛋白質三維結構的預測方法通常包括:同源性建模和從頭開始的預測方法。對資料庫中已知結構的序列的比對是預測未知序列三級結構的主要方法,也即同源建模的方法。通常對於同源建模的方法過程並非統一,但基本思路是一致的,基本包括如下幾個步驟:
1.使用未知序列作為查詢來搜索已知蛋白質結構。
2.產生未知序列和模版序列最可能的完整比對。
3.以模版結構骨架作為模型,建立蛋白質骨架模型。
4.在靶序列或者模版序列的有空位區域,使用環建模過程代替合適長度的片段。
5.給骨架模型加上側鏈。
6.優化側鏈的位置。
7.使用能量最小和已知的優化知識來優化結構。
1)查看同蛋白家族、已被深入研究的蛋白質,哪些位置上的什麼氨基酸對該蛋白的結構和功能有顯著影響。
2)如果不知道感興趣蛋白的3D結構,用軟體預測結構,比如 MODELLER 。
3)通過氨基酸的位置、親/疏水性質、遺傳保守度等,判斷氨基酸的重要性。
4)用氨基酸定點突變實驗,驗證或否定自己的假說。
首先是最好獲得蛋白質的三維結構,(不管是xray還是nmr),一般來講除非同源性很高,否則建的模型根本不靠譜。然後,可以通過分子動力學模擬來檢測突變後蛋白質結構的變化。獲得一定的「」嫌疑犯」之後再去做「wet」實驗驗證。
ps: 誠實的說,去做序列比對,然後找到高同源性蛋白的paper,參考別人的結果是捷徑。
首次回答知乎,盼亮~
純計算手段:
1.僅簡單關注功能影響,可以考慮SIFT、
PROVEAN等方法。
2.如果關心結構變化,可以考慮蛋白質結構預測軟體,如ITASSER、Rosetta、FR-t5-M等;突變殘基側鏈預測優化軟體,如CIS-RR、RASP等;結構模型質量評估,如MEFTop。
3.最好具備結構、生化、分子生物學基礎知識,才能有效解讀計算模型給出的信息。
計算預測,永遠是提供參考,幫你分析可能性,給出可能機制。如果想深入研究突變的結構功能影響,還是需要基於計算指導,合理設計實驗進行驗證。
蛋白質的功能取決於蛋白質的結構,也就是說對蛋白質的性質的影響等同於對蛋白質三維空間結構影響。
就目前的預測方法看,如果只有幾個氨基酸的變化對整體的拓撲結構不會有很大影響,但是對某些特殊蛋白質並非如此,比如血紅蛋白。
如果只是幾個氨基酸的變化,也許可以從物理的層面考慮,給一個大致的預判,比如如果有疏水氨基酸,蛋白質結構會有什麼變化,親水的有什麼變化,氨基酸的partial charge 也要考慮進去。可以試試ITASSER,看看IRASSER給出的可信度。工具的話,SIFT和polyphen。然後可以查看這兩個工具的文章,這兩個文章的參考文獻,以及引用這兩個工具文章的新文獻(新發展的方法肯定要提一下已有的工具,要引用其文章)。
前些日子我們樓下做結構的推薦了個軟體wincoot,免費的,軟體可以模擬點突變,但是點突變對蛋白整體的影響看不出來
推薦閱讀:
※如何評價美國15歲少年發明低成本癌症檢測法?
※用可見光 分光光度法測量蛋白質含量時,為什麼強調在一定範圍內顏色深度與蛋白質濃度成正比?
※如何區分尿液上的大量泡沫是由尿膽原還是蛋白質引起的呢?
※雙向電泳在蛋白質組學中的應用?
※taq酶為什麼會耐高溫?