生物信息學軟體推薦/課程總結

01-30

常用生物信息學網站/軟體總結，以及總結一下這學期bioinfo課學了啥。

寫在前面：這是一篇課程筆記，對這學期的生物信息學課程主要內容做了大致的總結。由於是給本科三年級計算生物學專業學生開設，這門課內容可能會比較基礎，寫筆記在這裡也是希望對同在入門的同學有所幫助。詳略程度很受我自己的影響，不清楚的地方可以自行深入了解orz..也歡迎補充、指正、交流。

總的來說這學期的生物信息學課內容詳略得當、作業合理，可能以後更多和具體項目結合會更好。這篇文章會簡單總結一下生物信息學一些大方向的概要筆記、和一些常用網站/軟體資源。可以先收藏老師的這個匯總網站再看下面的總結↓↓↓

LabShare 生物信息學在線軟體集錦

在查資料過程偶遇北大Applied Bioinfomatics Course的課程網站,很多學習資源和總結，可以看看網站鏈接

資料庫資源

幾個常用生物資料庫，前三個是最基礎常用的。

核酸序列資料庫GenBank
蛋白序列資料庫UniProt
生物大分子三維結構資料庫PDB
蛋白質結構資料庫SCOP
基因晶元資料庫GEO
腫瘤基因圖譜資料庫TCGA

GenBank

GenBank與歐洲EMBL、日本DDBJ建立了交換數據的合作關係
分類：高通量基因組序列（HTG）、表達序列標記（EST）、序列標記位點（STS）、基因組概覽序列（GSS）
內容：將一條序列相關的各種信息，按一定的結構，以文本文件(text file)的形式組織在一起，構成一個GenBank record (entry)

Universal Protein Knowledgebase(UniProt)

Swiss-Prot， TrEMBL 和 PIR 三大資料庫組合
UniProtKB/Swiss-Prot：檢查過的、手工注釋的條目;UniProtKB/TrEMBL:未校驗的、自動注釋的條目

Protein Data Bank(PDB)

搜索方式：PDB id、文本、針對特定領域的資料庫

序列比對

從序列的相似性推測同源性，進而得到關於結構、功能和進化的關係。這裡要注意同源性是生物學上關係的描述，而相似性是針對數據本身差異的描述，相似並不一定說明同源。

那麼是選取蛋白質的序列還是DNA的序列作比對呢？一般從進化意義上分析,蛋白比對比核苷酸更可取，蛋白序列比核苷酸序列可以追溯更久的歷史，其次，分析蛋白質的序列忽略了密碼子簡併性，得到結果更反映進化關係。

比對序列之前，首先要評估不同氨基酸的相似性。常用評估相似性方法：PAM矩陣和BLOSUM矩陣

PAM矩陣(Point Accepted Mutation)：由最初一個資料庫得到的氨基酸兩兩突變頻率表
BLOSUM矩陣：蛋白質序列高度保守部分比對得到，是現在很多軟體的首選

使用區別

PAM-n的n越小，表氨基酸變異可能性小，小n適合更相似的序列之間使用
BLOSUM-n的n越小，表氨基酸相似可能性小，小n適合不太相似的序列之間使用

關於序列比對演算法，都採用了動態規劃的思想

全局：Needleman-Wunsch演算法，序列頭尾空位都要罰分
局部：Smith-Waterman演算法，只關注局部

（這學期有個選做作業就是實現Needleman-Wunsch演算法）

Blast (Basic Local Alignment Search Tool)

Blast是尋找序列局部相似性的演算法，另有一個很老的演算法叫FASTA，針對全局的序列比對。Blast在雙序列比對中有很廣的應用，NCBI Blast和Uniprot Blast都提供了在線的使用。除此之外，雙序列比對演算法也有基於隱馬爾科夫模型的HMMER和HHblits，速度更快。

前面提到序列之間的相似性只能推測其同源性，Blast的統計學顯著性由E-value評估，E值越小，結果越有意義。有一些經驗規則，如E值小於 0.01的序列可以認定為同源序列。

Blast搜索結果的應對策略

結果過多：合適的資料庫、限定種屬、各結構域單獨搜索、調整評分矩陣、調整E值閾值
結果過少：不同的資料庫、取消種屬限制、使用n小的BLOSUM矩陣或n大的PAM矩陣、提高E值、PSI-BLAST或HMMs(隱馬模型)等更敏感的辦法

PSI-BLAST (Position-Specific Iterated Blast) 用於發現相似性低但可能存在生物學聯繫的相關蛋白。原理是：每次進行多序列比對後建立一個位置特異性矩陣(PSSM), 然後利用這個矩陣在資料庫進行搜索，評估結果的統計學顯著性，再根據搜索結果更新PSSM，不斷循環，最終得出結果。

除了PSI-Blast，另一種縮寫很像但完全不一樣的PHI-BLAST (Pattern-Hit Initiated Blast) 演算法可以按一定的序列模式進行搜索，Pattern的語法規則pattern syntax，序列特徵參考PRINTS,PROSITE.

多序列比對(multi-sequence alignment)

多序列比對用於找出 一組序列 中的保守片段，以便進行結構、功能、進化方面的分析。與雙序列比對不同，多序列比對照顧不到每兩個序列比對結果，只能盡量使相似的地方出現在相同位置；並且結果無對錯之分，我們只能評價這個結果是否合理。

多序列比對的方法

手工比對（先Needleman-Wunsch動態規劃兩兩比對，再肉眼觀察對齊一些關鍵性殘基）
同步法（擴展二維動態規劃矩陣到多維，將所有序列同時比對，計算量大，適合少量短序列）
步進法（先Needleman演算法兩兩比對，選出一對最相近序列作為基準，將和兩條基準序列最相近的第三條序列加進去一起對齊，如果有空位則遵循「once a gap, always a ap」原則，陸續加入其他序列直到全部完成）

步進法的代表為ClustalW，現在已發展為Clustal Omega。除了ClustalW，也有其他具有不同特點的軟體，如MUSCLE, MAFFT,Cobalt,PRALINE, ProbCons, T-Coffee, Expresso, M-coffee等，這是omictools網站列出的相關軟體，wiki上也列出的雙序列和多序列比對演算法及其特點，可以大致看看。

多序列比對在序列相似程度較低的時候準確性會明顯下降。確定結果是否準確可以看：蛋白質保守的殘基、motif、二級結構偏好和一些區域恆定的插入刪除模式。

多序列比對結果的形象顯示工具——Squence Logo

進化樹構建

研究生物進化的一個重要途徑就是對於生物大分子的比較，根據分子進化速率恆定（中性理論）、不同物種同源大分子的進化速率大致相同（分子鐘理論）等，可通過不同物種同源大分子的比較，確定物種間親緣關係、分支時間、構建系統進化樹。

這一部分推薦文章開頭提到應用生物信息課程的一個分子系統發育分析課件

分子進化樹的構建

方法有：

距離法（UPGMA, Minimal Evolution, Neighbor-Joining）
最大簡約法（Maximum parsimony，MP）
最大似然法（Maximum likelihood，ML）
貝葉斯推斷（Bayesian）

建立分子進化樹之後一定要進行可靠性檢驗，常用方法為bootstrap法，一般認為Bootstrap值>70時，進化樹可信。對比較序列上的替換位點作多次隨機取樣，根據每次取樣的數

據可以得到新的樹形圖，相同的組合出現在某一個節點上的次數佔總取樣次數的百分比就是該節點的bootstrap值。另外的進化樹可信度檢驗方法還有Delete-half-jackknifing, Permuting species within characters

常用繪製進化樹的軟體：

PHYLIP (Phylogenetic Inference Package)
Mega (Molecular Evolutionary Genetics Analysis)
PAUP (Phylogenetic Analysis Using Parsimony)
PAML (Phylogenetic Analysis by Maximum Likelihood)

分子進化的局限

分子進化和物種進化也是有區別的，使用分子進化推測物種進化會存在一些問題。

單個分子代表整個物種的片面性問題
基因橫向遷移(Lateral Gene Transfer)的問題
基因重複(gene duplication)使難以區分直系或旁系同源的問題
方法本身沒有考慮多次突變、回復突變的問題

用一個特徵分子代表一個物種的方法受到了質疑，且生命出現早期基因橫向遷移的現象也使進化樹成網狀而不是單純的二叉樹。也有人提出基於共有基因含量的進化樹構建（nature genetics,1999）。兩個基因組之間的共同基因的數量與它們的進化距離相關，以此來推斷兩個物種間的相似性。

蛋白質三維結構分析與預測

通常使用均方根偏差RMSD(root mean square deviation)作為兩種或更多種蛋白質結構之間相似性的定量度量。RMSD通常是骨架原子之間平均距離的量度，單位是埃，RMSD越低，模型與目標結構相比越好。RMSD小於2埃時表示結構很相似，大於6.5埃表示拓撲結構不同。

結構比對的網站：1.RCSB PDB Sequence & Structure Alignment, 2.StructureAlign by Dr. Cao

蛋白質三維結構預測一直是個有重要意義並受到很多關注的領域，並有專門且持續的比賽CASP

蛋白質三維結構預測的主要辦法有基於模板的結構預測（同源建模、摺疊識別）,不依賴模板的結構預測（從頭計算）。按常用順序依次是同源建模、摺疊識別、從頭計算，實在找不到模板了才會從頭計算。

同源建模 Homology modeling

八個步驟比對->建模->修正（這段大家感受一下思想和流程…總結得可能不準確）

Template recognition and initial alignment
PDB里Blast尋找匹配程度最高的，作為模板
Alignment correction
修正功能性的殘基、刪除位點等，使用多序列比對
Backbone generation
使用模板產生主幹的模型，按上面判斷刪除位點、保留保守殘基
Loop modeling
條帶連接部分的loop選擇後匹配
Sidechain modeling
側鏈角度的匹配
Model optimization
分子動力學模擬使結構能量最低，全局優化
Model validation
檢驗phi角等來確認模型是否合理，網站ProCheck, WhatIf server
Iteration

從錯誤的步驟重新開始，不斷循環直至得到目標結構

推薦軟體

Modeller
SWISS MODEL

摺疊識別 Fold Recognition/Threading

基於蛋白摺疊模式來預測，例子是這個

I-TASSER (Iterative Threading ASSEmbly Refinement)

從頭計算 Ab initio/de novo prediction

已知結構的片段建庫，與蛋白序列對應，組裝這些亞結構的單元，可以預測新的結構。例子是這個

QUARK:Ab initio structure prediction method

分子對接與虛擬篩選

分子對接即預測受體和配體分子形成的複合物結構，分為兩類：蛋白和蛋白、蛋白和小分子。兩者結合特徵不同，蛋白和小分子結合面很小，有結合口袋binding pocket，結合準確性高，這裡主要討論蛋白與小分子結合。

找出空穴，定出表面

Q-SiteFinder
SiteHound

代表性對接軟體

有很多 Flex X, LigandFit, Glide, Gold, AutoDock, Dock, ICM-Dock, Fred(open eye) etc. Autodock Vina的網站

分子對接計算的需要注意的地方也需從小分子、蛋白質和對接三方面來考慮。

藥物設計與發現

分子對接對於藥物靶點的發現十分重要，現代藥物開發多從疾病入手，用疾病模型去尋找可能的藥物靶點。高通量藥物篩選（High throughput screen,HTS）技術便是生物信息應用到這一領域的技術。曾在生命科學聯合中心暑期班通過清華藥學院一位老師講他們實驗室做的相關成果，有時間再來這裡補充一下。

虛擬篩選

指的是從大量的化合物中經過篩選，找出與靶標分子結合的最佳分子，得到一個合理大小的化合物庫，然後僅對這些適合成藥的化合物購買、合成或分離得到，然後再進行實際的生物測試。

蛋白質設計

蛋白質設計是蛋白質三維結構預測的逆問題，即已知結構，找到能摺疊成這個結構的氨基酸序列。蛋白質設計的一些例子有：蛋白間相互作用的設計、酶催化反應的設計、HIV疫苗等。（此處略去很多老師給的例子…）

可以看看這個建模和分析蛋白結構的軟體Rosetta software suite

蛋白質設計存在的困難在於打分函數、搜索演算法和應用這三方面。

生物晶元分析

基因晶元的數據分析有以下幾類：

差異表達分析
使用標準的統計學方法檢驗 (t-test)，發現統計顯著性差異表達的基因
基因共表達分析
在N個不同的條件下 (時間序列的晶元數據)，考察基因X和Y的表達是否相似
表達數據的聚類
將表達譜相似的基因聚類在一起
與GO資料庫關聯分析
基因調控網路

幾個沒細看的資料庫：Gene Expression Omnibus-NCBI; ArrayExpress-EMBL; 用不了的的Stanford Microarray Database

基因結構分析

一些常用軟體（emmm因為懶所以這裡就不附上超鏈接了）

識別基因 GENSCAN;GENOMESCAN
CpG島 CpGPlot
啟動子/轉錄起始位點 PromoterScan
轉錄終止信號 POLYAH
密碼子偏好分析 CodonW
mRNA剪切位點 NETGENE2；Spidey
選擇性剪切 ASTD

如果發現我後面寫的都很簡略…一部分原因是後面的結構相關沒有特別感興趣，所以沒有認真聽，當然除了前面寫的最詳細的序列比對進化分析，後面的也很重要。希望這篇筆記能有所幫助，歡迎大家指正和補充orz

註：這是筆記的最新版本，也同時更新在我的個人博客上生物信息學軟體推薦/課程總結

不知怎的，編輯完想再加上最後一句話，「紙上得來終覺淺，絕知此事要躬行」，共勉哇。