生物信息之多序列比對,進化樹分析,保守位點分析
05-15
?# 序列下載與整理
網址:https://www.ncbi.nlm.nih.gov/gene
下載fasta格式序列
- 輸入你想查找的序列,比如Syp基因
- 進入基因詳細信息頁面
- 點擊Genbank
- 如圖所示可以下載到fasta格式的序列,注意這裡下載的是基因或者蛋白質的全序列
- 假如你希望得到promoter的基因,可以在如圖所示的位置輸入起始位點和終止位點
- 一般promoter的位點不確定,可以通過將起始位點左右2kb基因視為promoter
- 比如:如圖起始位點為7638580,那麼起始位點要減500,終止位點加1499,這時需要在from輸入7638080,to輸入7640079(得到長度為2kb的序列)
- 點擊
Update view
按鈕
- 然後和同上一步下載fasta序列
合併多個fasta文件
- 下載多個序列後,你的文件夾應該是這樣的
- 在文件夾空白地方
Shift+右鍵
,點擊在此處打開命令窗口
- 輸入
type *.fasta > all_sequence.fasta
- 得到整合文件 all_sequence.fasta(這個文件也可以通過記事本打開,下面軟體為UE)
多序列比對
Clustalw,Clustalx 與 MEGA的下載安裝
Clustalw 下載鏈接:http://www.clustal.org/download/current/clustalw-2.1-win.msi
Clustalx 下載鏈接:http://www.clustal.org/download/current/clustalx-2.1-win.msiMEGA 下載鏈接:http://www.megasoftware.net/releases/MEGA7.0.26_win64_setup.exe
序列比對
-
打開MEGA,進入序列比對分析
- 載入fasta序列
-
使用Clustalw 比對序列,參數默認點OK
- 跑出來的結果需要編輯第一列只留下物種名,序列去掉5,3端的空序列(因為要比對序列同源性,最好把顯示
-
的序列去掉,使多序列的兩端整齊,類似矩陣)
-
導出fasta格式和MEGA格式兩種格式
- 打開Clustalx 載入剛剛比對完的fasta格式(注意是比對完的,文件後綴名為.fas)
-
導出可視化文件,參數默認點OK
- 得到可視化的多序列比對結果,打開類似這樣(打開用到的軟體為Adobe Acrobat)
進化樹分析
-
打開MEGA,載入meg文件
- 參數設置(這裡是核酸序列)
- 得到進化樹
- 導出與美化
美化參考:http://www.sohu.com/a/130616941_278730
保守位點分析
- 輸入網址MEME : http://meme-suite.org/tools/meme
- 上傳fasta序列(這裡的序列是整合後的文件,文件後綴.fasta),並輸入參數(這裡設置motif為10)
- 得到保守位點分析結果
推薦閱讀:
※生信分析平台搭建(九):Aspera
※數據分析終極解決方案!
※RNA-seq原始數據質控後,是否要合併PE和SE的比對結果|《解螺旋技術交流圈》精華第1期
※生物信息學100個基礎問題 —— 第5題 測序建庫的adapter
※生物信息學究竟是怎樣的一門學科?