生物信息之多序列比對,進化樹分析,保守位點分析

?# 序列下載與整理

網址:ncbi.nlm.nih.gov/gene

下載fasta格式序列

  • 輸入你想查找的序列,比如Syp基因

  • 進入基因詳細信息頁面

  • 點擊Genbank

  • 如圖所示可以下載到fasta格式的序列,注意這裡下載的是基因或者蛋白質的全序列

  • 假如你希望得到promoter的基因,可以在如圖所示的位置輸入起始位點和終止位點

  • 一般promoter的位點不確定,可以通過將起始位點左右2kb基因視為promoter
  • 比如:如圖起始位點為7638580,那麼起始位點要減500,終止位點加1499,這時需要在from輸入7638080,to輸入7640079(得到長度為2kb的序列)
  • 點擊Update view 按鈕
  • 然後和同上一步下載fasta序列

合併多個fasta文件

  • 下載多個序列後,你的文件夾應該是這樣的

  • 在文件夾空白地方Shift+右鍵,點擊在此處打開命令窗口

  • 輸入

    type *.fasta > all_sequence.fasta

  • 得到整合文件 all_sequence.fasta(這個文件也可以通過記事本打開,下面軟體為UE)

多序列比對


Clustalw,Clustalx 與 MEGA的下載安裝

Clustalw 下載鏈接:clustal.org/download/cu

Clustalx 下載鏈接:clustal.org/download/cu

MEGA 下載鏈接:megasoftware.net/releas

序列比對

  • 打開MEGA,進入序列比對分析

  • 載入fasta序列

  • 使用Clustalw 比對序列,參數默認點OK

  • 跑出來的結果需要編輯第一列只留下物種名,序列去掉5,3端的空序列(因為要比對序列同源性,最好把顯示 - 的序列去掉,使多序列的兩端整齊,類似矩陣)

  • 導出fasta格式和MEGA格式兩種格式

  • 打開Clustalx 載入剛剛比對完的fasta格式(注意是比對完的,文件後綴名為.fas)

  • 導出可視化文件,參數默認點OK

  • 得到可視化的多序列比對結果,打開類似這樣(打開用到的軟體為Adobe Acrobat)

進化樹分析


  • 打開MEGA,載入meg文件

  • 參數設置(這裡是核酸序列)

  • 得到進化樹

  • 導出與美化

美化參考:sohu.com/a/130616941_27

保守位點分析


  • 輸入網址

    MEME : meme-suite.org/tools/me

  • 上傳fasta序列(這裡的序列是整合後的文件,文件後綴.fasta),並輸入參數(這裡設置motif為10)

  • 得到保守位點分析結果


推薦閱讀:

生信分析平台搭建(九):Aspera
數據分析終極解決方案!
RNA-seq原始數據質控後,是否要合併PE和SE的比對結果|《解螺旋技術交流圈》精華第1期
生物信息學100個基礎問題 —— 第5題 測序建庫的adapter
生物信息學究竟是怎樣的一門學科?

TAG:生物信息學 | 生物學 | 進化 |