[工具]快速下載基因序列及對應蛋白序列

05-18

[工具]快速下載基因序列及對應蛋白序列

來自專欄生物超循環

相信很多人遇到過不上這樣的煩惱，當你想在Home - Gene - NCBI下載一個基因序列的時候，你搜索完，找到對應的物種，點進去，結果出來一大堆序列，如下圖。

你很可能在眾多isoforms中迷失了自己，不要著急，今天給大家介紹一個萬無一失的方法，能快速地在茫茫isoforms中尋找到你要的那個它。

進入Uniprot網站，搜索你要的基因，這裡用人類的FAS基因來舉例。

點進去FAS基因頁面之後，ctrl+F快速搜索isoform，數一下，這個基因有7個isoforms。

一般第一個isoform是序列裡面最全的，也是最common的一個，所以如果沒有什麼特殊要求的話，一般用第一個isoform的序列。

再一次ctrl+F，快速搜索"NM"，找到RefSeq,如下圖。

看後面的[]里的內容，是「PXXXX-數字」的格式，數字代表第幾個isoform。

這裡我們選擇第一個isoform，因此也就是P25445-1的（第一行）。點NM和NP的鏈接，分別進入了NIH的頁面，點擊右上角的send to，選擇file，選一個格式，點擊create，如下圖。

這樣，你的基因序列和蛋白序列就都下載好了。

可以用Snapgene打開基因序列的文件，讓ORF translation可見，之後將下載的蛋白序列複製，在基因序列中ctrl+alt+F，粘貼，就能快速配對到對應的蛋白序列了。

蛋白序列一般以ATG開頭(start codon)，一般以TAG,TAA,或TGA(stop codon)結尾，其中TAA的終止效果是最強的，其次是TAG，而TGA最弱。

如果你想在一個plasmid裡面表達這個蛋白，那就把蛋白對應的基因序列連進這個plasmid中就可以了，為了確保轉錄順利進行（因為有時候ATG會被skip），ATG前面應該再加上Kozak序列，即(gcc) gcc acc ATG .....

promoter區域的話，高表達的話選CMV，中表達是SV40, 低表達的是UBC和PGK.

是不是很簡單呢？科科。