[工具]快速下載基因序列及對應蛋白序列

[工具]快速下載基因序列及對應蛋白序列

來自專欄 生物超循環

相信很多人遇到過不上這樣的煩惱,當你想在Home - Gene - NCBI下載一個基因序列的時候,你搜索完,找到對應的物種,點進去,結果出來一大堆序列,如下圖。

你很可能在眾多isoforms中迷失了自己,不要著急,今天給大家介紹一個萬無一失的方法,能快速地在茫茫isoforms中尋找到你要的那個它。

進入Uniprot網站,搜索你要的基因,這裡用人類的FAS基因來舉例。

點進去FAS基因頁面之後,ctrl+F快速搜索isoform,數一下,這個基因有7個isoforms。

一般第一個isoform是序列裡面最全的,也是最common的一個,所以如果沒有什麼特殊要求的話,一般用第一個isoform的序列。

再一次ctrl+F,快速搜索"NM",找到RefSeq,如下圖。

看後面的[]里的內容,是「PXXXX-數字」的格式,數字代表第幾個isoform。

這裡我們選擇第一個isoform,因此也就是P25445-1的(第一行)。點NM和NP的鏈接,分別進入了NIH的頁面,點擊右上角的send to, 選擇file,選一個格式,點擊create, 如下圖。

這樣,你的基因序列和蛋白序列就都下載好了。

可以用Snapgene打開基因序列的文件,讓ORF translation可見,之後將下載的蛋白序列複製,在基因序列中ctrl+alt+F,粘貼,就能快速配對到對應的蛋白序列了。

蛋白序列一般以ATG開頭(start codon),一般以TAG,TAA,或TGA(stop codon)結尾,其中TAA的終止效果是最強的,其次是TAG,而TGA最弱。

如果你想在一個plasmid裡面表達這個蛋白,那就把蛋白對應的基因序列連進這個plasmid中就可以了,為了確保轉錄順利進行(因為有時候ATG會被skip),ATG前面應該再加上Kozak序列,即(gcc) gcc acc ATG .....

promoter區域的話,高表達的話選CMV,中表達是SV40, 低表達的是UBC和PGK.

是不是很簡單呢?科科。

推薦閱讀:

細胞蛇,捆縛代謝的繩索
細胞克隆實驗精講,一文解決科研汪的焦慮
研究查明心肌細胞增殖過程,有望研發心力衰竭新療法
真核-05
真核-04

TAG:基因 | 細胞生物學 |