NCBI教程(一)獲取基因(gene)或基因產物(gene product)的功能
原文地址:NCBI Find the function of a gene or gene product
下面開始哦,我花了很長時間想,到底應該從哪個地方開始介紹NCBI資源的具體使用教程,每次想要開始,卻總是被擔心掉坑裡、恐懼後續的海量以及逼迫自己堅持做完的痛苦甚至於努力了完之後的無聊所影響。在浪費了兩天之後,我突然想到應該從哪裡開始了,那就是今天要說的內容,如何獲取基因和基因產物的功能。這其實就是人們創建這一資源中心最本心的目的吧,就是可以方便知道一個基因的作用是什麼。
根據文中的介紹,我們需要掌握就幾個關鍵的術語,術語是堆積專業知識的基礎。也是標識同行的身份識別牌,兩句內行化一說,大家便自然的放下心來,開始說人話了,然而,據我多年的觀察,說人話之前的術語,依然如黑道接頭的切口一樣必須。
第一個簡單到極致,喚作基因名(gene name),通過基因名,你可以獲取需要的基因記錄(gene record),點開基因記錄鏈接,基因的功能信息將通過幾個基因信息節展示出來,分別是概述(Summary),參考文獻(Bibliography)和通用基因信息(General gene info)。當然也可以通過鏈接查看其保守域(Conserved Domains)和生物系統(BioSystems)。這兩個名詞,反正我一開始是沒看懂。啥叫個保守域?啥又是個生物系統?真是啟船就遇頂頭風啊,果然是萬事開頭難。不過我並不畏懼,反而繼續堅定的深入探索。
先研究這個保守域(Conserved Domains),原來這個域(Domain)是蛋白質的功能及結構單元啊,在分子的進化(molecular evolution)中,這樣的域可以被用來作為構造塊(building blocks),這些塊按照不同的序列排列會使得蛋白質呈現不同的功能。在分子進化中重現(recurring)的單元(units)被稱為保守域(Conserved Domains)。那就可以理解了,在革命中不去變化創造新世界的可不是保守派嘛,這些在進化中不求思變的叫保守域那就太有道理了。關鍵這樣有個用處了,因為這些保守域的序列模式(sequence patterns)或者模段(motifs)不會變哦,所以想要識別一個多肽(polypetide)序列,就看這個多肽裡面有沒有特定的序列模式或者模段就可以了。序列模式這個名詞簡單,就是那幾十種氨基酸(Amino acid)的序列嘛。這個模段是什麼鬼,他有好多中文名哦:超二結構,(這名字也真夠二的),模體,基序,小單位,結構基元,模序。。。。。。反正你知道也是一小段氨基酸序列就行了,跟剛才提到保守域(Conserved Domain),也就是構造塊(building blocks),也就是序列模式(sequence patterns)沒有太大差別。
下一個是生物系統(BioSystems),看來絕對不是字面意思,可不敢望文生義。先拆一下,生物系統(biological system),竟然這麼簡單,但是又那麼令人不解啊。又查看定義發現,你這不講邏輯啊。生物系統,或者叫生物系統,是在生物系統中相互作用的一組分子。(A biosystem, or biological system, is a group of molecules that interact in a biological system. )你這叫遞歸定義么?你這話人工智慧讀了內存溢出的好不好。果然不簡單啊,暗藏殺機,我往後再看文章,突然意識到,這裡文章想說的其實是系統生物學(Systems biology),因為後文中提到,這個系統生物學(Biosystem)的一種類型是生物學途徑(biological pathway),研究的是基因(genes),蛋白質(proteins)和小分子(small molecules)之間的關係。另一類型的系統生物學(Biosystem)研究是疾病(disease),涉及到基因(genes),生物標誌物(biomarkers)和藥物(drugs)。文中提到,這個美國國家生物信息中心的系統生物學資料庫(The NCBI BioSystems Database)是一個補充項目(complementary project),就是說是在已有資料庫和注釋文獻鏈接的基礎之上,提供數據的集中存儲(centralized repository of data),提供Entrez系統,建立系統生物學條目(biosystem records)到文獻(literature)、分子(molecular)和以及化學數據(chemical data)等資源間的連接,方便系統生物學(biosystems)數據的計算。
好了,回到開始,現在完成了對最簡單的一個概念基因名稱(gene name)的探討。下面進行第二個,蛋白質登記號(protein accession number),形如NP_005537。文中提到,你儘可能的在基因資料庫中(Gene database)找這個蛋白質登記號,就是這篇文章重點討論的主要內容的庫,而不是在蛋白質資料庫(Protein database)中找。如果在基因資料庫中找不到結果,那就只能在蛋白質資料庫中找了,找到之後,要點擊頁面中的與XXX基因相關的更多內容(More about the XXX gene)鏈接,在頁面的右側,要滾到底部才能找到。也就是說,還是回去看基因。那抬杠的來了,如果連與XXX基因相關的更多內容沒有呢?好,這個早就預料到了,你要點擊蛋白質結果頁的右上角,有一個識別保守域(Identify Conserved Domains),可以讓你來分析這個序列(Analyze this sequence),就是這個蛋白質,也就是氨基酸序列。你將會得到這個蛋白質中,這些功能域(functional domains),就是保守域啦,的信息的列表。
好的,下面是第三個內容,核苷酸登記號(nucleotide accession number),形如NM_001126。文中提到,我NCBI就是這麼啰嗦討人煩的說話,所以我精簡一下它的意思。還是老辦法,現在基因資料庫中找,沒有的話,才來核苷酸資料庫(Nucleotide database)中找。如果你正在看找到的核苷酸條目,點擊與XXX基因相關的更多內容(More about the XXX gene)鏈接啦啦啦。如果連這個都沒有,在核苷酸頁面的右下方找一個叫相關序列(Related Sequences),蛋白質(Protein)或生物醫學文獻(PubMed)在名叫條目相關鏈接(All Links to this Record)節中。當然你也可以點擊運行BLAST(Run BLAST)來分析這個序列(Analyze this sequence)來發現相關的核苷酸序列,使用BLASTn命令,或者發現相關的蛋白質序列,使用BLASTx命令。那麼產生的結果將可能有鏈接到基因(gene)頁面,那樣的話你就會找到相關的信息了。
下面是第四個內容,蛋白質序列(protein sequence),這個是要用蛋白質blast(protein blast)這個軟體操作的,可在BLAST的主頁的基本BLAST(Basic BLAST)下面找到,方法就是在查詢框中粘貼序列,然後按BLAST按鈕。從結果中找出需要的序列,點擊登記號(accession number),進入上面蛋白質登記號的操作。
最後一個是核苷酸序列(nucleotide sequence),顯然,我們已經掌握了它的路數,無外乎就是上一個查蛋白質序列的時候用的是蛋白質blast軟體,那顯然,這裡就應該使用核苷酸blast(nucleotide blast)軟體了。隨之得到結果之後,也應該點擊結果的相應的登記號(accession number),進入上面的核苷酸登記號操作流程中。此外,還可以使用BLASTx,上面第三個內容核苷酸登記號裡面提到過哦,輸入序列來識別相應的蛋白質。
到此結束,歸結到最後,我們可以看出其脈絡來了,那就是從基因(gene)開始,基因使用其核苷酸序列(nucleotide sequence)表達了氨基酸(Amino acid)組成蛋白質(protein)的序列。所以,想要獲得基因或基因產物(product)的信息,除了使用基因的名稱外,還可以使用核苷酸序列和蛋白質的相關特性信息,進行查找。說白了,整個國家生物信息中心資源里,最主要的也就是這幾個東西以及其之間的關係。
推薦閱讀:
※數據分析終極解決方案!
※GATK4.0和全基因組數據分析實踐(上)
※DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測
※數據挖掘專題 | TCGA數據挖掘如何入門?
TAG:生物信息學 |