標籤:

各大類主要資料庫介紹

  •   各大類主要資料庫介紹
  • 處理 SSI 文件時出錯

    資料庫是生物信息學的主要內容,各種資料庫幾乎覆蓋了生命科學的各個領域。核酸序列資料庫有GenBank, EMBL, DDB等,蛋白質序列資料庫有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白質片段資料庫有PROSITE, BLOCKS, PRINTS等,三維結構資料庫有PDB, NDB, BioMagResBank, CCSD等,與蛋白質結構有關的資料庫還有SCOP, CATH, FSSP, 3D-ALI, DSSP等,與基因組有關的資料庫還有ESTdb, OMIM, GDB, GSDB等,文獻資料庫有Medline, Uncover等。另外一些公司還開發了商業資料庫,如MDL等。生物信息學資料庫覆蓋面廣,分布分散且格式不統一, 因此一些生物計算中心將多個資料庫整合在一起提供綜合服務,如EBI的SRS(Sequence Retrieval System)包含了核酸序列庫、蛋白質序列庫,三維結構庫等30多個資料庫及CLUSTALW、PROSITESEARCH等強有力的搜索工具,用戶可以進行多個資料庫的多種查詢。

    下面循序簡介一些著名和有特色的生物信息資料庫。

    簡表:

    基因和基因組資料庫

    1. Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數據直接來源於測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數據;以及與其它數據機構協作交換數據而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的資料庫,和日本的DNA資料庫(DDBJ)交換數據,使這三個資料庫的數據同步。Genbank的數據可以從NCBI的FTP伺服器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。

    Genbank庫里的數據按來源於約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數據記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特徵表,以及序列本身。序列特徵表裡包含對序列生物學特徵注釋如:編碼區、轉錄單元、重複區域、突變位點或修飾位點等。所有數據記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數據、基因組測序數據、大規模基因組序列數據等16類,其中EST數據等又被各自分成若干個文件。

    (1)Genbank數據檢索

    NCBI的資料庫檢索查詢系統是Entrez。Entrez是基於Web界面的綜合生物信息資料庫檢索系統。利用Entrez系統,用戶不僅可以方便地檢索Genbank的核酸數據,還可以檢索來自Genbank和其它資料庫的蛋白質序列數據、基因組圖譜數據、來自分子模型資料庫(MMDB)的蛋白質三維結構數據、種群序列數據集、以及由PubMed獲得Medline的文獻數據。

    Entrez提供了方便實用的檢索服務,所有操作都可以在網路瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現複雜的檢索查詢工作。對於檢索獲得的記錄,用戶可以選擇需要顯示的數據,保存查詢結果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。

    (2)向Genbank提交序列數據

    測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank資料庫。這個任務可以由基於Web界面的BankIt或獨立程序Sequin來完成。BankIt是一系列表單,包括聯絡信息、發布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列後,會從電子郵件收到自動生成的數據條目,Genbank的新序列編號,以及完成注釋後的完整的數據記錄。用戶還可以在BankIt頁面下修改已經發布序列的信息。BankIt適合於獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。

    大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理複雜注釋,並包含一系列內建的檢查函數來提高序列的質量保證。它還被設計用於提交來自系統進化、種群和突變研究的序列,可以加入比對的數據。Sequin除了用於編輯和修改序列數據記錄,還可以用於序列的分析,任何以FASTA或ASN.1格式序列為輸入數據的序列分析程序都可以整合到Sequin程序下。在不同操作系統下運行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用說明可詳見其網頁。

    NCBI的網址是:http://www.ncbi.nlm.nih.gov。

    Entrez的網址是:http://www.ncbi.nlm.nih.gov/entrez/。

    BankIt的網址是:http://www.ncbi.nlm.nih.gov/BankIt。

    Sequin的相關網址是:http://www.ncbi.nlm.nih.gov/Sequin/。

    2. EMBL核酸序列資料庫

    EMBL核酸序列資料庫由歐洲生物信息學研究所(EBI)維護的核酸序列數據構成,由於與Genbank和DDBJ的數據合作交換,它也是一個全面的核酸序列資料庫。該資料庫由Oracal資料庫系統管理維護,查詢檢索可以通過通過網際網路上的序列提取系統(SRS)服務完成。向EMBL核酸序列資料庫提交序列可以通過基於Web的WEBIN工具,也可以用Sequin軟體來完成。

    資料庫網址是:http://www.ebi.ac.uk/embl/。

    SRS的網址是:http://srs.ebi.ac.uk/。

    WEBIN的網址是:http://www.ebi.ac.uk/embl/Submission/webin.html。

    3. DDBJ資料庫

    日本DNA數據倉庫(DDBJ)也是一個全面的核酸序列資料庫,與Genbank和EMBL核酸庫合作交換數據。可以使用其主頁上提供的SRS工具進行數據檢索和序列分析。可以用Sequin軟體向該資料庫提交序列。

    DDBJ的網址是:http://www.ddbj.nig.ac.jp/。

    4. GDB

    基因組資料庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數據。GDB的目標是構建關於人類基因組的百科全書,除了構建基因組圖譜之外,還開發了描述序列水平的基因組內容的方法,包括序列變異和其它對功能和表型的描述。目前GDB中有:人類基因組區域(包括基因、克隆、amplimers PCR 標記、斷點breakpoints、細胞遺傳標記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區域syndromic regions、contigs和重複序列);人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內的變異(包括突變和多態性,加上等位基因頻率數據)。GDB資料庫以對象模型來保存數據,提供基於Web的數據對象檢索服務,用戶可以搜索各種類型的對象,並以圖形方式觀看基因組圖譜。

    GDB的網址是:http://www.gdb.org。

    GDB的國內鏡像是:http://gdb.pku.edu.cn/gdb/。

    蛋白質資料庫

    1. PIR和PSD

    PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括複合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。

    PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。

    PIR和PSD的網址是:http://pir.georgetown.edu/。

    資料庫下載地址是:ftp://nbrfa.georgetown.edu/pir/。

    2. SWISS-PROT

    SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關係、序列變異體和衝突等信息。SWISS-PROT中儘可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。

    利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。

    SWISS-PROT的網址是:http://www.ebi.ac.uk/swissprot/。

    3. PROSITE

    PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。

    PROSITE的網址是:http://www.expasy.ch/prosite/。

    4. PDB

    蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。

    RCSB的PDB資料庫網址是:http://www.rcsb.org/pdb/。

    5. SCOP

    蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關係。分類基於若干層次:家族,描述相近的進化關係;超家族,描述遠源的進化關係;摺疊子(fold),描述空間幾何結構的關係;摺疊類,所有摺疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。

    SCOP的網址是:http://scop.mrc-lmb.cam.ac.uk/scop/。

    6. COG

    蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關係分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。

    COG庫的網址是:http://www.ncbi.nlm.nih.gov/COG。

    下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。

    功能資料庫

    1. KEGG

    京都基因和基因組百科全書(KEGG)是系統分析基因功能,聯繫基因組信息和功能信息的知識庫。基因組信息存儲在GENES資料庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY資料庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個資料庫是LIGAND,包含關於化學物質、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。

    KEGG的網址是:http://www.genome.ad.jp/kegg/。

    2. DIP

    相互作用的蛋白質資料庫(DIP)收集了由實驗驗證的蛋白質-蛋白質相互作用。資料庫包括蛋白質的信息、相互作用的信息和檢測相互作用的實驗技術三個部分。用戶可以根據蛋白質、生物物種、蛋白質超家族、關鍵詞、實驗技術或引用文獻來查詢DIP資料庫。

    DIP的網址是:http://dip.doe-mbi.ucla.edu/。

    3. ASDB

    可變剪接資料庫(ASDB)包括蛋白質庫和核酸庫兩部分。ASDB(蛋白質)部分來源於SWISS-PROT蛋白質序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經過序列比對、篩選和分類構建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構成。資料庫提供了方便的搜索服務。

    ASDB的網址是:http://cbcg.nersc.gov/asdb。

    4. TRRD

    轉錄調控區資料庫(TRRD)是在不斷積累的真核生物基因調控區結構-功能特性信息基礎上構建的。每一個TRRD的條目里包含特定基因各種結構-功能特性:轉錄因子結合位點、啟動子、增強子、靜默子、以及基因表達調控模式等。TRRD包括五個相關的數據表:TRRDGENES(包含所有TRRD庫基因的基本信息和調控單元信息);TRRDSITES(包括調控因子結合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結合的調控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數據表的檢索服務。

    TRRD的網址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。

    5. TRANSFAC

    TRANSFAC資料庫是關於轉錄因子、它們在基因組上的結合位點和與DNA結合的profiles的資料庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數據表構成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態的突變的轉錄因子和結合位點;S/MART DB收集了與染色體結構變化相關的蛋白因子和位點的信息;TRANSPATH庫用於描述與轉錄因子調控相關的信號傳遞的網路;CYTOMER庫表現了人類轉錄因子在各個器官、細胞類型、生理系統和發育時期的表達狀況。TRANSFAC及其相關資料庫可以免費下載,也可以通過Web進行檢索和查詢。

    TRANSFAC的網址是:http://transfac.gbf.de/TRANSFAC/。

    其它資料庫資源

    1. DBCat

    DBCat是生物信息資料庫的目錄資料庫,它收集了500多個生物信息學資料庫的信息,並根據它們的應用領域進行了分類。包括DNA、RNA、蛋白質、基因組、圖譜、蛋白質結構、文獻著作等基本類型。資料庫可以免費下載或在網路上檢索查詢。

    DBCat的網址是:http://www.infobiogen.fr/services/dbcat/。

    下載DBCat在:ftp://ftp.infobiogen.fr/pub/db/dbcat。

    2. PubMed

    PubMed是NCBI維護的文獻引用資料庫,提供對MEDLINE、Pre-MEDLINE等文獻資料庫的引用查詢和對大量網路科學類電子期刊的鏈接。利用Entrez系統可以對PubMed進行方便的查詢檢索。

    PubMed的網址是:http://www.ncbi.nlm.nih.gov/。

    除了以上提及的數據之外,還有許許多多的專門生物信息資料庫,涉及了目前生物學研究的各個層面和領域,由於篇幅所限無法一一詳述。國內也有一些大資料庫的鏡像站點和自己開發的有特色的資料庫,如歐洲分子生物學網路組織EMBNet中國節點北京大學分子生物信息鏡像系統,上海博容基因公司與上海嘉瑞軟體公司合作開發的國產漢化基因資料庫及分析管理系統,同時國家級的生物信息學中心也在籌建之中。我們期待國內能有更多高質量和使用便利的資料庫資源,推動我國生物信息學和整個生命科學的發展。

    清華大學生物信息學研究所網址:http://bioinfo.tsinghua.edu.cn

    北京大學生物信息鏡像系統網址:http://cbi.pku.edu.cn

    推薦閱讀:

    SQL每日一練【180605】
    【操作教程】SequoiaDB分散式存儲教程
    國家1:5萬基礎地理信息資料庫更新工程掃描
    【連載之九】經營不好到底賴誰?數據戳穿那些常見理由
    MySQL恢復delete的數據

    TAG:資料庫 | 介紹 |