NCBI(美國國家生物技術信息中心)的資源架構(中篇)

上一講中我們完成了概括性內容的了解,今天對NCBI的具體資源的內容進行梳理。NCBI(美國國家生物技術信息中心)的資源架構(上篇)(很明顯,還有下篇哦)

在首頁,我們可以看到上面的標題欄、跟在後面的檢索框,中間的主體內容,以及底部的很多鏈接堆。看了真讓人混亂,到底應該從哪裡地方進入呢?我迷茫了很久,因為即使是中間的主體內容,準確的說是主體內容的目錄也夠複雜的。所以只有一個一個先看看到底是個啥么,然後才能重新在頭腦中建立起一個整體概念。而事實上,也只有從這裡面才能建立一個整體概念,如果跳過這一步驟,直接進入後面的步驟,很容易就混亂,並持續混亂下去,所有,這一過程又是很重要的。

我們按照從左到右,再從上到下的順序,依次考察鏈接後,得到如下的架構體系。

先吐槽一下,為什麼左上角會有兩個logo?

好的,先看這個比原文更加混亂的表,我畫的。不過至少到現在我們明白了一件事情,為什麼NCBI要在首頁上辣么多東東了,目的就是減少中間環節,你所要的所有東西,全部在頁面上可以找到最佳的路徑直接訪問到。這樣的好處不言而喻,壞處就是不夠有條理,第一次看上去感覺痛苦的不行。

1左上角

言歸正傳,左上角的兩個菜單分別叫資源(Resources)和如何(How To),名字起得顯而易見,特別注意的是,仔細看上圖可知,在左側的菜單欄中,也有資源這一超鏈接叫做所有的資源(All Resources),這兩個其實是一樣的,而唯一左上角菜單的資源菜單的作用在於,點擊下拉三角圖標後,可見子菜單,移動到菜單項上後,還可以看到二級子菜單。也就是說左上角的資源菜單可以直接到最底層項目,而左側菜單只能到中間的層次。我不啰嗦,點擊一下就可以知道了。內容都是一樣的,這裡我沒有把菜單項的名稱標記上中文的原因是,我忘記了:)等到截完屏做出來就不好再添加上去了,但其實這反倒是一件好事情,因為真正所有的資源,後面我們會大量涉及的主體信息其實就是這些內容。熟悉英文的名稱比直接看翻譯的有意義。

2左側

雖然後面會大量提到,但是還是有必要先把內容梳理一遍,這裡面包括的內容從上到下來。主頁就不說了,資源列表(Resource List)很有意思,是把所有的資源類,注意不是資源,的名稱按照字母索引全部排列出來。當然我們看到表示完全無感,因為用的是英文首字母,而我們很多時候只知道中文是啥。我連查啥都不知道好不好。接下來的所有資源(All Resources)是把所有的資源類按照資料庫(Databases)、下載(Downloads)、提交(Submissions)、工具(Tools)和如何做(How To)五個大類型全部進行分類。左側列表中單個資源類的展現形式和這種展現形式是相同的,也是五個大類型。

這些單個的資源類分別是:化學和生物測定(Chemicals & Bioassays),數據和軟體(Data & Software),脫氧核糖核酸和核糖核酸(DNA & RNA),域和結構(Domains & Structures),基因和表達(Genes & Expression),遺傳和醫學(Genetics & Medicine),基因組和圖譜(Genomes & Maps),同源性(Homology),文獻(Literature),蛋白質(Proteins),序列分析(Sequence Analysis),分類法(Taxonomy),培訓和教程(Training & Tutorials),變異(Variation)。

需要特別提醒的是,這個單個資源類的分法,並不是絕對的把資源們分成各種相互隔離的類別,倒好像是提供了從各種角度把鬆散的資源組織到一起的辦法,其目的是便於人一次性的找到自己所需要的相關性比較大的資源子類的集合。比方說一個賣水果的網店,它可以把貨物分成甜水果,酸甜水果,皮厚水果,貴的水果四個資源類。西瓜資源可能既屬於甜水果有屬於皮厚水果的分類。

·化學和生物測定(Chemicals & Bioassays)這裡面包含的和化學有關的資源,生化生化,生物和化學從一開始就是分不開的。

·數據和軟體(Data & Software)無疑這一條應該排到第二,信息化的使用是依靠大量的資料庫和數據檢索技術基礎之上的。這裡面就從計算機信息化的角度提供了各種資料庫和檢索工具。

·脫氧核糖核酸和核糖核酸(DNA & RNA)這裡面包含了和DNA、RNA有關的所有資源容,這些都可以在這個分類裡面找到,很多的。

·域和結構(Domains & Structures)這裡面包含了和結構相關的資源,比如蛋白質的結構組成。

·基因和表達(Genes & Expression)基因通過某種方法表達出物種的各個形態,比如頭髮的顏色,翅膀的大小,這裡面包含了基因和表達相關的所有資源,這裡包含著幾乎所有的內容。

·遺傳和醫學(Genetics & Medicine)這裡面包含了基因和疾病相互有關係的資源。

·基因組和圖譜(Genomes & Maps)這裡面包含了基因組和圖譜的資源,基因組是生物完整基因的組成形式,這裡包含著幾乎所有的內容。

·同源性(Homology)基因組的變化是在遺傳的不變性基礎上進行的,所以可以追溯他們的源頭,這裡有這方面的資源。

·文獻(Literature)和文獻有關的資源。

·蛋白質(Proteins)蛋白質肯定比基因的層次要高,畢竟組成人體嘛,這裡有蛋白質相關的資源。

·序列分析(Sequence Analysis)這裡面就一個流感病毒的資料庫,加上一些通用的分類方法,不知道為什麼叫這個名稱。

·分類法(Taxonomy)萬物同源但是隨著演化發生了很多的變化,所以要分成很多類型,這就是相關的資源。

·培訓和教程(Training & Tutorials)相關資源鏈接

·變異(Variation)遺傳總是有變異,這裡是相關的資源。

這些分類其實並不是分類,而是某一類資源的歸類。我相信這些內容必然是從實際出發,對用戶和研究者來說都很有效果的。到此為止,內容已經全部提到,後面的內容無外乎是這些資源的細分或者是相關信息以及工具。目前不需要有太深入的了解,有個粗淺認識,為後面的深入探索,提供一個大腦中的印象。

3中間部分

一般來說,但凡放到中間的,都是核心。全都如此,首頁上在中間部分的除了歡迎詞之外,下面的一排鏈接,在前面的第一章中已經有了詳細翻譯,不再贅述。重點是中間部分的水平中間部分六個塊。其重要性和左側列表的不同之處在於他們的功能性,也就是功能性最重要的六個塊,六個功能吧。分別是提交(Submit),下載(Download),學習(Learn),開發(Develop),分析(Analyze)和研究(Reserch)。不管你想要用這個中心的資源來幹什麼,這裡都提供,而最常用的就是這六種。我們分別介紹:

3.1 提交

存儲數據或者草稿(manuscripts),這個草稿指的是未經同行評議(peer-reviewed)的發現,到國家生物信息中心資料庫中。

具體的種類包括:

·核苷酸序列(Nucleotid Sequences)包括GenBank和Sequence Read Archive(SRA)兩個資料庫;

·基因組變異(Genome Variations)包括單核苷酸多樣性(SNP),變異資料庫(dbVar),臨床變異資料庫(ClinVar),遺傳檢測註冊表(Genetic Testing Resgistry(GTR));

·實驗研究和數據集(Experimental Studies & DataSets)包括基因表達綜合庫(符合微陣列實驗最小信息(MIAME)格式)(Gene Expression Omnibus(GEO)),序列讀檔案(Sequence Read Archive(SRA)),基因型和表型資料庫(dbGap(The DatabaseofGenotypesandPhenotypes)),生化試驗資料庫(PubChem BioAssay)

·生物研究項目數據(Biological Research Project Data)包括生物數據集合(BioProject)和生化試驗原材料資料庫(BioSample)

·核苷酸和化學試劑(Nucleotide & Chemical Reagents)包括核酸試劑盒註冊表(Probe)和樣本描述資料庫(PubChem Substance)

·其他數據類型(Other Data Types)包含國立醫學研究院草稿提交系統(NIH Manuscript Submission System(NIHMS))

選擇相應種類後,可以提交數據,並且可以查到如何提交的嚮導文檔。這部分可以發現很多內容還是相互重合的,有些和前面提到的內容也都相關。其實也簡單啊,就是那幾個關鍵的資料庫嘛。

3.2 下載

介紹文字為:傳輸國家生物信息中心的數據到你的電腦上。這裡提供了三個主要部分的內容以及一些輔助鏈接文檔。

首先是FTP,可以從中打開文件夾,下圖就是我電腦上打開的內容,速度有些慢,但是可以看到裡面的大致構成。可以直接下載哦。

第二個內容就是Aspera。這本來是IBM公司的一個高速傳輸軟體,使用了fasp傳輸技術。感覺使用了這個神器,就秒殺迅雷的感覺,達到只要擔心你存儲空間的大小的境界。

這個我安裝了一個在電腦上,但是沒用過,因為沒機會用,空間已經滿了。究其根本原因,因為最開始我比較傻,又沒有老司機帶路,使用了ftp往我的伺服器上wget的時候,把我的磁碟空間都佔滿了。我用的是阿里雲,值得誇讚的就是,我經常懷疑會傳輸到一半就完蛋,沒想到吭哧吭哧的竟然把如此大的資料庫文件都慢慢下載下載了,可見人家伺服器的強健,和我阿里雲的網路暢通。但是最後一個錯誤,怎麼試都不行的時候。我才發現原來是硬碟佔滿了。

總之,總關係圖中有一個截屏,可以看到這個軟體把資料庫文件目錄組織的很好。順便說這個軟體已插件的方式起作用,打開網頁就可以瀏覽和處理文件了。

第三個就是下載工具,特定在於定製能力強,可以定製某些數據集。包括Entrez程序集(Entrez Programming Utilites(E-utilities)),SRA(Sequence Read Archive)工具包(SRA Toolkit)和GEO2R,最後這個怪名字工具的怪名字表示它是一個基於R語言的GEO資料庫下載工具。

GEO前面說過了,但是肯定無法容易一下子記住的名字,基因表達綜合庫(Gene Expression Omnibus):GEO是一個公開的基因組學(genomics)數據倉庫(repository),它支持符合MIAME(微陣列實驗最小信息)標準的數據提交。接受基於數組和序列的數據。這個工具幫助用戶查詢和下載實驗和策劃(curated)的基因表達譜(gene expression profiles)。還有這三個工具的相關文檔。

鏈接就是如何下載定製的數據集合,大數據下載的最好方法,SRA下載參考。

3.3 學習

介紹文字為:找到有幫助的文檔,參加課程或者觀看教程。

學習嘛比較容易理解,包含了四個部分的內容,網路研討會和網路課程(Webinars & Courses),會議和展示(Conferences & Presentations),教程(Tutorials)和文檔(Documentation)。總關係圖中有截圖。

3.4 開發

介紹文字為:使用國家生物信息中心的API們和代碼庫來創建程序。

這裡面呢有三個部分和一個外部鏈接。首先是APIs,懂得就懂,不懂的估計對這一段也不感興趣了。簡單介紹就是包括E-utilities、BLAST URL API 和化學文獻強力用戶網關(PUG(PubChem Power User Gateway))等的程序介面。簡單說明一下就是這些東西都是寫好的程序,你可以通過調用這些程序來獲取一些數據,並且根據調用這些程序時的參數,來定製你想要的數據。上面的等這個字,其實就是生化文獻中心(PubMed Central(PMC))APIs,可能是地方不夠用了的緣故。

其次就是代碼庫(Code Libraries),用來維護國家生物信息中心數據的公開的軟體庫,就是很多軟體啦。包括:

·國家生物信息中心C++工具包,C++是一種強大的編程語言,這個工具包是一個應用程序的框架,既然是框架那就不簡單是一些可調用的函數和類啦,是一個腳手架,可以趴在上面用各種函數操作資料庫中的內容。

·SRA 工具包,包含工具的可執行文件和源碼,可以直接下載,這些工具主要是處理二代測序的結果,這些結果用國家生物信息中心SRA結構存儲的,SRA是一種格式名稱,如同word文檔,就是用特定格式存儲的文本文件,和txt的文本文件的類型是不一樣的,必然強大了哦。

·國家生物信息中心GitHub倉庫(NCBI GitHub Repository),這個詞要這樣斷,這是個在GitHub上面的倉庫,裡面放的國家生物信息中心的很多工具。GitHub是啥呢?是程序員們放自己寫出來的代碼的地方。放在那裡有啥好處呢?就是可以做版本管理,每一次修改都給你存起來。如果使用免費的空間,那就必須要公開,誰都可以看和下載。有時候大牛看到了,可以拷貝一份幫你改一改,改過的你覺得太好了,就直接給大牛發一個「拉」請求,把大牛改的那個拷貝,拉過來覆蓋你自己的版本。如果你使用私人的空間,或者公司用的,那就花錢租一個,公司的人自己用。總之,這是一個程序員揚名立萬的地方。上面有很多好用的東西,Android的源碼也在上面。

再次就是數據格式,由於各家的資料庫使用不同的格式存儲數據,那相互之間就無法自動讀取,存儲到另一個庫中。所以為了統一標準,就規定了這些東西。

最後的鏈接就是GitHub,和前面的代碼庫中的重複。我表示始終對國家生物信息中心的分類之詭異佩服的很。最後還突然冒出來幾個鏈接,開發視頻教程,指導如何使用來開發使用E-UTILITIES的。

3.5 分析

介紹文字為:為你的數據分析任務選擇一個國家生物信息中心工具。

裡面可以看到,我們提供了好多好多的分析工具哦,你們都可以用來操作(manipulate),排列(align),可視化(visualize)和評估(evaluate)生物數據。

裡面分了六個類:文獻類、健康類、基因組類、基因類、蛋白質類和化學類。基因組、基因和蛋白質三個類的工具最多。

這裡面的分析工具和前面的提到的很多內容還是重複的,也就是說,這裡是提供了一個目錄,把很多相關的內容收集到一起,便於你使用。

3.6 研究

介紹文字為:展示了國家生物信息中心的研究和協作項目。

額,此文前文完整翻譯過,名為國家生物信息中心計算生物學分支(NCBI Computational Biology Branch)。

再一次分類思想點贊,我已經暈了。


推薦閱讀:

中國五大國家級新區概況
戰國七雄中最無能的國家,為什麼是韓國?
連足球都流著油的國家
世界上華人最多的六個國家,第一名更是高達767萬
國家重點保護野生動物——鳳頭雨燕

TAG:國家 | 美國 | 生物技術 | 生物 | 技術 | 架構 | 資源 | 信息 |