標籤:

NCBI(美國國家生物技術信息中心)的資源架構(二)首頁面看到的其他內容

任皓

2017年08月01日

在首頁,我們可以看到上面的標題欄、跟在後面的檢索框,中間的主體內容,以及底部的很多鏈接堆。看了真讓人混亂,到底應該從哪裡地方進入呢?我迷茫了很久,因為即使是中間的主體內容,準確的說是主體內容的目錄也夠複雜的。所以只有一個一個先看看到底是個啥么,然後才能重新在頭腦中建立起一個整體概念。而事實上,也只有從這裡面才能建立一個整體概念,如果跳過這一步驟,直接進入後面的步驟,很容易就混亂,並持續混亂下去,所有,這一過程又是很重要的。

我們按照從左到右,再從上到下的順序,依次考察鏈接後,得到如下的架構體系。先吐槽一下,為什麼左上角會有兩個logo?

好的,先看一個這個比原文更加混亂的表,我畫的。不過至少到現在我們明白了一件事情,為什麼NCBI要在首頁上辣么多東東了,目的就是減少中間環節,你所要的所有東西,全部在頁面上可以找到最佳的路徑直接訪問到。這樣的好處不言而喻,壞處就是不夠有條理,第一次看上去感覺痛苦的不行。

2.1 左上角

言歸正傳,左上角的兩個菜單分別叫資源(Resources)和如何(How To),名字起得顯而易見,特別注意的是,仔細看上圖可知,在左側的菜單欄中,也有資源這一超鏈接叫做所有的資源(All Resources),這兩個其實是一樣的,而唯一左上角菜單的資源菜單的作用在於,點擊下拉三角圖標後,可見子菜單,移動到菜單項上後,還可以看到二級子菜單。也就是說左上角的資源菜單可以直接到最底層項目,而左側菜單只能到中間的層次。我不啰嗦,點擊一下就可以知道了。內容都是一樣的,這裡我沒有把菜單項的名稱標記上中文的原因是,我忘記了:)等到截完屏做出來就不好再添加上去了,但其實這反倒是一件好事情,因為真正所有的資源,後面我們會大量涉及的主體信息其實就是這些內容。熟悉英文的名稱比直接看翻譯的有意義。

2.2 左側

雖然後面會大量提到,但是還是有必要先把內容梳理一遍,這裡面包括的內容從上到下來。主頁就不說了,資源列表(Resource List)很有意思,是把所有的資源類,注意不是資源,的名稱按照字母索引全部排列出來。當然我們看到表示完全無感,因為用的是英文首字母,而我們很多時候只知道中文是啥。我連查啥都不知道好不好。接下來的所有資源(All Resources)是把所有的資源類按照資料庫(Databases)、下載(Downloads)、提交(Submissions)、工具(Tools)和如何做(How To)五個大類型全部進行分類。左側列表中單個資源類的展現形式和這種展現形式是相同的,也是五個大類型。

這些單個的資源類分別是:化學和生物測定(Chemicals & Bioassays),數據和軟體(Data & Software),脫氧核糖核酸和核糖核酸(DNA & RNA),域和結構(Domains & Structures),基因和表達(Genes & Expression),遺傳和醫學(Genetics & Medicine),基因組和圖譜(Genomes & Maps),同源性(Homology),文獻(Literature),蛋白質(Proteins),序列分析(Sequence Analysis),分類法(Taxonomy),培訓和教程(Training & Tutorials),變異(Variation)。

需要特別提醒的是,這個單個資源類的分法,並不是絕對的把資源們分成各種相互隔離的類別,倒好像是提供了從各種角度把鬆散的資源組織到一起的辦法,其目的是便於人一次性的找到自己所需要的相關性比較大的資源子類的集合。比方說一個賣水果的網店,它可以把貨物分成甜水果,酸甜水果,皮厚水果,貴的水果四個資源類。西瓜資源可能既屬於甜水果有屬於皮厚水果的分類。

化學和生物測定(Chemicals & Bioassays)這裡面包含的和化學有關的資源,生化生化,生物和化學從一開始就是分不開的。

數據和軟體(Data & Software)無疑這一條應該排到第二,信息化的使用是依靠大量的資料庫和數據檢索技術基礎之上的。這裡面就從計算機信息化的角度提供了各種資料庫和檢索工具。

脫氧核糖核酸和核糖核酸(DNA & RNA)這裡面包含了和DNA、RNA有關的所有資源容,這些都可以在這個分類裡面找到,很多的。

域和結構(Domains & Structures)這裡面包含了和結構相關的資源,比如蛋白質的結構組成。

基因和表達(Genes & Expression)基因通過某種方法表達出物種的各個形態,比如頭髮的顏色,翅膀的大小,這裡面包含了基因和表達相關的所有資源,這裡包含著幾乎所有的內容。

遺傳和醫學(Genetics & Medicine)這裡面包含了基因和疾病相互有關係的資源。

基因組和圖譜(Genomes & Maps)這裡面包含了基因組和圖譜的資源,基因組是生物完整基因的組成形式,這裡包含著幾乎所有的內容。

同源性(Homology)基因組的變化是在遺傳的不變性基礎上進行的,所以可以追溯他們的源頭,這裡有這方面的資源。

文獻(Literature)和文獻有關的資源。

蛋白質(Proteins)蛋白質肯定比基因的層次要高,畢竟組成人體嘛,這裡有蛋白質相關的資源。

序列分析(Sequence Analysis)這裡面就一個流感病毒的資料庫,加上一些通用的分類方法,不知道為什麼叫這個名稱。

分類法(Taxonomy)萬物同源但是隨著演化發生了很多的變化,所以要分成很多類型,這就是相關的資源。

培訓和教程(Training & Tutorials)相關資源鏈接

變異(Variation)遺傳總是有變異,這裡是相關的資源。

這些分類其實並不是分類,而是某一類資源的歸類。我相信這些內容必然是從實際出發,對用戶和研究者來說都很有效果的。到此為止,內容已經全部提到,後面的內容無外乎是這些資源的細分或者是相關信息以及工具。目前不需要有太深入的了解,有個粗淺認識,為後面的深入探索,提供一個大腦中的印象。

2.3 中間部分

一般來說,但凡放到中間的,都是核心。全都如此,首頁上在中間部分的除了歡迎詞之外,下面的一排鏈接,在前面的第一章中已經有了詳細翻譯,不再贅述。重點是中間部分的水平中間部分六個塊。其重要性和左側列表的不同之處在於他們的功能性,也就是功能性最重要的六個塊,六個功能吧。分別是提交(Submit),下載(Download),學習(Learn),開發(Develop),分析(Analyze)和研究(Reserch)。不管你想要用這個中心的資源來幹什麼,這裡都提供,而最常用的就是這六種。我們分別介紹:

2.3.1 提交

存儲數據或者草稿(manuscripts),這個草稿指的是未經同行評議(peer-reviewed)的發現,到國家生物信息中心資料庫中。具體的種類包括:

核苷酸序列(Nucleotid Sequences)包括GenBank和Sequence Read Archive(SRA)兩個資料庫;

基因組變異(Genome Variations)包括單核苷酸多樣性(SNP),變異資料庫(dbVar),臨床變異資料庫(ClinVar),遺傳檢測註冊表(Genetic Testing Resgistry(GTR));

實驗研究和數據集(Experimental Studies & DataSets)包括基因表達綜合庫(符合微陣列實驗最小信息(MIAME)格式)(Gene Expression Omnibus(GEO)),序列讀檔案(Sequence Read Archive(SRA)),基因型和表型資料庫(dbGap(The Database of Genotypes and Phenotypes)),生化試驗資料庫(PubChem BioAssay)

生物研究項目數據(Biological Research Project Data)包括生物數據集合(BioProject)和生化試驗原材料資料庫(BioSample)

核苷酸和化學試劑(Nucleotide & Chemical Reagents)包括核酸試劑盒註冊表(Probe)和樣本描述資料庫(PubChem Substance)

其他數據類型(Other Data Types)包含國立醫學研究院草稿提交系統(NIH Manuscript Submission System(NIHMS))

選擇相應種類後,可以提交數據,並且可以查到如何提交的嚮導文檔。這部分可以發現很多內容還是相互重合的,有些和前面提到的內容也都相關。其實也簡單啊,就是那幾個關鍵的資料庫嘛。

2.3.2 下載

介紹文字為:傳輸國家生物信息中心的數據到你的電腦上。

這裡提供了三個主要部分的內容以及一些輔助鏈接文檔

首先是FTP,可以從中打開文件夾,下圖就是我電腦上打開的內容,速度有些慢,但是可以看到裡面的大致構成。可以直接下載哦。

第二個內容就是Aspera。這本來是IBM公司的一個高速傳輸軟體,使用了fasp傳輸技術。感覺使用了這個神器,就秒殺迅雷的感覺,達到只要擔心你存儲空間的大小的境界。

這個我安裝了一個在電腦上,但是沒用過,因為沒機會用,空間已經滿了。究其根本原因,因為最開始我比較傻,又沒有老司機帶路,使用了ftp往我的伺服器上wget的時候,把我的磁碟空間都佔滿了。我用的是阿里雲,值得誇讚的就是,我經常懷疑會傳輸到一半就完蛋,沒想到吭哧吭哧的竟然把如此大的資料庫文件都慢慢下載下載了,可見人家伺服器的強健,和我阿里雲的網路暢通。但是最後一個錯誤,怎麼試都不行的時候。我才發現原來是硬碟佔滿了。

總之,總關係圖中有一個截屏,可以看到這個軟體把資料庫文件目錄組織的很好。順便說這個軟體已插件的方式起作用,打開網頁就可以瀏覽和處理文件了。

第三個就是下載工具,特定在於定製能力強,可以定製某些數據集。

包括Entrez程序集(Entrez Programming Utilites(E-utilities)),SRA(Sequence Read Archive)工具包(SRA Toolkit)和GEO2R,最後這個怪名字工具的怪名字表示它是一個基於R語言的GEO資料庫下載工具。GEO前面說過了,但是肯定無法容易一下子記住的名字,基因表達綜合庫(Gene Expression Omnibus):GEO是一個公開的基因組學(genomics)數據倉庫(repository),它支持符合MIAME(微陣列實驗最小信息)標準的數據提交。接受基於數組和序列的數據。這個工具幫助用戶查詢和下載實驗和策劃(curated)的基因表達譜(gene expression profiles)。還有這三個工具的相關文檔。

鏈接就是如何下載定製的數據集合,大數據下載的最好方法,SRA下載參考。

2.3.3 學習

介紹文字為:找到有幫助的文檔,參加課程或者觀看教程。

學習嘛比較容易理解,包含了四個部分的內容,網路研討會和網路課程(Webinars & Courses),會議和展示(Conferences & Presentations),教程(Tutorials)和文檔(Documentation)。總關係圖中有截圖。

2.3.4 開發

介紹文字為:使用國家生物信息中心的API們和代碼庫來創建程序。

這裡面呢有三個部分和一個外部鏈接。首先是APIs,懂得就懂,不懂的估計對這一段也不感興趣了。簡單介紹就是包括E-utilities、BLAST URL API 和化學文獻強力用戶網關(PUG(PubChem Power User Gateway))等的程序介面。簡單說明一下就是這些東西都是寫好的程序,你可以通過調用這些程序來獲取一些數據,並且根據調用這些程序時的參數,來定製你想要的數據。上面的等這個字,其實就是生化文獻中心(PubMed Central(PMC))APIs,可能是地方不夠用了的緣故。

其次就是代碼庫(Code Libraries),用來維護國家生物信息中心數據的公開的軟體庫,就是很多軟體啦。包括:

國家生物信息中心C++工具包,C++是一種強大的編程語言,這個工具包是一個應用程序的框架,既然是框架那就不簡單是一些可調用的函數和類啦,是一個腳手架,可以趴在上面用各種函數操作資料庫中的內容。

SRA 工具包,包含工具的可執行文件和源碼,可以直接下載,這些工具主要是處理二代測序的結果,這些結果用國家生物信息中心SRA結構存儲的,SRA是一種格式名稱,如同word文檔,就是用特定格式存儲的文本文件,和txt的文本文件的類型是不一樣的,必然強大了哦。

國家生物信息中心GitHub倉庫(NCBI GitHub Repository),這個詞要這樣斷,這是個在GitHub上面的倉庫,裡面放的國家生物信息中心的很多工具。GitHub是啥呢?是程序員們放自己寫出來的代碼的地方。放在那裡有啥好處呢?就是可以做版本管理,每一次修改都給你存起來。如果使用免費的空間,那就必須要公開,誰都可以看和下載。有時候大牛看到了,可以拷貝一份幫你改一改,改過的你覺得太好了,就直接給大牛發一個「拉」請求,把大牛改的那個拷貝,拉過來覆蓋你自己的版本。如果你使用私人的空間,或者公司用的,那就花錢租一個,公司的人自己用。總之,這是一個程序員揚名立萬的地方。上面有很多好用的東西,Android的源碼也在上面。

再次就是數據格式,由於各家的資料庫使用不同的格式存儲數據,那相互之間就無法自動讀取,存儲到另一個庫中。所以為了統一標準,就規定了這些東西。

最後的鏈接就是GitHub,和前面的代碼庫中的重複。我表示始終對國家生物信息中心的分類之詭異佩服的很。最後還突然冒出來幾個鏈接,開發視頻教程,指導如何使用來開發使用E-UTILITIES的。

2.3.5 分析

介紹文字為:為你的數據分析任務選擇一個國家生物信息中心工具。額。。。

裡面可以看到,我們提供了好多好多的分析工具哦,你們都可以用來操作(manipulate),排列(align),可視化(visualize)和評估(evaluate)生物數據。

裡面分了六個類:文獻類、健康類、基因組類、基因類、蛋白質類和化學類。基因組、基因和蛋白質三個類的工具最多。

這裡面的分析工具和前面的提到的很多內容還是重複的,也就是說,這裡是提供了一個目錄,把很多相關的內容收集到一起,便於你使用。

2.3.5 研究

介紹文字為:展示了國家生物信息中心的研究和協作項目。

額,此文前文完整翻譯過,名為國家生物信息中心計算生物學分支(NCBI Computational Biology Branch)。再一次分類思想點贊,我已經暈了。

2.4 右側

右側上部分名為熱門資源(Popular Resources),不言而喻,是最多被訪問,最受歡迎的內容。

包含如下內容:生物醫學文獻(PubMed),書籍和文件(Bookshelf),自有的生物醫學文獻(PubMed Central),臨床療效信息(PubMed Health),匹配序列的工具(BLAST),序列的集合(Nucleotide),基因組信息(Genome),單核苷酸多樣性資料庫(SNP),基因信息(Gene),蛋白質序列集合(Protein)和化學資料庫(PubChem)。

分別介紹如下:

生物醫學文獻(PubMed):PubMed包括來自MEDLINE,生命科學期刊和在線圖書的超過2700萬次的對生物醫學文獻的引用。 引文可能包括到(自有的生物醫學文獻)PubMed Central和出版商(publisher)網站的全文內容的鏈接。

書籍和文件(Bookshelf):提供到生命科學和醫療保健書籍和文件的免費的在線訪問。搜索,閱讀和探索。

自有的生物醫學文獻(PubMed Central):PubMedCentral?(PMC)是美國國立衛生研究院/國家醫學圖書館(NIH / NLM)的生物醫學和生命科學期刊文獻的免費全文檔案。

臨床療效信息(PubMed Health):臨床有效性研究(Clinical effectiveness research )回答了醫療(medical)和保健(health care)中「什麼有效」問題。感覺中文中,保健這個概念已經既污又low了。

匹配序列的工具(BLAST):多次出現了哦。發現生物(biological)序列(sequences)之間的匹配區域(regions of similarity)。 該程序將核苷酸(nucleotide)或蛋白質(protein)序列(sequences)與序列資料庫(sequence databases)進行比較並計算統計學意義(statistical significance)。簡單說就是你有一段自己的基因序列,來這裡用這個工具查一下,哦,我和人類的基因序列是匹配的呢。當然也可以比較兩個基因序列的相似性嘍。

序列的集合(Nucleotide):核苷酸資料庫是來自幾個來源的序列集合,包括美國國立衛生研究所遺傳序列資料庫(GenBank(NIH genetic sequence database)),國家生物信息中心參考序列資料庫(RefSeq(NCBI Reference Sequence Database)),第三方標註序列資料庫(TPA(Third Party Annotation Sequence))和蛋白質數據銀行(PDB(Protein Data Bank)),基因組(genome),基因(gene)和轉錄本序列數據(transcript sequence data),為生物醫學研究和發現提供基礎支持。這個庫顯然是最大的總和。

基因組信息(Genome):該資源組織基因組的信息,包括序列(sequences),圖譜(maps),染色體(chromosomes),裝配(assemblies)和注釋(annotaions)。這裡面有人類基因組(Human Genome),微生物基因組(Microbial Genomes),細胞器基因組(Organelle Genome),病毒基因組(Viral Genomes),原核生物參考和典型基因組(Prokaryotic reference genomes)。

單核苷酸多樣性資料庫(SNP):單核苷酸多態性(SNPs)資料庫和包括插入/缺失(insertions/deletions),微衛星(microsatellites)和非多態性(non-polymorphic)變體(variants)的多個小規模(small-scale)變異(variations)

基因信息(Gene):基因整合來自廣泛物種的信息。 記錄可能包括命名法(nomenclature),參考序列(Reference Sequences)(RefSeqs),圖譜(maps),途徑(pathways),變異(variations),表型(phenotypes),以及全球範圍的基因組、表型和基因座特異性的資源的鏈接。

蛋白質序列集合(Protein):該資料庫是來自多個來源的序列集合,包括美國國立衛生研究所遺傳序列資料庫(GenBank(NIH genetic sequence database)),國家生物信息中心參考序列資料庫(RefSeq(NCBI Reference Sequence Database)),第三方標註序列資料庫(TPA(Third Party Annotation Sequence))中注釋的編碼區(coding regions)的翻譯,以及注釋的蛋白質資料庫(annotated protein database )Swiss-Prot,蛋白質信息資源(PIR(Protein information resources)),蛋白質研究基金會(PRF(Protein Research Foundation)和蛋白質數據銀行(PDB(Protein Data Bank))的記錄。 蛋白質序列是生物結構和功能的基本決定因素。

生化信息庫(PubChem):提供小分子生物活性(biological activities)的信息,由三個主要資料庫Pcsubstance、Pccompound、和PCBioAssay,分別包含物質(substance)信息,化合物( compound)結構和生物學活性(BioActivity)數據。

回到右側的內容,下面還有個提供了發布新聞和博客的鏈接(News & Blog),不贅述了。

2.5 底部

最後一個部分,我要介紹的是底部的所有內容。這一部分總的來說呢,應該是一個導航欄,就是告訴你目前處於整個站點的位置。但是實際上感覺又是一個所有元素的分類,提供給用戶方便的訪問。總之不管那麼多主要有5個部分。

2.5.1 從這裡開始(GETTING STARTED)

從這裡開始,好吧,這裡有5個內容:分別是教育(NCBI Education),幫助文檔(NCBI Help Manual),手冊(NCBI Handbook),訓練和培訓(Training & Tutorials)以及提交數據(Submit Data)。講真哦,別人我不知道,反正如果我要是從這裡開始的話,估計早就迷失了。

需要說的是第一個教育和第四個訓練和培訓和上文中間功能區的學習(Learn)重複,不做介紹。第五個內容提交數據和中間功能去的提交(Submit)重複。表示不理解。剩下的兩個如字面意思。

2.5.2 資源(Resources)

哦,既然整個站點就是資源,歡迎詞裡面說的嘛。那麼這顯然是重中之重了,果不其然,我一看和左側列表中完全重合。並不是,少了一個訓練和教程(Training & Tutorials),目前你有三種可能一下子就進入到訓練和培訓頁面,看國家生物信息中心是多麼的希望訓練和培訓你哦。其他完全一樣,也就是所有的資源了。

2.5.3 熱門(Popular)

唉,這個部分和剛才提到的右側部分的熱門資源(Popular Resources)完全一致,真的完全一致。不解釋。

2.5.4 特色(Featured)

恩,這個有趣了。由於前面的影響,我下意識的反應就是在尋找,到底這一部分和哪一個條目重合呢?事實上,並沒有。沒有想到吧,這一部分竟然幾乎是新鮮的哦。為什麼躲到這個犄角旮旯里呢?我又一次陷入了思考。

遺傳檢測註冊表(Genetic Testing Registry(GTR))這裡提供了一個提供者自願提交遺傳檢測信息的地方。從裡面可以看到。測試(Tests)通過搜索測試名稱,疾病名稱,表型(phenotypes),基因標記和名稱(symbols and names),蛋白質名稱,實驗室名稱,主管和位置。環境/表型(conditions/phenotypes)通過搜索疾病名稱,特性(traits),藥物(drugs),蛋白質(proteins)和分析(analytes)找到環境和表型。基因(Genes)通過搜索基因標記和名稱,環境和表型來搜索基因。實驗室(laboratories)通過搜索實驗室名稱,主管,職員,位置和服務,疾病名稱和表型搜索實驗室。基因評論(GeneReviews)這個很好的,是相關學科專家對基因的評論文章。中國有兩家哦!一個是杭州的中翰金諾醫學檢驗所,一個是江蘇蘇州的健路基因。額,奇怪的狀況。

臨床療效信息(PubMed Health)向左看熱門資源裡面有這一條,上文中的右側也有這條。不解釋了。

美國國立衛生研究所遺傳序列資料庫(GenBank(NIH genetic sequence database))前文多次提到這個資料庫,這裡第一次出現訪問鏈接。介紹文字:美國國立衛生研究所遺傳序列資料庫,所有公開訪問的DNA序列的注釋的集合。這裡的注釋非常重要哦,一堆atcg,那可是完全看不懂天書了。同時,GenBank又是另一個庫的一部分,這個庫喚作國際核苷酸序列資料庫(International Nucleotide Sequence Database),這個大庫由幾個庫組成分別是:日本DNA數據銀行(DDBJ),歐洲核苷酸序列檔案(European Nucleotide Archive(ENA)),GenBank。這三個機構每天交換數據。可見霓虹國還是很強大的哦。下面介紹了一堆,如何訪問,如何使用,保密和隱私之類。有幾種方法可以從中獲取數據:Entrez Nucleotide,BLAST,e-utilities,和直接看純文本格式,多種方法各顯神通,各有利弊。將來會詳細介紹。總關係圖中有幾個截圖可以看看。

參考序列資料庫(Reference Sequences):一個全面的,整合的,非冗餘的,注釋良好的參考序列,包括基因組,轉錄物和蛋白質。關鍵在於參考這個詞,那麼多序列,哪個才是標準呢?這是個問題。簡單來說,這裡的序列,就是可以用來對照的。恩,對照了發現,我是一個人類。就這種感覺。

基因表達綜合(Gene Expression Omnibus):支持符合微陣列實驗最小信息(MIAME)標準的數據提交的公共功能基因組資料庫。 接受基於數組和序列的數據。 提供工具來幫助用戶查詢和下載實驗和策劃基因表達譜。也就是說大家把測序的結果提交到這個裡面來,為啥呢?因為這個資料庫存儲基因組數據這種大數據特別擅長,提交的方法簡單還支持各種通用的注釋,很重要的哦,用戶可以查詢下載研究感興趣的基因表達譜。

圖譜(Maps)圖譜查看器,Entrez的一部分,提供了多樣的基因組圖譜和序列數據的瀏覽功能。這個用了就知道咋回事了。

人類基因組(Human Genome),不用說了,這是核心啊。裡面有詳細的單獨的操作方法。可以下載,瀏覽,查看和學習。就整個資源來說,這裡有些像新浪網站搞了一個小專題。就這樣的感覺。順便提一下人類基因組的版本是變化的哦,網站裡面給出了兩個版本GRCh37和GRCh38版本。表示看不懂,經過研究,原來是,以GRCh28為例,基因組參考聯盟之人類基因組(38版)(GenomeReference Consorium human genome (build 38)),額,汗。

小家鼠(Mus musculus),不解釋了,老鼠的基因組。歷史上乾死不少人類,現在又被人類乾死不少,誰也滅不掉誰。

流感病毒資源(Influenza virus),無需解釋了,流感是一種病毒,表吃抗生素,消炎藥,那是殺菌的,對病毒沒有卵用,附帶宣傳。

引物尋找器(rimer-BLAST),引物是一段核苷酸序列,可以在升溫後DNA雙鏈打開後,拼合到單鏈的特定位置上,用以後面降溫時,確定DNA補齊雙鏈狀態的起始和結束位置。如此重複N次,就把特定區間的DNA複製了大量出來,如果用了熒游標記,那麼這時就發出可見強度熒光。如果沒有,不是你做錯了,而是沒有特定的DNA序列讓你的引物去拼合。所以,有無熒光就成為被測的DNA有無特定序列的標識。就可以干很多事情了。這裡就是如何設計一段用來檢測特定dna序列的引物序列的程序。

序列閱讀存檔(Sequence Read Archive (SRA))這個裡面存儲序列數據。為什麼要存到這裡呢?因為它設計來存儲二代測序技術測出來的原始序列數據的。除了原始序列數據外,SRA現在以參考序列中讀取位置的形式存儲對齊信息。也就是說我不用存每一個位的信息,我存儲相對於參考也就是標準列的位置,這樣來存儲對齊信息。雖然實踐方法不知道,不過顯然會減少存儲量。現在,sra資料庫數量逐漸增加。裡面列舉了很多信息。

坦白說,看完這一段,發現這個特色下面的列表,雖然位置很偏,但是感覺用處都很大,很有研究價值,和它左右列表相比,完全不是一個檔次的。

2.5.5 美國國家生物信息中心信息(NCBI INFORMATION)

這一部分有七個列表項目,但是我來分分鐘解決。

美國國家生物信息中心概述(About NCBI),美國國家生物信息中心的研究(Research at NCBI)這兩個看上去熟悉吧,就是前文中,中間部分的概述(About the NCBI),那麼,美國國家生物信息中心的研究呢?不用擔心,這其實是概述的一個子內容。一個是另一個的子內容,我真是醉了。

美國國家生物信息中心新聞和博客(NCBI News & Blog),很熟悉吧,就在頁面上不遠的地方。

唯一有一點價值的美國國家生物信息中心FTP站點(NCBI FTP Site),並沒有任何新鮮事,就是中間部分的下載(Download)裡面的FTP。

後面三個,我們用不了,不解釋!

好了,到此為止,首頁面上呈現的概略性內容就已經完全介紹完了,雖然說是概略性的內容,其實已經涉及到了主要的資源,以及利用資源的方法了。這就是整個美國國家生物技術信息中心的資源架構。

後面,我會擇其重點資源,逐個研究。

補充一句,如果看完了,你還是不知道要到哪裡去找你要的東西,就到頁面的正上部位置,我們一直沒有提到的地方,有個空白框,輸入你想要的內容,當然如果你知道自己想要什麼的話,點擊Search,搜索即可。


推薦閱讀:

數據挖掘專題 | TCGA數據挖掘如何入門?
生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer
生信入門系列之 linux 入門(一):初識 linux 系統
NCBI教程(一)獲取基因(gene)或基因產物(gene product)的功能

TAG:生物信息學 |