NCBI（美國國家生物技術信息中心）的資源架構（一）概括

05-01

任皓

2017年7月29日

NCBI（美國國家生物技術信息中心）的資源架構

NCBI，The National（美國國家）Center for Biotechnology（生物技術） Information）旨在通過提供biomedical（生物醫學）和genomic（基因組）信息供訪問來推進科學和健康事業。這是網站首頁正中的介紹，短短的一句話表明網站的資源包含兩大部分，biomedical和genomic。

1. 中心的概括性介紹性部分

最先能看到的網站中的概括性介紹就是關於NCBI頁面，點進去後可以看到。

1.1我們的使命

一般介紹

理解大自然靜默而優雅的語言，生物細胞的語言，是現代分子（molecular）生物學的追求。從代表DNA的化學亞基（subunits）的4種字母，呈現出了生命的過程的語法，複雜至人。這些『字母』的解開和用來形成新『單字和短語』正是分子生物學領域的核心焦點。分子數據的驚人體量和它們神秘而微妙的模式（cryptic and subtle patterns），使得對計算機資料庫（computerized databases）和計算機分析工具的需求成為必然。我們面臨的挑戰在於發現新的處理數據的量和複雜度的新方式，在於提供給研究者們分析和計算工具更好的訪問性，以此來推動我們對基因的遺傳（genetic legacy）的理解，對它在健康和疾病中起作用的理解。

創建NCBI

已故的Claude Pepper參議員認識到計算機信息處理方法對於生物醫學研究開展的重要性，在1988年11月4日提案，建立National Center for Biotechnology Information（國家生物技術信息中心），作為在National Institutes of Health（國立衛生研究院）中的National Library of Medicine（國家醫學圖書館）的一個部門。國家醫學圖書館因為在創建和維護生物醫學資料庫方面的經驗被選中，並且因為屬於國立衛生研究院，可以在計算分子生物學領域建立一個院內研究計劃。國立衛生研究院的研究部門集合在一起，構成了世界上最大的生物醫學研究機構。

基礎研究

作為提供分子生物信息的國家資源，NCBI的使命是，為更有助於理解控制健康和疾病的基礎分子和遺傳過程，而研發新的信息技術。更明確的說，國家生物技術信息中心負責：開發自動化系統，用來存儲和分析各種知識，包括分子生物學、生物化學（biochemistry）和遺傳學（genetics）；促進這些資料庫和軟體被研究者和醫學團體使用；開展基於計算機的信息處理高級方法的研究，來分析重要分子的生物學結構和功能。

為履行這些責任，國家生物技術信息中心：

使用數學和計算機方法在分子層面上開展基礎生物醫學問題的研究
和多個國立衛生研究院，學術界（academia），工業界（industry）和其他政府部門保持合作
通過舉辦學術會議、學術研討和系列課程促進科學交流
通過美國國立衛生研究院研究計劃（NIH Intramural Research Program），支持博士後研究生在計算生物學領域的基礎和應用研究培訓
通過科學訪問計劃（Scientific Visitors Program）聘請國際科學團體的成員開展信息研究和培訓
為科學和醫學團體開發、發布、支持和確保一致性的到多個資料庫和軟體的訪問
研發和促進資料庫標準、數據存儲和交換以及生物學命名法（nomenclature）

1.2 組織架構

計算生物學分支（Computational Biology Branch）

在以下方面開展基礎和應用研究：在分子生物學和基因學領域內的計算機學、數學和理論問題，包含基因組學、序列比較、序列搜索方法、高分子（macromolecular）結構、動態和交互，以及結果和功能預測。
簡歷協作的研究項目在計算分子生物學領域，包含生物學、化學、數學和計算機科學在國立衛生研究院院內實驗室，其他的政府機構，學術界和工業界。
諮詢和建議為了政府機構和研究實驗室在計算機基礎的分析工具的應用程序為了研究分子生物學
互動分子生物組織為了增強wet-bench，基於實驗室的研究通過計算機學的應用和理論學習方法。

信息工程分支（Information Engineering Branch）

執行應用的研究在數據表達和分析，包含基於計算機系統存儲、管理和知識獲取和分子生物學、基因學以及生物化學
為表達分子生物信息的多種形式設計資料庫結構和規格，包含核酸、蛋白質和機構信息。這些資料庫都是國家資源
為從原型到操作層面設計和開發可發布的軟體系統，使用本地和遠程的計算服務提供研究
一致化公開的訪問到序列、基因學、結構和參考數目，方法是構建策劃和整合的資料庫，儘可能的建立到外部資料庫的連接。
建立合作的信息研究項目，和國立衛生研究院院內實驗室一起，和其他院外的學術組織
諮詢和建議其他的政府機構和研究實驗室為了更好的軟體和資料庫設計高級方法
開發和提供標準為了資料庫，數據交換和生物學命名

信息研究分支（Information Resources Branch）

計劃、指導和管理技術操作，屬於美國國家生物技術信息中心的，包含計算機系統用來研究和開發的，如同用來訪問公開資料庫的計算機系統
提供技術輔助給美國國家生物技術信息中心職員，提供支持給外部的用戶屬於美國國家生物技術信息中心網路服務
有監督的網路操作為了美國國家生物技術信息中心和配合其他的政府機構為國家和國際訪問到美國國家生物技術信息中心
組織教學示範和講習班為了生物醫學的社區來培養美國國家生物技術信息中心信息服務的用戶
計劃、開發和管理政府協議和合作協議來促成設備和服務支持美國國家生物技術信息中心信息功能
聯絡員為用戶支持服務到機構包含到全基因組項目
實施應用研究和研發，提供技術的諮詢和指導，明確用戶需求。開展調查來改進美國國家生物技術信息中心開發的軟體的在生物用戶社區的進展
協同其他政府機構和生物信息資源來促進數據資料庫（repositories）在美國國家生物技術信息中心的開發。

1.3 計劃和活動（Programs & Activities）

基礎研究（Basic Research）

美國國家生物技術信息中心擁有一個多學科（multi-disciplinary）研究組織，該組織由計算機科學家，分子生物學家，數學家，生物化學家，研究醫師和結構生物學家，聚焦到基礎和應用研究在計算機分子生物學領域。這些研究者不僅做出了重大的貢獻到基礎科學，也提供了應用的研究行為的新方法的源泉。一起努力，他們研究基礎的生物醫學問題在分子層面上，使用數學和計算機方法。這些問題包括基因組織（gene organization），序列分析（sequence analysis）和結構預測（structure prediction）。一個例子，當前的研究項目包括：基因組織的發現和分析，重複序列模式，蛋白質結構域和結構要素，繪製人類基因組的基因地圖，HIV感染的動力學（kinetics）數學模型，序列錯誤導致效果的分析提供資料庫搜索，資料庫搜索新演算法的開發，多序列對齊，非冗餘（non-redundant）序列資料庫的構造，用於評估序列相似性統計學意義的數學模型，用於文本檢索的向量模型。還有，美國國家生物技術信息中心研發者保持持續的合作和多個機構在國立衛生研究院，也和眾多的學術和政府研究實驗室。

資料庫和軟體（Databases and Software）

美國國家生物技術信息中心負責GenBank DNA 序列資料庫在1992年10月。美國國家生物技術信息中心職工有著良好的訓練在分子生物領域構造資料庫為序列被獨立實驗室提供的，國際核苷酸（nucleotide）序列資料庫，歐洲分子生物實驗室（European Molecular Biology Laboratory (EMBL)），日本DNA資料庫（DNA Database of Japan (DDBJ)）提供的。和美國專利商標局安排，使得可以納入專利的序列數據。

除了GenBank之外，美國國家生物技術信息中心支持和分發多個資料庫為醫學和科學社群。這些包括在線人類孟德爾遺傳資料庫（Online Mendelian Inheritance in Man (OMIM)），3D蛋白質結構的分子建模資料庫（Molecular Modeling Database (MMDB)），唯一人類基因序列集（Unique Human Gene Sequence Collection (UniGene)），人類基因組的基因圖譜（Gene Map of the Human Genome），分類瀏覽器（the Taxonomy Browser），癌症基因組解剖學項目（Cancer Genome Anatomy Project），和美國國家癌症研究所（National Cancer Institute）合作。

Entrez是國家生物技術信息中心的搜索和檢索系統，提供用戶完整的到序列，映射，分類和機構化的數據的訪問。Entrez也提供序列和染色體映射的圖像視圖。Entrez的一個強大和獨特的特性是檢索相關的序列、結構和引用的能力。期刊文獻（The journal literature）可以通過PubMed，網頁搜索介面提供了訪問到超過11百萬期刊引文（journal citations）在MEDLINE中，包含到完整文本文章的鏈接到參與出版商的網站。

BLAST是程序為了在國家生物技術信息中心進行序列相似性檢索開發的，是識別基因和遺傳特徵的工具。BLAST能針對整個DNA資料庫在少於15秒鐘內執行序列檢索。附加軟體工具被國家生物技術信息中心提供的包括：開放閱讀框架查找器（Open Reading Frame Finder (ORF Finder)），電子模擬聚合酶鏈式反應（Electronic PCR），序列提交工具（sequence submission tools），Sequin 和 BankIt。所有國家生物技術信息中心的資料庫和軟體工具從WWW或者通過FTP可用。國家生物技術信息中心也有電子郵件伺服器提供可選的方法來訪問資料庫，為了文字搜索或者序列相似的搜索。

推廣和教育（Outreach and Education）

國家生物技術信息中心培養科學社區在計算機領域，如應用到分子生物學和基因學，通過贊助會議，研討會和演講集。科學訪問計劃已被安排來扶持院外科學家合作。博士後研究生學位可以作為國立醫學研究所院內研究計劃的內容。

1.4 國家生物技術信息中心計算生物學分支（NCBI Computational Biology Branch）

在國家生物技術信息中心計算生物學分支中的研究集中於理論、分析和應用計算方式到廣泛的基礎問題在分子生物和醫學中。

研究概述（Research Overview）

研究計劃在計算生物分支正在開展被高級研究員（Senior Investigators），終身研究員（tenure track Investigators），職業科學家（Staff Scientists），博士後研究生（Postdoctoral Fellows），學生們。計劃聚焦在理論，分析和應用方式到廣泛的基礎問題在分子生物學中。

群組的專業知識集中於序列分析，蛋白質結構及功能分析，化學信息，基因組分析。研究興趣更覆蓋於廣泛的主題在計算生物學和信息科學。這些包含，但是不限於資料庫搜索演算法，序列信號識別，演化的數學模型，病毒學統計學方法，化學反應系統的動態行為，統計學文本檢索演算法（statistical text-retrieval algorithms），蛋白質結構和功能預測，比較基因組學，分類樹，人口遺傳學，系統生物學。

很多基礎研究項目被CBB研究員指導，目標增強和強化的國家生物技術信息中心的公開有效資料庫和軟體應用工具套裝。合作研究努力，在國家生物技術信息中心研究員中，也在外部的研究團體中，目標是創新演算法(BLAST, PSI-BLAST, VAST, and COGs)的開發，新的研究方法（相鄰文本（text neighboring））和基礎資源（PubChem and CDD）改造了計算生物學的領域。演算法和應用在當前開發下有潛力到更加高級的科學研究。

CBB的成員顯著的貢獻到有效和可信賴的國家生物技術信息中心的在線資源，通過回顧資料庫中的沉積的數據的質量和有效性，也有信息的精確性用來注釋數據的。成員也通過規劃和組織科學聯盟來確定最有效地利用公共序列資源進行大規模（large-scale）或高通量（high-throughput）實驗生物學的領導和指導給予到院外社群（extramural community）。研究合作定義新的研究領域和身份適當的計算機制來解決問題。

現在完成了概括性內容的了解，下面，對具體資源的內容進行梳理。