標籤:

有沒有生物信息學領域的大神可以解釋下什麼是基因本體呢?是和基因文庫差不多的東西嗎?搜了百科還是不太懂?


Gene ontology翻譯成基因本體的確比較困惑,不過ontology本身就不是很好翻譯,除了gene ontology,另外還有很多比如 HPO(human phenotype ontology),DO(disease ontology)等。由於導師是從事基因功能預測相關的演算法開發,所以對GO還是有一定了解。我簡單的描述一下我的理解,不查閱資料了,可能有說的不準確的地方。

GO產生的意義在於,當我們描述基因的時候,會說一段話,比如說BRCA1這個基因,它調節了人體細胞的複製、它和細胞生長相關、它可以抑制惡性腫瘤的發生等等;但是如果對於每個基因都給出一段定性描述的話,很難去做很多定量分析工作,比如,不同的人對同樣的基因給出不同的描述,僅僅是文字描述的差異,還是基因發現了新的功能?比如說,同樣的基因,在不同的物種中,是否有不同的功能呢?比如說,幾個不同的基因,是否有某些相似的功能呢?當我們面對這些問題的時候,如果能讓每個基因的功能描述定量化,就可以設計統計學方法去給出答案。

因此,就產生了GO,它做的第一件事情是,將所有的基因功能定量化,給每一個功能一個編號(稱為GO term,編號一般為GO:XXXXXXX),就好像給基因功能的描述設計一個字典一樣,一個GO term就代表一個特定的功能,給出一個ID、一個標準化的名稱(Name)和一段描述(Description)等。但是此時又發現了一個問題,也就是基因功能有大有小,比如說一個GO term的名稱為cell cycle process,是一個覆蓋面比較大的功能,包含很多其他的GO term(比如 cell cycle checkpoint等),因此,GO term之間存在關聯關係(is_a,part_of等),所有的GO term組成了從上至下的類似樹狀結構,越靠近根部功能描述越寬泛,約靠近樹葉功能描述越細緻。實際的結構為DAG,有向無環圖,因為一個父節點會有很多子節點,同時一個子節點會有很多父節點(這裡面還蠻複雜的,有很多生信演算法會利用term的結構+圖論的方法來進行GO term的預測等工作)。從根節點(root)下面,會分成三個大的分支,BP/MF/CC (細胞組成(Cellular Component)、生物過程(Biological Process)與分子功能(Molecular Function)),然後再繼續細分,一般來說,每個GO term會標記上是屬於哪個分支。

在GO term定義時,是不考慮物種的,也就是所有物種的基因功能都查詢一個字典。在這個字典做完之後,下一步,就是對每個物種的每個基因,進行功能注釋,也就是把GO term賦給給一個基因,比如說,基因A有GO:XXXXXXX,GO:YYYYYYY等,GO的官網會提供一些模式生物的annotation文件,也就是不同物種的基因功能注釋文件。每一個注釋條目的來源有很多,比如說通過實驗得到了功能描述,通過查閱GO term字典,找出匹配的term,然後就給這個基因,然後提交到GO的資料庫;比如說,設計了演算法,對文獻進行挖掘,通過語義分析,找到term,再賦給不同的基因;比如說,通過進化比對,將一個基因在物種A的功能賦給它在B物種;當然,不同的注釋來源可信度不同。

基於GO能做的分析有很多,除了基因功能預測(也就是通過演算法給在一個特定物種的基因賦予一些GO term),做的比較多的就是基因功能富集分析(GO enrichment),簡單來說,就是找出一組基因中共有的基因功能(統計學意義顯著),實際情況複雜很多,演算法也很多,我自己也寫過一個,不過已經被埋沒了~~關於GO,水很深,如果不是開發相關演算法,一般好像都是做GO富集分析的,推薦在線分析軟體(DAVID),還是蠻好用的。

Have fun ^^


沒人邀請,看到了隨便說兩句。

你說的是Gene Ontology以及相關的GO分析吧?

是這個樣,古時候希臘有一幫哲學家,喜歡用ontology這個詞,叫做本體論。這個本體論幹啥用的呢?主要是研究某一個東西,有什麼特點,比如長寬高,比如在哪裡分布等等。這些特點有一個共性就是直接與要研究的這個東西的本身特性有關。

所以,到Gene Ontology,你也就能懂了吧?就是研究gene的相關內容,目前側重點是3個方面,就是:

1. 這個gene的產物在細胞的哪裡出現(Cellular Component)是細胞質,還是細胞核,是細胞核的內還是外等等;

2. 這個gene參與到了哪個生命過程(Biological Process),是細胞增殖,還是信號相應等等;

3. 這個gene能起到什麼樣的分子功能(Molecular Function),比如是個DNA結合的鋅指蛋白還是什麼。

1,2,3的研究都相當於對gene本身的研究,所以Gene Ontology這個詞,相當於回答了,某個gene,它從哪裡來,能幹什麼,參與了哪些過程。

這麼說,是不是明白點?

這個和文庫是兩個東西,沒關係。


GO(Gene Ontology),包括一系列的基因功能集合。簡單來說GO就是對於基因功能分類的一類標準辭彙。它將所有基因歸於3大類,分別是:細胞組成(Cellular Component)、生物過程(Biological Process)與分子功能(Molecular Function),每一個大類又可以分為很多小類,這樣我們可以將基因和各種生物學物質用這些標準辭彙來描述和歸類。當有了這樣的通用語言之後,避免了不同分類和描述方式帶來的混亂。同時,有了GO,結合富集分析的方式,我們就可以知道有哪些pathway或者哪些調控機制影響了基因的差異表達(不同pathway之間的crosstalk等)。相比於單單考慮一個基因,結合GO與富集分析方法的研究方式具有更強的適應性(魯棒性)。

因此GO與基因文庫是兩個完全不相同的概念。


還不如翻譯成「概念」或者「性質」。這樣GO庫就叫「基因概念庫」或者「基因性質庫」,聽起來比「存在論」正常一萬倍。


1. 幾個概念

  • 基因本體論(Gene ontology)

Gene ontology (GO) is a major bioinformatics initiative to unify the representation of gene and gene product attributes across all species

-- Gene ontology - Wikipedia (維基百科的Gene Ontology詞條)

基因本體論(GO)是一個很重要的生物信息學的計劃,去標準化在不同物種中基因及基因產物屬性的表示方式。

  • 本體論(ontology)

Ontology: a list of concepts and categories in a subject area that shows the relationships between them

-- Oxford Advanced Learner"s Dictionary 9th edition ? Oxford University Press, 2015(牛津高階字典)

本體論:某個領域的一些概念和分類的列表,同時可以表明這些概念和分類之間的關係

  • 基因文庫(Genomic library)

A genomic library is a collection of the total genomic DNA from a single organism.

-- Genomic library - Wikipedia (維基百科Genomic ibrary詞條)

基因文庫是從一個單一生物體所有基因組DNA的一個集合。

2. 結論:

基因本體論和基因文庫其實沒任何關係。

3. 建議:

生物領域學好英語還是很重要的,中文翻譯常常會令人誤解。加油!!


非常榮幸可以回答這個問題。

首先,基因本體論(Gene Ontology)和基因文庫不是同一概念。我從下面幾個方面講一下GO的一些概念和基本方法(感謝劉老師提供的資料):

1. Ontology(本體)的定義

2. 為什麼要使用Gene Ontology

3. GO 概念、術語

4. GO 關係

5. GO 公理

6. GO 資料庫簡介

7. GO 注釋方法

8. GO相關分析軟體

1. Ontology(本體)的定義

什麼叫本體?本體是指是在一定知識範圍內,對所談論的一組概念,對它們給出一種語義約定。

Gruber提出了一種四元素表示方法,即一個本體中的四個主要元素是:

概念(concepts)

關係(relations)

實例(instances)

公理(axioms)

也就是說對於一個本體而言,至少需要這四個元素來構成;我們的基因本體(Gene Ontology)也遵循這個原則。

2. 為什麼要使用Gene Ontology

為了查找某個研究領域的相關信息,生物學家往往要花費大量的時間,更糟糕的是,不同的生物學資料庫可能會使用不同的術語,好比是一些方言一樣,這讓信息查找更加麻煩,尤其是使得機器查找無章可循。Gene Ontology(GO)就是為了解決這種問題而發起的一個項目。

3. GO 概念、術語

Gene Ontology中最基本的概念是 term 。GO裡面的每一個entry都有一個唯一的數字標記,形如 GO: nnnnnnn,還有一個term名,比如 "cell", "fibroblast growth factor receptor binding",或者 "signal transduction"。每個term都屬於一個ontology,總共有三個ontology,它們分別是molecular function, cellular component和biological process。

4. GO 關係

Gene Ontology的結構是一個有向無環圖,有點類似於分類樹,不同點在於Gene Ontology 的結構中一個 term可以有不止一個parent

GO term關係

GO的本體被構造為有向無環圖,其中術語作為圖中的節點,並且術語之間的關係作為邊緣。 正如每個術語被定義一樣,因此GO術語之間的關係也被分類和定義。

主要的關係有以下幾種:

is a

part of

regulates

negatively regulates

positively regulates

occurs_in

has_part

5. GO 公理

A is a B

B is part of C

we can infer that A is part of C

is a * part of → part of

is a * is a → is a

part of * part of → part of

part of * is a → part of

is a * part of → part of

part of * is a

part of * have part

has part * has part → has part

has part * is a → has part

is a * has part → has part

B regulate A; some A regulated by B

positively regulates and negatively regulates

is a * regulates → regulates

regulates * is a → regulates

regulates * part of → regulates

regulates * part of → regulates

part of * regulates → ???

regulates * regulates → ???

6. GO 資料庫簡介

Download Ontology

GO資料庫包括了下面三個主要的文件:

go-basic.obo

is_a, part_of, regulates, negatively_regulates and positively_regulates

excludes relationships that cross the 3 main GO hierarchies

go.obo go.owl

includes has_part occurs_in

go-plus.owl

includes cross ontology relationships

ChEBI, cell ontology and Uberon

GO slim: cut-down versions of the GO ontologies containing a subset of

the terms in the whole GO

7. GO 注釋方法

GO官方下載 http://geneontology.org/page/downloadannotations

1.基因組資料庫注釋 Ensemble - BioMart

2.基因資料庫JGI phytozome(植物)

3.利用GO與其他資料庫映射文件

Download Mappings

4、利用Blast2GO及對應資料庫進行注釋

資料庫來源

? NCBI gene_info

? NCBI gene2accession

? PIR idmapping

? geneontology assocdb-data

8. GO相關分析軟體

1.Gene Ontology 有向無環圖

amigo2

AmiGO 2: Visualize

2.EMBL-EBI QuickGO

GO Slims and GO Term Comparison

3.Gene Ontology 分類 富集 - PANTHER

PANTHER - Gene List Analysis


謝謝邀請。

相信你也不想看概念也不想看各種解釋了。我給你說我的理解吧 。

簡單地說,就是,解釋基因(和基因產物)是什麼。

因為語言不同立場不同難免偏差,為了明確這個領域的概念和分類,用三個本體論,也就是分子功能,生理過程,細胞組件來規範化這個本體論。

再用is a a part of regulate等明確術語之間的關係。

有點類似統一貨幣的感覺。

總之,再說個大白話,基因本體,就是基因,它的本體。它是個啥,幹啥的,哪來的,到哪去,go用統一的標準說這個事兒。


很高興發現生物領域也引入了本體論,ontology這個詞及其中文翻譯「本體論」實在是離日常生活太遠,很難從字面直接理解。既然討論到生物信息學的話題,相信一定對計算機領域的概念不陌生,就結合這邊的概念解釋吧:

計算機領域引入本體論主要是為了解決知識的存儲、表示、查詢、推理等操作。

為什麼普通的文件(或基於文件的常見資料庫)不夠支持這些操作呢?底層的數據可以通過普通的文件來支持,但是知識常涉及到一系列標準類型的代表真實世界的實體以及它們之間的關聯關係,如果希望讓頭腦簡單的計算機能夠在這個知識實體空間中遊走並按要求提取我們所需的新知識,就需要先結合各個特定的專業領域來定義實體的類型、各種不同類型實體之間的關聯關係了。

例如「&<2016年&>&<美國大選&>中&<民主黨候選人&>&<希拉里&>&<的競爭對手是&>&<共和黨候選人&>&<川普&>」,就涉及到了政治事件、競選、候選人、黨派、個人等一系列概念實體,基於這樣的實體概念空間,可以進一步設計查詢或推理的操作,支持類似「&<川普&>在&<2016年&>代表&<哪個黨派&>?」等推理。而熟悉本體論的專家就可以和熟悉「美國政治」的專業人員配合設計出該領域中關鍵的概念和關係的類型。

再回過頭來看基因本體,就是從結合了本體論和生物信息學的視角出發,設計出的基因、序列、位點、相關蛋白或表型等一系列合適的概念及關係類型,方便用規範的結構來存儲、表示基因相關的知識,支持未來依靠計算機進行查詢、推理甚至發現新知識的操作。


只要理解了什麼是Gene,什麼是Ontology再看這個就不會疑惑了。

硬要說和Gene Library有什麼關係的話,前者是概念,後者是物質承載,可類比與人和人體的關係。


推薦閱讀:

人類基因組詳圖/DNA元件百科全書/ENCODE 被吐槽的主要原因是什麼,它們有道理嗎?
如果打算使用生物信息學軟體處理數據,是裝個linux系統方便,還是直接使用mac os方便? ?
怎麼解釋蜜蜂和菌落不懂數學卻能做出比人類還要完美的事情?
生物信息學領域有哪些正在進行或將要進行的重要計算?
美國生物信息學方面大牛博導有哪些?

TAG:生物信息學 |