如何準確理解基因家族、基因簇、scaffold、motif?

問題1)書上說基因家族(gene family)是指真核生物功能相關的一類基因,怎麼區分基因家族與基因簇呢? 問題2)scaffold是什麼東西,如何準確把握? 問題3)怎麼理解motif,這個詞蛋白里有,基因里也有,請問如何準確理解,求大神指導,不勝感激……


你好,首先自我介紹一下,我是來自華中農業大學生物信息學專業的研究生,對於你的問題我可以作一些簡單的回答。

(1)基因家族。對於基因家族,按照傳統的概念,認為是在染色體上距離接近,功能類似的基因簇(cluster)。但實際上,我們生物信息學對於基因家族的概念一般有兩種分類:(1)按功能劃分。例如我們常用的CAZyme注釋或者Pfam注釋,會把一些功能類似的基因聚類,形成一個家族。例如GH家族(糖苷水解酶家族)等;(2)按照序列相似程度劃分。我們一般將旁系同源的基因放在一起認為是一個家族,一般使用orthoMCL進行聚類。

(2)基因簇的概念已經說了,是指在基因組上距離相近功能類似的基因。

(3)scaffold和contig。對於二代基因組測序的結果,我們獲得最原始的數據叫做reads。它包含了原始的測試數據(ATCG)和鹼基質量信息(一般用ASCII碼對其打分)。由於二代測序的原理,我們需要把DNA打斷後進行PCR擴增後對其進行測序。而打斷後的序列片段很短,所以需要對其進行組裝,還原其基因組的真實情況。在這個組裝的過程中(其中的演算法非常複雜),我們將reads拼接形成初步較長的序列,這個序列叫做contig。但是contig依舊還是很短,我們根據序列的信息將contig進一步的組裝,形成更長的序列,這個序列就叫做scaffold。

(4)motif是蛋白質分子具有特定功能的或者作為一個獨立結構域一部分相近的二級結構聚合體

…………………………

有大神說scaffold這一步講得很模糊,那我仔細再講一下。在我們得到contig之後,我們再用reads比對到contig上,如果雙端測序的reads能夠比對到不同的contig上,那麼就可以認為這兩個contig來自同一個染色體,那我們把contig連起來,根據插入片段的長度,填上gap(也就是N)。如下圖所示:


謝邀。

    1)Gene Family

A gene family is a set of several similar genes, formed by duplication of a single original gene, and generally with similar biochemical functions. One such family are the genes for human hemoglobin subunits; the ten genes are in two clusters on different chromosomes, called the α-globin and β-globin loci.

    2) Scaffold

    a)

    In biology, the nuclear matrix(nuclear scaffold) is the network of fibres found throughout the inside of a cell nucleus and is somewhat analogous to the cell cytoskeleton. However, in contrast to the cytoskeleton, the nuclear matrix has been proposed to be a highly dynamic structure, perhaps more like a dynamic sponge with open compartments for free diffusion of molecules in the nucleus.The nuclear matrix, along with the nuclear lamina aid in organizing the genetic information within the cell.

    b)

    In NGS data based genome assembly, there are several steps. First, using methods like debrujin graph to connect kmer(reads) into contig(only use information of overlap between reads). Then people use pair-end relationship to connect these contigs to form scaffold.

    3) Motif

    Sequence motif, a sequence pattern of nucleotides in a DNA sequence or amino acids in a protein

    Structural motif, a pattern in a protein structure formed by the spatial arrangement of amino acids

    以上信息基本上來自wikipedia,NGS 那一段是我寫的,其他的部分幫你搬運一下


簡單回答一下什麼是scaffold。上邊華中農大那個說的不算錯,但是很模糊。read指的是直接測序得到的,目前普遍的二代測序是PE150,也就是雙端各測150個鹼基。這150個鹼基是連續的,但是兩個150之間的距離是不知道的,因為現在二代測序普遍建350bp的插入片段文庫,所以測不通。由於350隻是跑膠的時候的一個大概的範圍,所以不能認為這兩個150之間就一定是50個鹼基,可能是48,也可能是52.這對重測序來說沒有影響,但是denovo組裝的時候,這個距離就比較麻煩了。

利用read之間的重疊區域,可以拼裝出contig。具體演算法確實很複雜,簡單說,就是把這150bp的短read繼續打斷,叫K-mer。K是個數字,比如19。19-mer就是一個19個鹼基的小的DNA片段。具體在組裝的時候要用19-mer下的各個小片段去「碰」,看看哪兩個小片段之間有18個鹼基是重疊的,這樣就拼成了一個20鹼基的片段。(斜體部分我不太確定是不是這樣,大概是,歡迎指正)。以此類推,各個小片段互相之間就可以再組裝的更長一些。一般來說,組裝的時候要試驗不同的K值,看哪個K值下組裝的效果最好。需要注意的是,contig是依靠片段之間序列重疊的部分來組裝的

scaffold直接翻譯過來是腳手架。這個概念和「測末端」有關。簡單地說,你測序的時候篩選到了20kb長的片段,但是一代和二代都測不通,只能測兩端很短的序列。這時候你有了這個20kb的片段兩端的序列,以及這兩段序列之間的距離(20k)。利用這種位置關係,可以將這兩端序列所在的contig聯繫起來,確定這倆contig之間的順序和距離。利用這種組裝方法得到的更高級別的(或者說更長)的片段,就是scaffold。scaffold是利用各種手段確定contig之間順序和距離之後得到的組裝結果。這些手段包括但不限於mate-pair文庫、fosmid文庫、遺傳圖譜、光學圖譜、Hi-C。scaffold內部是有洞的(gap),原因是,測末端的時候中間測不到(如果測到了,就直接裝成contig了。重複區域例外,測到了你也不知道重複了多少次,除非直接測通)。

純三代測序應該是沒有scaffold這個概念的,只有contig。

附一個我給銷售培訓用的圖。個人手繪。


請問,如何準確理解基因家族、基因簇、scaffold、motif,不甚感激……?修改

問題1)書上說基因家族(gene family)是指真核生物功能相關的一類基因,怎麼區分基因家族與基因簇呢?

問題2)scaffold是什麼東西,如何準確把握?

問題3)怎麼理解motif,這個詞蛋白里有,基因里也有,請問如何準確理解,求大神指導,不甚感激……修改

----------------------------------------

題主修改一下吧,我有錯別字強迫症,看見寫錯的就不能忍。是不勝感激,不是不甚感激,不甚感激意思是,不怎麼感激!


這麼簡單的問題解釋的那麼複雜,幹嗎?

基因簇,一群合在一起能幹活的基因。基因家族,干相同活的基因們。

acaffold,腳手架的結構。motif,一個分子中一段貌似重要的部分。


呃,本人研究生課題是關於基因簇生物信息學分析的,所以我按照自己的理解回答一下,歡迎糾正。

基因家族是由具有類似功能的很多基因組成的,這些基因往往具有類似的一個或幾個相同的保守結構域。這些基因不一定全部來自於同一個物種,而來自於很多物種。

基因簇是由功能相關的一些基因聚集在一起構成的。舉個例子,微生物的很多次級代謝產物往往是由一個基因簇來編碼的,基因簇上的每個基因功能不同,有的負責編碼氨基酸,有的負責修飾脫水等等,這些基因相互合作最終合成了一個完整的產物。

scaffold貌似是基因片段,比如NCBI上的shotgun序列,即鳥槍法測序會把基因組打成很多片段,每一個片段貌似就是scaffold。

最後一個我依稀見過_(:з」∠)_但實在不記得是什麼了。

希望我沒有說錯能幫到題主。歡迎各位大大溫柔地指出錯誤~


推薦閱讀:

《戰狼》里提到的基因武器有可能實現嗎?
如何評價《MIT科技評論》雜誌評選出的2017年十大突破性技術?
生物的進化是否會陷入局部最優解?
那些年,挺轉派說過的謊言有哪些?
如果可以基因改良,你眼中的完美人類是什麼樣的?

TAG:基因工程 | 生物化學 | 分子生物學 |