一個物種的每一個基因最早是如何被識別，並定義出來的？

11-15

自己最近在把做一些數據搜集工作。
大概就是要把其他生物實體比如說蛋白質啊，轉錄本啊，domain啊，最後都map到基因上去。
然後仔細一想，資料庫里被NCBI或者說Uniport這些基礎設施一樣的資料庫編碼好整理好的一個一個基因，也只不過是一段一段ATGC序列而已，就序列上來說他們並沒有獨特之處。
那麼在最早定義這一個個基因，並把它們和相關的序列對應起來的時候，分子生物學家到底做了哪些牛逼的事情？

好吧&> &<我承認我分子生物學白學了………………

前史：沒有基因序列時生物學家可以做什麼？

1. 1963年，Pauling等人基於血紅蛋白氨基酸序列做的進化樹 [1]。他們發現馬和豬、金槍魚、酵母的氨基酸數目差異分別為 3、19、44，顯示了親緣關係和遺傳距離之間的聯繫。當然了，此時人類已經掌握了蛋白質測序技術。（如下圖）

2. 1967年，以

2. 1967年，以細胞色素C（一種蛋白質）的氨基酸序列為依據，生物學家構建了最早的分子進化樹[2]。和血紅蛋白的進化樹一樣，兩者都是達爾文的物種進化樹的升級。（如下圖）

3. 1968 年,木村資生（M. Kimura）在 Nature 上發表了題為Evolutionary Rate at the Molecular Level (分子水平上的進化速率) 的論文，提出遺傳漂移和

3. 1968 年,木村資生（M. Kimura）在 Nature 上發表了題為Evolutionary Rate at the Molecular Level (分子水平上的進化速率) 的論文，提出遺傳漂移和中性演化理論,為分子鐘奠定了理論基礎。在只有少數幾種蛋白質序列的時候，就算出了分子進化的標準速率是10-9，與現在的計算結果一致。中性演化學說是自達爾文提出自然選擇學說以後出現的一個最有創造性、最重要的理論。這篇1頁半的論文重要性在於引入了高等數學中的偏微分和數理統計，將生物學研究導入量化分析階段，得到生物演化的新結論。

(圖源：木村資生，Nature 1968)

基因的確定就是基因序列的測定：測序技術的發展

1. RNA基因測序：第一個被測序的基因和基因組，是MS2噬菌體一個基因及其基因組，這個噬菌體屬於RNA病毒。此項工作由比利時根特大學的Walter Fiers等人在1972年 [3] 和1976年完成 [4]。

2. DNA基因測序：人類克隆的第一個動物的DNA基因，是編碼非洲爪蛙（不錯，是蛙）的18S與28S rRNA的基因的一個片段 [5]。當然Paul Berg研發的基因克隆技術是基於噬菌體和E.coli的。
藉助康奈爾大學吳瑞(1973)和劍橋大學Sanger(1977)開發的DNA測序技術，人們終於可以對DNA基因進行測序了。第一個被測序的DNA基因組是噬菌體φX174 [6]，1977年由Sanger實驗室完成。也可以認為是第一個被測序的DNA基因。然後人們測了一系列的噬菌體，細菌的基因或基因組。
有了測序技術和測序平台，人類終於決定做人的基因組（Human Genome Project）了，1985年提出了構想，1990年開始啟動，2001年完成草圖。

3. Sanger法測序屬於第一代測序技術。著名的鳥槍法是它的改進。然後有了二代測序技術和現在已經商品化的三代測序技術。然後每個物種的基因和基因組就成級數地被測出來了。

未來的測序技術
小型化（便攜），快速，集成化，智能化。將為個體醫學，環境科學，農業提供更多的服務。

回到開頭的問題，「物種的每一個基因最早是如何被識別」，是一個分子生物學的問題，問題的本質是人類從生物學角度認識基因、認識自己。這是現代生物學發展史上最壯麗的篇章，充滿了人類的血汗和智慧。

[1] Pauling L,Zuckerkandl E. 「Chemical Paleogenetics: Molecular "restoration studies" of extinct forms of life「Acta Chem Scand,1963,17:10
[2] Fitch WM, Margoliash E. Construction of phylogenetic trees. Science. 1967 Jan 20;155(3760):279-84.
[3] Min Jou W, Haegeman G, Ysebaert M, Fiers W (May 1972). "Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein". Nature 237 (5350): 82–8. Bibcode:1972Natur.237...82J. doi:10.1038/237082a0. PMID 4555447.
[4] Jump up ^ Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J et al. (April 1976). "Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene". Nature 260 (5551): 500–7.
[5] Morrow JF, Cohen SN, Chang AC, Boyer HW, Goodman HM, Helling RB. Replication and transcription of eukaryotic DNA in Escherichia coli. Proc Natl Acad Sci U S A. 1974 May;71(5):1743-7.
[6] Sanger F, Air G, Barrell B, Brown N, Coulson A, Fiddes C et al. (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA".Nature265 (5596): 687–95.

「基因」這個概念其實出現的比人們知道DNA序列要早。
最早，人們猜到了遺傳物質是DNA（但不知道序列什麼的），基因在染色體上面呈線性排列。這個時候，基因其實是一個抽象概念，表示某種性狀在染色體上所對應的大致位置。這個位置是通過若干個基因相互交換的頻率推算的（因為假如交換的概率在染色體上各個位置都一樣，那麼離得越遠的基因就越容易發生交換）。這玩意好像叫遺傳圖譜。現在如果組裝複雜高等生物的基因組，這玩意好像依然有點用（如果有那個生物的遺傳圖譜的話），可以用來定位非常大致的序列位置。

後來，分子生物學技術發展，有了測序技術，就可以把mRNA反轉錄成cDNA，然後把序列測出來（反正也不長），就可以積累蛋白序列的資料庫。積累多了，就可以用已知的序列總結模型，進行搜索。

然後仔細一想，資料庫里被NCBI或者說Uniport這些基礎設施一樣的資料庫編碼好整理好的一個一個基因，也只不過是一段一段ATGC序列而已，就序列上來說他們並沒有獨特之處。

編碼蛋白的基因，其序列是有獨特之處的，因為三聯編碼子限制了序列的樣式。實際上，蛋白編碼基因的預測工具，基本都是以HMM模型為主，用來尋找蛋白編碼序列的主要部分；然後輔以其它的手段（核糖體結合位點等等）尋找編碼序列的準確起始、終止位置。編碼序列找到之後，就可以通過已知的基因序列去注釋你找的待分析編碼序列。

對於其它基因，比如核糖體RNA、信使RNA，都有非常保守的序列；那些非編碼RNA也有RFAM、inferno這樣的HMM工具進行預測。一些更短的RNA有專用工具進行預測。

在當今，新測的基因組，裡面的基因基本都是軟體自動尋找、注釋的。

謝邀。
今天大家看到的各種基因，來源於三種主要的發現途徑：1.遺傳篩選；2.編碼產物；3.序列分析，以下逐一介紹：
1.遺傳篩選，是從基因功能的角度發現新基因。研究者在實驗中篩選出具有某些特定表現型的突變（體型改變，顏色改變，等等），然後通過一系列遺傳分析實驗尋找這個突變位於染色體上哪個區域，最後定位此突變，從而發現影響到相關表現型的新基因。
2.編碼產物。例如研究者利用傳統生化方法，純化了一個全新的蛋白，然後分析了其氨基酸序列，並藉助密碼子反向推測編碼此蛋白的部分dna序列，然後利用鹼基互補原則以這「殘片」dna從細胞的mRNA中「釣」出編碼此新蛋白的mRNA，從而發現一個新的基因。
3.序列分析。其實不難看出，前兩種方法都很古老。當全基因組測序完成後，發現新基因就成了電腦的工作。由於已知的基因的編碼具有特定規律，人們可以利用這些規律，像查找關鍵詞一樣在全基因組序列中搜尋可能的新基因。
基因的意義在於實現具體的生理功能。從中心法則的角度，前兩種方法都是從表象走向DNA序列。但第三種恰恰相反。全基因組測序是革命性的，它不僅使得前兩種方法的效率大大提升，而且，它使得人們可以在實驗尚未開展之前就預測某段DNA序列可能是新基因，從而指導實驗設計。這種從DNA序列出發的研究思路被稱為逆向遺傳學（reverse genetics）。
需要說明的是，第三種發現新基因的方法存在理論上的缺陷。高等生物體中存在大量的「偽基因」，它們具有類似正常基因的結構，但並不表達。它們可能是進化痕迹，就像地層中的遺迹，也可能只是湊巧類似正常基因。另一方面，由於序列分析基本只能依賴於已有的知識，因此無法用於發現具有全新結構的基因，例如一些非編碼基因。

謝邀。
高中生物教科書的定義：基因是有遺傳效應的DNA片段。
首先是我們的遺傳學先驅孟德爾啟用了遺傳因子這個概念，之後約翰遜為遺傳因子改名為基因。薩頓推理出基因在染色體上，之後摩爾根做了果蠅雜交試驗，證明了基因的確在染色體上。那個時候人們還不知道DNA這個東西，人們所知道的只有能在顯微鏡下看到的染色體和看不見摸不著的基因。
也就是說，在生物學的早期研究階段，基因只是一個概念，人們用這個概念用來匹配生物的性狀。
到了20世紀40、50年代，檢測設備變得越來越強大，沃森和克里克兩個人踩著前人的肩膀發現了DNA雙螺旋結構。
正向遺傳學通過表型來尋找基因。一般植物的話通過EMS誘變產生表型，然後在根據構建群體，及所謂的圖位克隆來尋找這個基因，運氣好的話能找到，運氣不好的話不一定能找到。
動物圖位克隆貌似相當困難，一般圖位克隆基因都是來源於植物的。動物中用好像關聯分析比較普遍點。這是個大量而又繁重的工作，需要一個單位整體的合作。採用基因誘導突變的方法，在其後裔中進行表型篩選，先得到具有表型的個體，然後再做基因型定位。實踐上一般都是很多篩選同時進行，多快好省，事半功倍。
大牛有桑格，著名英國生物化學家，搞了好多測序的新方法。

提取物種的rna,反轉錄，測序，就知道了。