生物信息學本科階段應該掌握哪些技能知識？

01-04

國內某211生信本科，大一大二還沒有學到生信的課程而是化學生物和數學的基礎，乘著這段時間應該提前學點什麼？個人還是比較嚮往生信或者計算機的。

我會把我自己真正的回答放在最後面，先給你放一段某高校生物信息學本科生的課程大綱：

《生物信息學》教學大綱

授課時間：第6學期，講授36學時，上機實驗18學時。

第1章生物信息學概論

1.1 生物信息學的概念和發展歷史

1.1.1 生物信息學的定義

1.1.2 生物信息學興起的生物學和計算機技術背景

1.1.3 國內外生物信息學發展歷史

1.2 生物信息學的生物學基礎

1.2.1 分子生物學基礎

1.2.2 基因組學基礎

1.3 生物信息學的計算機和網路基礎

1.3.1 計算機硬體平台(PC、MACINTOSH、Workstation、Supercomputer)

1.3.2 計算機操作系統（WINDOWS、MAS OS、UNIX/LINUX）

1.3.3 資料庫技術

1.3.4 計算機演算法

1.3.5 計算機編程語言(C++, VB, PERL, HTML, XML)

1.3.6 網路技術（WWW、FTP、BBS、EMAIL、）

1.4 生物信息學的數學基礎

1.4.4 離散數學

1.4.2 概率論與數理統計

1.4.3 人工神經網路

1.4.4 數據挖掘

1.5 生物信息學的產業化

1.5.1 生物信息學的產業化

1.5.2 國內外生物信息學公司和著名產品簡介

1.6 生物信息學研究內容和發展前景展望

1.6.1生物信息學的主要研究內容

1.6.2 後基因組時代生物信息學的研究方向

1.6.3 生物信息學的發展前景

第2章分子生物學資料庫

2.1 生物學資料庫概述

2.1.1 資料庫的分類

2.1.2 數據格式

2.1.3資料庫的冗餘與偏誤

2.2 核苷酸序列與基因組資料庫

2.2.1 GenBank資料庫與ENTREZ網路服務（2.1.1 1 GenBank序列資料庫簡介, 2.1.1.2 一級和二級資料庫, 2.1.1.3 資料庫格式2.1.1.4 資料庫, 2.1.1.5 剖析GenBank Flatfile））

2.2.2 EMBL核苷酸序列庫與EBI網路服務

2.2.3 DDBJ資料庫

2.2.4密碼子使用與核苷酸信號資料庫

2.2.5基因組序列資料庫GSDB

2.2.6人類基因組資料庫GDB

2.2.7模式生物基因組資料庫MGD、ECDC、NRSub

2.2.8基因組的圖形交互顯示和檢索、瀏覽工具資源

2.3 蛋白質序列與模式、同源性資料庫

2.3.1蛋白質序列資料庫PIR-International

2.3.2蛋白質序列資料庫SWIIS-PROT

2.3.3 蛋白質家族分類資料庫

2.3.4蛋白質基序與結構域資料庫（ Prosite、Blocks、PRINTS和SBASE資料庫）

2.4 結構資料庫

2.4.1結構資料庫簡介

2.4.2 PDB：Brookhaven國家實驗室蛋白質資料庫

2.4.3 MMDB：NCBI的分子建模資料庫

2.4.4 結構文件格式

2.4.5 結構信息顯示

2.4.6 資料庫結構瀏覽器

2.5 基因和分子的互作和代謝途徑信息資料庫

2.5.1基因和基因組百科全書資料庫KEGG

2.5.2 E.coliK-12基因組和代謝途徑資料庫

2.5.3 E.coli基因及其產物的資料庫GenProtEC

2.5.4果蠅的遺傳和分子數據的資料庫FlyBase

2.6 RNA核苷酸序列資料庫

2.6.1 18S RNA

2.6.2 28S RNA

2.6.3 5S RNA

2.6.4 Mt rna

2.7 線粒體DNA資料庫

2.7.1 MITOMAP

2.7.2 MmtDB

2.8 免疫球蛋白、T細胞受體、MHC的整合資料庫lMGT

2.9 突變資料庫

2.10 放射雜交作圖資料庫Rhdb

2.11 限制酶資料庫REBASE與分子探針資料庫MPOB

2.12 其它遺傳學與分子生物學資源

2.13 資料庫中存在的問題及使用注意事項

第3章序列比對與資料庫檢索

3.1 序列比對概述

3.1.1序列比對的概念和進化理論基礎

3.1.2序列比對的分類(雙序列比對和多序列比對)

3.2 雙序列比對

3.2.1 Needleman-Wunsch 演算法

3.2.2 Smith-Waterman 演算法

3.2.3 Karlin-Altchul 統計方法

3.2.4 替換矩陣 (3.2.4.1 替換矩陣的一般原理；3.2.4.2 PAM 氨基酸替換矩陣；3.2.4.3 BLOSUM 氨基酸替換矩陣；3.2.4.4 DNA 替換矩陣)

3.2.5相似性得分、取代罰分與空位（Gap）罰分

3.3 比對的統計學顯著性

3.3.1 Monte Carlo模擬法

3.3.2 BLAST得分顯著性的Karlin-Altschul公式

3.3.3局部配準的統計顯著性

3.3.4短序列配準的顯著性評價

3.3.5核酸序列比較的顯著性評價

3.4 多序列比對

3.4.1多序列比對的演算法

3.4.2 DNA多序列比對及其常用軟體

3.4.3 蛋白質多序列比對及其常用軟體

3.5資料庫搜索

3.5.1 BLAST：核酸資料庫搜索

3.5.2 BLAST：蛋白質資料庫搜索

3.5.3 FASTA：另一種搜索策略

3.5.4 有空位對準的BLAST程度與位置特異的迭代BLAST程序

3.6基因組長序列比對

第3章 DNA序列的統計學與信息學分析

3.1單一序列的組成、關聯性與信息學分析

3.1.1 鹼基組成

3.1.2 鹼基相鄰頻率

3.1.3同向與反向重複序列分析

3.1.4 DNA 序列的幾何學分析——Z 曲線

3.1.5核苷酸序列的長程相關與非線性方法

3.1.6長程互作對DNA的結構和可變性的作用

3.1.7重複對熵的影響

3.1.8編碼片段的相互信息

3.1.9 DNA序列的模式結構

3.1.10 語言學複雜性測度

3.1.11 非編碼區（「Junk」DNA）基因組序列

3.2 密碼子指紋與密碼子使用偏好性分析

3.2.1單、雙核苷酸的相對丰度和基因組指紋分析

3.2.2密碼子頻率和密碼子指紋

3.2.3基因間和基因類間的異質性

3.3編碼DNA片段的長度與GC含量

3.4重疊基因的資訊理論問題

3.7 功能相關基因在兩個基因組間或內部的聚類關係

3.7.1基因組比較與基於功能組成的物種間的比較

3.7.2兩個細菌基因組間或內部的聚類關係

3.8 真核生物的基因表達調控（表達促進網路）

3.8.1相對同義密碼子使用值與密碼子適應指數

3.8.2信息聚類方法與自身一致信息聚類

3.8.3鹼基組成及相關性與基因表達的關係

第4章核酸序列的信號和功能識別

4.1 固定序列模式檢索

4.2 短寡聚核苷酸序列的隨機出現機率

4.3 編碼區DNA寡聚體出現頻率

4.5 蛋白質基因識別

4.5.1開放閱讀框架分析

4.5.2編碼區識別4.5.2.1鹼基組成偏歧法4.5.2.2密碼子使用法4.5.2.3密碼子偏歧法

4.5.3基因識別4.5.3.1GenLang基因識別4.5.3.2GRAIL基因識別

4.5.4基因識別的一些相關程序4.5.4.1發現和屏蔽重複4.5.4.2序列相似性與標紋資料庫搜索4.5.4.3整合的基因識別4.5.4.4序列片段的編碼區分析4.5.4.5其它功能信號識別

4.4 核酸序列的特殊信號檢索

4.4.1基準序列頻率表和權值矩陣法

4.4.2啟動子分析

4.4.3內含子/外顯子剪接位點識別

4.4.4 翻譯起始位點和翻譯終止位點識別

4.6 編碼序列翻譯

4.7限制性酶作圖

4.7.1限制性酶位點尋找

4.7.2 繪製限制酶作圖

4.8 PCR引物和寡核苷酸探針設計

4.8.1 引物設計（4.8.1.1 PCR引物的類型和一般要求; 4.8.1.2 通用 PCR引物設計方法; 4.8.1.3 特異性PCR引物設計方法; 4.8.1.4 從蛋白質序列設計簡併引物; 4.8.1.5 OLIGO6和PRIMER PREMIER 軟體使用）

4.8.2 用於檢測相關基因的簡併探針設計

第5章 RNA序列分析與結構預測

5.1 RNA標紋識別和局部結構配對

5.1.1信號搜索：概率方法

5.1.2信號搜集：模式匹配方法

5.1.3 tRNA的二級結構預測

5.1.4 RNA序列的局部結構配准

第6章蛋白質序列分析與結構預測方法

6.1 多肽理化性質計算與預測

6.1.1 多肽分子量、等電點、電荷分布和酶切特徵預測

6.1.2 多肽親水性/疏水性分析與製圖

6.1.3 多肽抗原位點分析

6.1.4 多肽

6.2 蛋白質家族與蛋白質分類

6.2.1蛋白質家族與超家族

6.2.2 蛋白質分類的方法（6.2.2.1 Blocks分類方法6.2.2.2加權特徵標紋分類方法6.2.2.4 Profile方法）

6.3蛋白質序列模式和結構域模式分析

6.3.1基準序列（序列模式）：標紋、標誌、指紋和地點

6.3.2序列結構域與模式匹配方法6.3.2.1頻率表方法6.3.2.2權值矩陣法：Profile分析

6.4蛋白質結構預測與分子設計

6.4.1蛋白質結構預測

6.4.2蛋白質二級結構和和摺疊類預測

6.4.3三級結構預測

6.4.3合理藥物分子設計

第7章核酸和蛋白質序列的進化分析

7.1 分子系統發育概述

7.2 系統發育模型的組成

7.2 系統發育數據分析的一般步驟

7.3 建立數據模型（比對）

7.4 決定取代模型

7.5 建樹方法

7.5.1 距離矩陣法(UPGMA,NJ)

7.5.2 最簡約法

7.5.3 極似然法

7.6 進化樹搜索

7.7 確定樹根

7.8 評估進化樹和數據

7.9 系統發育軟體(MEGA2, PAUP*, MACCLADE, PHYLIP)

第8章基因組測序與分析

8.1 DNA 測序與序列片段的拼接

8.1.1 DNA 測序的一般方法

8.1.2 DNA 測序策略(8.1.2.1 從遺傳圖譜、物理圖譜到基因組序列圖譜；8.1.2.2 鳥槍測序法（shotgun sequencing）；8.1.2.3 引物步查法（primer walking ）；8.1.2.4 限制性酶切-亞克隆法（restriction endonuclease digestion and subcloning）

8.1.3 序列片段的拼接方法

8.2 編碼蛋白質基因區域的預測

8.2.1 從序列中尋找基因 (8.2.1.1 基因及基因區域預測；8.2.1.2 發現基因的一般過程；8.2.1.3 解讀序列)

8.2.2基於編碼區特性的最長ORF 法等

8.2.3 資料庫相似性搜索法

8.2.4 神經網路法

8.2.5 隱馬爾可夫模型法（HMM）

8.3 基因組的比較

8.3.1比較基因組學

8.3.2 基因組多樣性

8.3.3 基因組比較的方法

8.4 人類基因組製圖與測序

8.4.1人類基因組製圖 (8.2.1.1遺傳圖, 8.2.1.2物理圖, 8.2.1.3序列圖, 8.2.1.4轉錄圖（表達圖）與cDNA文庫構建)

8.4.2 基因組遺傳圖的構建方法 (8.2.2.1檢測連鎖與估計重組率, 8.2.2.2估計相對圖距和推測多位點測序, 2.2.1圖距與交叉干涉, 2.2.2推測多位點測序)

8.5 基因組物理圖譜與測序 (8.5.3.1克隆與克隆庫, 8.5.3.2隨機克隆重疊構圖)

8.6錨定法作圖

8.7檢測重疊的Bayes方法8.5.1重疊構型8.5.2重疊檢測

8.8由隨機克隆的指紋法組裝物理圖

8.9用YAC克隆構造人類基因組圖譜的策略設計

8.10採用高冗餘度的亞克隆庫

8.11 Conting圖或克隆定序

8.12 直接作圖法

8.11有序鳥槍測序作圖的模擬分析

8.14定位克隆的流水線鳥槍策略

8.15放射雜交作圖和FISH作圖

第9章功能基因組信息學

9.1功能基因組信息學概述

9.2 基因表達數據分析

9.3

第10章生物多樣性信息學和神經生物信息學

10.1 生物多樣性信息學

10.2 神經生物信息學

生物信息學實驗教學大綱

實驗1. 常用分子生物學資料庫的使用和數據格式、資料庫查詢與下載

實驗2. DNA序列的統計學、信息學和功能分析

實驗3 蛋白質序列分析和結構預測

實驗4. 核酸和蛋白質序列的進化分析(CLUSTALX、MEGA2軟體的使用)

實驗5. 使用Oligo和PrimerPremier軟體設計PCR引物

實驗6. 常用重要生物信息學軟體使用方法（DNAStar、OMIGA、VectorNT suite）

如果你耐著性子看到了這裡，說明你還願意聽我扯淡，那就看下去吧。

鑒於你沒有表明未來是走向工業界還是學術界，但是看你嚮往生信和計算機，估計真正搞科研的可能性很小，就當做你想籌劃一個好事業和人生吧。

以前通常我給大家生信相關建議的時候，假設他們是有了分子生物學基礎，至少了解中心法則等生物學常識，就像上面的教案一樣，這些知識在工作中都不是直接應用的，而是一個基礎。一般來說，生信從業者要麼是在處理各種各樣的科研數據項目，而其中以NGS組學數據分析為主，包括，WES,WGS,RNA-seq,ChIP-seq等，上游分析很簡單了，都流程化了，但是下游分析五花八門，主要是消耗員工的時間和精力，其中還得是熟手。所謂的大健康方向，其實也是數據分析的個性化，並沒有什麼特殊之處。

對你來說，本科階段並不需要太著重於實戰，其實課程設置就是為了給你們打基礎，唯一值得注意的是，你的時間很多，上課時間不到30%，屬於的7成你可以用來看專業相關知識，了解財務，法律，邏輯等知識，或者雞湯，也可以去社交，參加社團，徒步，燒烤。就這樣吧，反正我大學已經浪費了，如果你想知道社會上需要的生信應該具備哪些知識，請看我博客。

最後就是搬運博客啦，畢竟複製粘貼也麻煩：生信完全入門線路圖及資源大全

建明搞了很久的零基礎入門生物信息系列，這些是很好的東西，在這段時間建議去學習一下，這些是項目導向需求下的必備技能，技多不壓身。

來個陳述句，課程上（這個可能是遠期計劃），你需要數學／計算機／生物，還有化學、物理，工科的生物和理科的生物可以相互感慨一下。當然做醫學方向可能還得補補醫學的專業基礎，比如現在基因檢測以及腫瘤大數據可是火熱的很，進入這個行業可是分分鐘身價過億（瞄一下haplox的CTO，順便恭喜他們拿到大融資）。

為什麼？

學生物，是為了讓你知道你做的是生物信息，而不是純計算科學，這門專業是為了解決生物問題而生的，可以幫助你區分傳統的醫學信息、軟體開發以及大數據科學。

學數學（數理統計納入），是為了讓你知道你研究採用的方法以及技術背後的數理基礎，用以區分「知其然不知其所以然」的。記住，會寫代碼，不是生物信息，會跑軟體的，也不是生物信息。如果這門課只是教你跑軟體，不學也罷。這個大概就是測序科研服務市場上送分析和個性分析價格差別那麼大的原因了吧。

學計算機，是為了讓你可以不求人的解決一些生物數據問題，並且大大的縮短你的項目周期，以及幫你把你的經驗推廣給別人使用。這是你的工具，也是你的槍炮。

有些題外話，有感而發。

我想說的是，生物信息是一門有趣的交叉學科，它很難也很簡單，需要學的以及可以做的東西很多。難是學好很難，簡單是做起來相比生物實驗投入的時間要少。

我不知道題主四年／或者五年的生物信息本科學到了什麼。通過接觸了一些剛剛生物信息畢業的本科生，我感覺國內大多數本科生信專業接觸的生物信息的東西都是很淺的（不知這樣說是否恰當），一方面是教學體系不夠成熟，另一方面是師資力量的匱乏。還有一個剛性的因素則是學生們沒有足夠的時間學習需要的基礎知識或者技能知識掌握熟練。所以本科畢業，能入門已經很好了。

技能，學會以後勤加練習即可，就跟彈琴打遊戲一樣，每天不練幾個小時就會手生。但是基礎的東西，確實需要靜下心，好好的學和理解，真正的理解並不是你能夠把它背下來記下來，而是過了很多年以後你再看同樣的東西能夠很快get到其中關鍵部分。

根據其他人的回答，生物信息的每個方向都需要大量的專業積累，比如生物軟體開發需要紮實的計算機知識，做進化的數學功底要強，做生物科學的得對生物的基本問題了如指掌，否則的話一個個強大吊炸天的審稿人以及軟體用戶會把你撕了的。說到底，我們做的東西是幫人，而不是害人。

還有，如果你旁邊有做生物信息的人，請對他好一點，因為拿到同樣的薪水，他需要比別人多付出一倍。

我們比程序員看起來更老。我不是老司機，只是看起來像罷了。

學點基本功吧，遺傳學、分子生物學、概率統計、進化理論，本科以後就很難有大段的時間集中學這些內容了，總能用上。

工具類的linux使用、腳本語言（perl/python/R）這些的有使用需求再去學，不使用的話不好掌握。

生信方面的東西等接觸到專業課再學也來得及。

如果不考研，專業課好好學，足夠在畢業找一份生信工作了，就是工資不會太高（行業平均工資就很低，沒辦法，攤手）

我現在回首我的大一大二，我最後悔的一件事情是，數學基礎課沒有學好！！！

所以，我感覺大一大二最重要的就是跟著培養方案（教學大綱或者這一類的）把數學基礎牢牢地打好，學紮實！！不管以後考研、就業還是轉行真的都很有幫助。

其次，如果你還有空閑時間，就學精一門語言，推薦Python（對初學者比較友好）。爭取做點東西出來。

如果還有時間，就學一門感興趣的外語，英語日語俄語德語西班牙語...只要不是太冷門的語言，都可以！如果不知道學什麼，就好好練英語，對以後讀文獻很有幫助~

生信這個專業，即使工作了，你也離不開英語_(:з」∠)_

別問我怎麼知道以上這些的...全是淚。

我做生物信息已經好多年，本科階段最好熟練編程和linux。編程語言哪種都行，但要會一種，linux主要是很多軟體需要。生物知識反而不是最主要的，因為你未來的工作會很雜，現學現用就好。但是編程確實解決一切問題的工具，也決定了你有沒有能力獨立解決問題。

至於具體的技術，不論是NGS還是進化分析，都沒有多難，現成的教程和成熟的方案網上有的是，會用Google你就會發現所有你遇到的問題都有人遇到提出來。你能想到的分析，都能找到已經發表的文章和案例。

最後你要是想自給自足，最好不要把實驗技術落下。要不然你就只能找別人給你做實驗了。

bioinfo並不是一個自成體系的學科，僅僅是信息學和生物學（還有化學物理數學）的交匯而已。這種特點使得bioinfo的知識龐雜無比又缺乏總體邏輯聯繫。從俺們隔壁基科的bioinfo本科課程設置來看，也就是啥都講點啥都不精…

如果答主想知道一個普通本科生應該掌握哪些技能，我覺得課程知識就好了。在這個基礎上，可以盡量強化寫代碼技能，假裝自己是在學CS——這樣測序公司干不動了還可以做一個合格的碼工……

如果答主想知道一個有志於科研不想轉行的本科生應該掌握哪些技能，就得在課程知識的基礎上按照個人科研興趣加技能點了。這種情況下對科學問題的理解可能比寫碼能力還要重要一點——不管是用現成演算法解決新問題，還是開發新演算法。

謝瑤...不是很清楚生信目前行情，大學期間專業課相關只學了生物統計，不是很了解。

且老衲現已退出生物圈了。

建議樓主往cs方面靠吧~ 總體來說生信行業就業前景優於wet lab

基礎的Linux，python，SQL，以及一些網上的database使用，比如Ensembl，UCSC等等。另外就是大量擴充自己的知識領域，從基礎的DNA，RNA，protein結構功能，到SNP，DNP，histone modifications， chromosome modification，各種regulatory regions等等。最後就是能獨立設計pipeline做分析吧，比如給你個研究課題，你能自己設計研究方向和假設，設計詳盡的實驗方法和途徑來證明。

From-剛入門一年的小白

要是以後想走科研，學一學計算機分析軟體，什麼檢驗方法（這個用excel就可以做）多重比較之類的，還有分子育種，生物統計學，概率論與數理統計，育種學，遺傳學，數據整理分析這類的。

生信很好啊，在未來3-5年里需求非常大。

現在都很難招人了何況是將來。

你問的問題可以逆向思考，對未來這個行業的發展方向做個判斷。然後通過大方向，看看有什麼需求，這時候你就知道現在該學些什麼東西了。

PS：這類型的問題我不喜歡直接給答案，自己多思考比較好。不過歡迎私下交流

不抽空學個互聯網爬網技術和大數據分析技術？以後做課題很有用的東西…