標籤:

如何學好生物信息學?

在校五年制本科生,專業生物技術,所修大致課程與生物信息相差不大。現正上大四,跟導師做課題,但似乎導師比較熱衷發文章,所以在做課題當面花費精力較多,但有些知識只能略知皮毛,個人認為文章數量多並不代表在這一領域有較為深刻的見解。所以想請教各位大牛本科階段學好生物信息除了做課題,還該側重哪方面?


必學:1、計算機基礎(linux+perl+R 或者 python+matlab)

2、生信基礎知識(測序+資料庫+數據格式)

3、生信研究領域(全基因組,全轉錄組,全外顯子組,捕獲目標區域測序)

4、生信應用領域(腫瘤篩查,產前診斷,流行病學,個性化醫療)

分而治之:

一、計算機基礎,需要看三本書,一步步的學會學通,不需要刻意去找哪個書,一般linux是鳥哥私房菜,perl是小駱駝咯,R是R in action,但是看一本書只能入門,真正想成為菜鳥,必須每個要看五本書以上!我雲盤裡面有這基本上的高清列印版,大家可以去淘寶列印一下才幾十塊錢還包郵,對書比較講究的也可以買正版,也不過是一百多塊錢而已!

二、生信基礎知識,測序方面,在百度文庫找十幾篇一代二代三代測序儀資料仔細研讀,然後去優酷下載各大主流測序儀的動畫講解,再看看陳巍學基因的講解;資料庫先看看三大主流資料庫——NCBI,ENSEMBL,UCSC,還有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同樣也是百度文庫自己搜索資料,但是這次需要自己去官網一個個頁面點擊看,一個個翻譯成中文理解吃透;數據格式講起了就多了,這個主要是在項目流程中慢慢學,或者你有機會去上課,不然你看來也是立馬忘記的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等

三、生信研究領域,各個領域主要是軟體繁多,合起來常用的估計有上百個軟體了,一般只有從業五六年以上的人才有可能把它們全部用過一遍,而且這也完全需要項目來訓練,而不能僅僅是看看軟體手冊,但是研究領域最重要的是背後的原理,需要看各大牛的綜述。

a) 生信基礎軟體(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)

b) snp-calling相關軟體(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)

c) 基因組相關軟體(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)

d) 轉錄組相關軟體(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)

四、生信應用領域,講這一塊其實已經脫離了生信菜鳥的解釋範圍了,主要是想說社會上為什麼需要搞生信的人才,全是因為在腫瘤篩查,產前診斷,流行病學,個性化醫療等領域有所應用,可以造福人類!!!這方面政策不確定,產業不定型,所以也這絕對是藍海,但是也絕對不會有現成的資料直接培訓人才,我們必須關注各種微信公眾號,逛各種測序,醫學相關論壇,緊跟業界精英的腳本,同時追著大牛的文獻閱讀,如此這般才能保住菜鳥的身份!


我在大三的時候開始在組裡跟老師做課題,畢業的時候有一篇 SCI。主要是做生物進化。依我看題主恐怕沒什麼計算機和數理統計方面的背景,而生物信息要求計算機,數理統計和生物三方向都要有背景。所以我想你得從計算機和數理統計方面先下手。然後具體到不同的科研方向就各有各的要求,在從計算機,數理統計和生物方向選一個專精。

不過說實話,生物背景轉生物信息,想做偏計算機和數理統計的生物信息領域,起始很艱難,題主最好有一切從頭開始的決心。你可能比相關專業轉行的差四年本科到數十年研究經驗不等。


推薦閱讀:

三聯體密碼子是如何被確定的呢?
生物信息學博士前景如何?
動物有語言嗎?為什麼人類無法翻譯動物的聲音信息?
國內做 Bioinformatics 研究的人多嗎?這個方向現在的發展如何?
生物信息學專業,該怎麼對這些無味的程序提起興趣,變成動力?

TAG:生物信息學 |