標籤:

自學生物信息學,感覺學的很零散,無法形成完整的體系,應該怎麼辦?

由於研一的瑣事比較多,實驗技能並不是很完備,且對於要研究的課題沒有系統的認知,所以就跟著師兄邊學習實驗技能,邊自學生物信息學,期望著日後能給我paper提提檔次~

和大多數人一樣,都是先拜讀了知乎各路大神寫的建議,買了一堆編程書籍,什麼R語言實戰,perl的小駱駝呀等等,還有鳥哥的linux私房菜,還參加了知乎的live,但感覺學的零里零碎,無法形成對整體的把控和認知。 無奈師門單薄,這方面沒有師兄師姐可以倚仗,也不想輕言放棄,(編程實在是太貴了,捨不得讓它在書架上落灰)希望各路大神可以指點迷津~


我把學生信分成三個階段:

第一階段,掌握基礎知識。

基礎知識包括測序原理、Linux、Python、R等,對自己要求不要太高。比如

Linux:會登錄、能複製粘貼、會用編輯器、壓縮解壓,就行了;不要被鳥哥帶跑偏了,他的書是給IT專業寫的。

Python:掌握基本數據類型、流程式控制制、輸入輸出,了解幾個常用的包就行了,甚至子函數怎麼寫都暫且不用關心。

R:R主要是在完成基本分析後用,可以暫時不管。

第二階段,做任務。

做幾個任務,鞏固以下第一階段的知識。比如:

  1. 在 Linux 下做個blast,練習一下軟體的安裝、運行、監控,鍛煉下自己看幫助文檔的能力
  2. 寫個 python 小程序,統計下 fasta 序列的總長、平均長度,鍛煉python 開發能力。

第三階段,做項目。

將任務連起來就是項目。像 @s Kaelthas 所說的,找一片文章,下些原始數據,重複一遍。裡面用到的軟體方法文檔都找出來學習一下。

遇到問題可以到:Biostarts 搜一搜,通常都能找到答案;有一些比低級的問題可以加我們的QQ群:495105464。


趕緊實踐上手,不然都是紙上談兵


實踐出真知。

pubmed上搜一篇兩年到一年前的生信文獻,五分以下的就行,文末有SRA鏈接的,下載他的數據照著文章做一遍。


看幾篇文章,然後看需要的圖,然後然後看這些圖需要分析的數據,然後看需要的哪些分析,然後看用哪些軟體可以得到這些數據,然後開始裝軟體,然後開始跑軟體,然後開始運行。表示之前大量的時間放在了r出圖。一篇文章搞完了,就有套路了。

建議看一下i-sanger里,多樣性流程,涉及了多樣性分析需要的統計學和軟體。

多樣性: 質控,雙端拼接,代表序列,注釋,biom丰度表,稀釋曲線,物種組成,排序分析(也就是樣本比較,nmds,pca,rda,cca),物種差異比較(各種統計one-way anova, wilconx,k-w秩和,lda判別),畫圖畫圖(graphlan, lefse,gephi,SEM,figtree)

宏基因:質控,組裝,構建基因集,注釋(各種資料庫kegg, cog, cazy, ardb,phi……),差異比較,binning組裝。。。

微生物基因組:質控,組裝,酶切位點,完成圖,...沒做過,不了解

轉錄組:和宏基因組差不多,多了個表達差異基因的查找

蛋白的:也沒做過,以後有機會接觸了再補充


在生信技能樹論壇,跟著大神們實戰,


omictools網站收集了非常多生信軟體,不需要自己編程,學會怎麼用就可以,注意參數設定有生物學意義,最多寫些代碼建立pipeline自動化處理。

coursera上有很多名校課程,我記得有北大生信課,還不錯,入門值得一看。

其他和別人說得差不多,複製別人的分析,多練習。


推薦閱讀:

在生物信息學領域,Python 和 Perl 誰更強大、易用、代表著未來的發展方向?
剛接觸生物信息二代測序數據分析,看文獻學軟體學語言,如何不著急?
如何理解基因富集分析以及富集的意思?
為什麼只有猿誕生了智慧,而獅子、老虎等卻只有力量這個屬性?
基因是否會因外部因素而進行修正?

TAG:生物信息學 |