【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙
颱風讓我入了生信的坑
2015年九月,各大高校研究所的保研面試開始了。我暑假提前聯繫了三位明確會招我的老師,分別是廣州南海所的羅鵬老師(水產病害),武漢水生所的韓冬老師(水產飼料),青島海洋所的劉曉老師(貝類遺傳育種)。可以看到所有我準備學習的方向完全跟生信沒有關係,因為我那時候壓根不知道生物信息學是什麼。並且在出什麼以外我應該會在拿到上面的三個offer以後,選擇去廣州。但是那年海南的颱風特別多,在各種機緣巧合下,我來到了武漢學生信。
這本書是我的生信第一本書,帶著它我回到了海南,一直被壓在箱底跟著我度過最後的一年大學時光。
現在已經是2017年了,從我真正開始學習生信,大概已經過去了18個月。那本被壓在箱底的書被我翻了一個星期之後又回到了箱底,一邊研究生課程一邊自己摸索著學習,基本上能夠熟練操作Linux系統,會寫些shell、Per腳本l和R語言算是入門,沒有完整跑完一個數據分析流程但摸索了不少軟體和資料庫。跟當年傻傻獃獃的生信小白比,現在的我應該算是一隻生信入門的小小菜鳥了。在這裡要感謝帶我入門的同門師兄們,感謝給我帶來學習動力的Jimmy親師兄,感謝一直陪伴在我身邊的熊貓弟弟。
現在切入正題,我來講講我是如何跨越擺在生信入門菜鳥面前的三大障礙的。
第一大障礙:透析數據背後的生物學知識,完成從測序數據到生物問題的連接;
我的做法:
通過谷歌百度了解fasta、fastq格式是什麼?想必維基百科上的fastq格式介紹是每位生信菜鳥入門必看的吧~(度娘和谷兄是我一輩子的老師,感激不盡,感激不盡!!!)接著,通過陳魏學基因了解測序原理、方法,視頻反覆的看,個人覺得具體細節比較難記。反正我知道提取的DNA是怎樣變成手頭上的ATCG這樣的測序數據的。自然而然,就知道測序數據代表了什麼生物知識了。 (測序原理啥的完全記不住啊,腦容量是硬傷,我要擴容去~)
第二大障礙:掌握一門編程語言完成對數據的任意轉換,利用現成的工具-軟體和資料庫來掌握一門完整的數據分析流程,達到一通百通;
我的做法:
一個月看完鳥哥的私房菜,安裝系統以及Linux上面的一些操作基本上沒什麼問題了。 一個月看完perl小駱駝,完成十道生信實戰題,順利出師,算是掌握了一門編程語言。(到現在沒有進步,反而倒退了~讓我哭會~)
然後,我就按照某生信服務公司的培訓班課表學習了一些軟體,搗鼓了fastqc、BWA、samtools、IGV等軟體,基本上學會了在Linux上安裝各種類型的軟體。期間還穿插了學習R語言,入了個門,會裝包、看得懂代碼、會運行而已。(當初的我軟體裝到奔潰,參數看到眼花,回想起來都是辛酸淚啊~)
接著,通過生信菜鳥團看到賓夕法尼亞大學的應用生物信息學課程,系統地學習了生信數據分析,學會了如何開展一個生信項目。(這個課程非常棒,感謝樂於分享的群主!!)
最後,去年九月份確定自己的研究方向後,拿到第一批宏基因組數據練手,目前還在建立自己的數據分析流程。(論獨立搭建一個pipeline的重要性,讓我知道原來我還是那麼菜,要學的東西很多很多。)
第三大障礙:充分理解你的數據分析結果並給出可靠的結論;
我還沒跨越這個障礙,就拿我看本領域的相關文獻來說,如果我最後分析湖泊水體微生物群體的宏基因組數據,在討論物種多樣性及功能這個問題似乎要回歸生態學。所以,我可能需要修鍊一下內功,了解一下生態學知識。(待我要出成功的時候,再來補充,嘻嘻~)
推薦閱讀:
※開悟時刻
※DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測
※南開大學師生解讀SARS病毒是否是生物武器
※我是解螺旋的礦工,我熱愛生命科學
※NCBI教程(一)獲取基因(gene)或基因產物(gene product)的功能
TAG:生物信息學 |