【生信菜鳥經】漫談如何跨越擺在生信入門路上的三大障礙

04-17

颱風讓我入了生信的坑

2015年九月，各大高校研究所的保研面試開始了。我暑假提前聯繫了三位明確會招我的老師，分別是廣州南海所的羅鵬老師（水產病害），武漢水生所的韓冬老師（水產飼料），青島海洋所的劉曉老師（貝類遺傳育種）。可以看到所有我準備學習的方向完全跟生信沒有關係，因為我那時候壓根不知道生物信息學是什麼。並且在出什麼以外我應該會在拿到上面的三個offer以後，選擇去廣州。但是那年海南的颱風特別多，在各種機緣巧合下，我來到了武漢學生信。

這本書是我的生信第一本書，帶著它我回到了海南，一直被壓在箱底跟著我度過最後的一年大學時光。

現在已經是2017年了，從我真正開始學習生信，大概已經過去了18個月。那本被壓在箱底的書被我翻了一個星期之後又回到了箱底，一邊研究生課程一邊自己摸索著學習，基本上能夠熟練操作Linux系統，會寫些shell、Per腳本l和R語言算是入門，沒有完整跑完一個數據分析流程但摸索了不少軟體和資料庫。跟當年傻傻獃獃的生信小白比，現在的我應該算是一隻生信入門的小小菜鳥了。在這裡要感謝帶我入門的同門師兄們，感謝給我帶來學習動力的Jimmy親師兄，感謝一直陪伴在我身邊的熊貓弟弟。

現在切入正題，我來講講我是如何跨越擺在生信入門菜鳥面前的三大障礙的。

第一大障礙：透析數據背後的生物學知識，完成從測序數據到生物問題的連接；

我的做法：

通過谷歌百度了解fasta、fastq格式是什麼？想必維基百科上的fastq格式介紹是每位生信菜鳥入門必看的吧~（度娘和谷兄是我一輩子的老師，感激不盡，感激不盡！！！）

接著，通過陳魏學基因了解測序原理、方法，視頻反覆的看，個人覺得具體細節比較難記。反正我知道提取的DNA是怎樣變成手頭上的ATCG這樣的測序數據的。自然而然，就知道測序數據代表了什麼生物知識了。 （測序原理啥的完全記不住啊，腦容量是硬傷，我要擴容去~）

第二大障礙：掌握一門編程語言完成對數據的任意轉換，利用現成的工具-軟體和資料庫來掌握一門完整的數據分析流程，達到一通百通；

我的做法：

一個月看完鳥哥的私房菜，安裝系統以及Linux上面的一些操作基本上沒什麼問題了。一個月看完perl小駱駝，完成十道生信實戰題，順利出師，算是掌握了一門編程語言。（到現在沒有進步，反而倒退了~讓我哭會~）

然後，我就按照某生信服務公司的培訓班課表學習了一些軟體，搗鼓了fastqc、BWA、samtools、IGV等軟體，基本上學會了在Linux上安裝各種類型的軟體。期間還穿插了學習R語言，入了個門，會裝包、看得懂代碼、會運行而已。（當初的我軟體裝到奔潰，參數看到眼花，回想起來都是辛酸淚啊~）

接著，通過生信菜鳥團看到賓夕法尼亞大學的應用生物信息學課程，系統地學習了生信數據分析，學會了如何開展一個生信項目。（這個課程非常棒，感謝樂於分享的群主！！）

最後，去年九月份確定自己的研究方向後，拿到第一批宏基因組數據練手，目前還在建立自己的數據分析流程。（論獨立搭建一個pipeline的重要性，讓我知道原來我還是那麼菜，要學的東西很多很多。）

第三大障礙：充分理解你的數據分析結果並給出可靠的結論；

我還沒跨越這個障礙，就拿我看本領域的相關文獻來說，如果我最後分析湖泊水體微生物群體的宏基因組數據，在討論物種多樣性及功能這個問題似乎要回歸生態學。所以，我可能需要修鍊一下內功，了解一下生態學知識。（待我要出成功的時候，再來補充，嘻嘻~）