公司里那些生物信息分析者都是半路出家嗎？

01-07

那些本科完全和編程、計算機不沾邊的人，是如何在生物公司成為生物信息分析的中堅力量，例如自己去寫很複雜的腳本。最近了解到有好些這樣的人，甚為佩服啊

題主覺得「編程」、「計算機」是靠老師、學校教才能學好的么？這兩樣恰恰轉行生物信息最容易做好的(因為重要的是累積經驗)，真正有難度的是反而是數學、統計，這兩樣缺少正規訓練，會直接影響日後能走到的高度。滿屏公式的統計文獻你都不忍打開的話，光會寫程序調API是弄不懂原理的。

另，半路出家也缺少軟體工程的訓練，代碼的版本控制沒有，可維護性也很差。複雜的腳本，往往是因為寫的爛。

以上兩點，是95%的生信分析人員留給我的印象。

我比較贊同 @Tang Boyun 的回答，「編程」、「計算機」這東西的確靠自學，因為代碼結果擺在那裡，沒有爭議。無非就是熟練度的問題，還有理解力的問題。

我學perl的時間也就兩天，然後就開始各種數據轉換，各種小程序一寫一大堆，毫無壓力。可是呢，碰到真正的生物信息本質問題我就傻眼了，因為我壓根不懂高級統計，

會的只是大學學的皮毛，我不知道搞個差異基因那些cuffdiff,DEseq,edgeR，bayseq區別是什麼。我只知道如何去用，如何把流程跑好，如何得到漂亮的結果。

RNA-seq差異表達基因分析方法探索

對檢測RNA-seq數據中差異表達基因的統計方法的一個比較

滿屏公式的統計文獻我壓根不會看，但是這樣絲毫不影響我作為小生信公司的技術主管的地位，因為我不管什麼軟體，十分鐘就上手，隨便進行任何數據轉換，我熟悉大部分的生信資料庫

什麼ncbi,ensembl,ucsc,omin,GO,KEGG,uniprot,pfam,IMGT,TCGA,GEO我都有所了解，來了項目，無法就是這些資料庫的比對，發現對客戶有價值的信息唄

我幾乎不寫複雜的腳本，90%的代碼不超過10行，但是非常精簡，高效率，是分分鐘就可以寫成一堆數據轉換的代碼，適應任何軟體的需要，適應大多數統計畫圖的需要。

遞歸，分而治之，折半查找等等基礎演算法我都懂，看一眼就會實現，凡是我用過的軟體只要給我時間，我都可以仿照著實現它的功能。比如fastqc,samtools，bowtie我都仿照寫過，在我的博客裡面有具體代碼及思路。

但是涉及到高級鏈表圖論我就暈了，但這也絲毫不妨礙我在生信公司從事科研服務，更不會妨礙我帶我的菜鳥團們繼續在生信的高峰上攀登。

然後就要簡單講講國內生信本科或者碩士了，首先我不排除有極個別天資及勤奮度都不錯的黑馬，但是絕大部分都是普通人，普通人是什麼概念呢。就是了解生信是什麼，但是如果要做項目就需要再具體一個個概念深化，統一。

最後，在我自己看來，大部分生信公司的哪怕是老總，也只是菜鳥，但是又如何呢。社會需要什麼？神？錯。菜鳥足矣！

當然，我個人是不會滿足於菜鳥這個水平的，也不會止步於此，但是，首先得確保自己菜鳥的身份嘛！

在這個百度谷歌的年代，帶有目的性的學習某一門學問（不是那種需要具體操作熟練的技術），只要有意願，努力去學總是能掌握的。特別是編程這類計算機方面的技術，在互聯網上各種資源更多了。關鍵還是看自己能不能去學，並且學進去吧。

這涉及國內和國外的教育方式。

國內是有生物信息本科這個比較奇葩的東東，我就是其中之一，你說根正苗紅，我看未必。生物信息可沒有自己的基礎課，基礎課都是跟別的學院合上；專業課的內容都是不同領域的應用，高到演算法全是數理統計和計算機。這既是交叉學科的特徵。

國外要研究生以上才有生物信息。

總的來說，生物信息不管國內國外，菜鳥大牛，從學科出現到現在，所有人在一開始百分百都是半路出家。區別在於早進晚進，有很多人在這個學科專業多年，成了專家而已。

以bioinformatics engineer，在國內某家公司工作過一年的經歷，回答一下這個問題：

首先需要給問主補充一下基本的背景（個人觀察，不對之處歡迎補充），

1. 生物信息學。作為一個獨立的學科，具有自己的專業課程，這些課程覆蓋的內容基本上包括，生物三大分子（DNA－RNA－protein)，序列特徵，表達量，蛋白結構，蛋白互作，儲存這些信息的常用大型資料庫，如NCBI，EBI，Uniprot等，和生物現象或是生物過程相關的KEGG pathway，GO，和進化樹，組學信息介紹，包括DNA level 的測序分析，外顯子，全基因組，目標區域和表觀修飾相關測序，RNA level 測序，RNA－seq和miRNA－seq，組學信息資料庫，Ensembl，UCSC，TCGA等。

2. 生物信息學的交叉學科屬性。我覺得生物信息學基本就是利用計算機技術來解決生物學問題。首先，關於生物學問題，需要足夠的生物學科背景，才能知道分子層面上的調控，進化上的保守性等這些有意義的研究方向。類似的，如果研究方向是drug，metabolite，medicine，就得有這些方面的背景知識，才好說是搭上生物信息的方法來研究一些有意義的問題。其次的話，研究中會產生大量的數據，處理數據就必須得有基本的統計學背景，比如在NGS時代，都默認基因表達量服從柏松分布或是負二項分布，這樣才有後面的基因差異表達分析。然後，計算機上的編程語言工具提供工作效率。其他的，隨著研究內容的改變，再需要補充學習和使用。

3. 生物公司的定位。我想，任何一個生物公司都有盈利的壓力吧。而且，生物產業化從來都是challenging 的事。怎樣配置職位，合理分配人工，合理之處，共同盈利，這些在生物公司更應該有個科學合理的規劃。

回到問題本身，生物公司（生物信息專業相關的公司）招什麼樣的人都是有可能的，比如，生物信息專業的來分析數據，計算機的來搭平台，和生物，計算稍微相關的過來可塑化等。只要在大格局中，能做做好本職工作，這就夠了。沒有很好背景的小本科也是能找到合適職位的，如果可能的話。我當時在的公司，情況基本就是，二代數據分析人員，基本都是北京還不錯高校的生物信息專業相關的碩士或博士。然後，其他的職位有一些本科或是碩士，工作內容不直接和專業相關。

但是，說到中堅力量，如果只是本科，沒有足夠的生物背景，計算機編程有限，其他的連帶學科，比如數學，心理學什麼的都一般，意志和品質也不咋的的話，能找到一份工作，好好乾就行了。有追求和夢想是挺好的，但是，可行性不高，還不如調整自己的心態，進步一分算一分。

Good Luck！

本科不是計算機，可以讀計算機的研究生和博士嘛~~~

扯淡結束。

生物信息學長期以來的重點在於生物，而非信息。理解問題，然後寫出腳本，讀取數據，調用各種程序完成任務。大部分問題都是隨著研究目的的不同而不斷變化的，問題的理解很重要。

而一些沉澱下來，比較明確的問題，例如序列比對、基因組組裝、生物網路聚類、結構預測等等就逐漸地變成了計算機、物理學家、數學家或者統計學家的工作。早起的序列比對是動態規劃，後來有Hash，再後來有BWT的，到並行、分散式、GPU、MIC等等。這個領域的大神Li Heng是南京大學物理專業的，Ruibang Luo本科是生物但一直折騰計算，博士去了香港大學計算機系。

當然，由於生物學本身長期是實驗科學，數據量的增加讓這個領域發展太快，真正沉澱下來變得需求明確可以交給計算機或者數學家深究的問題還是太少，對問題的理解在很長的時間內依然是最關鍵的技能。

隨著數據規模的增加，IT技術和基礎會變得越來越重要，Hadoop、Spark、FPGA、機器學習等等。但在這些方面，美國人再一次展現出他的威猛，我們差得太遠。

生信以後肯定也會再細分，一種是理論生物信息學，專門研究演算法；另一種是應用生物信息學，不涉及演算法的研究，僅僅需要知道什麼情況下用什麼東西，合理地把數據轉化為生物學意義。95%的人應該都是後者，畢竟大家更關心的是生物學意義，而不是數據如何轉化的。當然前者的門檻太高也是一個主要原因。

看來以後註定是要半路出家反正現在也亂了就讓它亂下去吧我是神馬都乾的研究僧

這裡面有很多生信方面的工程師，有興趣的可以進群了解一下！

生物信息說白了也是一種工具，只要能為研究解決問題就可以，但是如果沒有紮實的生物基礎做鋪墊，多少還是有些不太好的。

經濟，生物，Linux，二代測序分析，伺服器運維