機器學習跨領域到生物信息學怎麼樣?
0. 本科生物信息 馬上研究生轉向機器學習 1. 我本科學院大部分老師是數學和計算機出身,應該說生物信息十分歡迎背景是數學和計算機的跨過來。拿一個老師的話說,能搞數學的,轉生物那不是分分鐘的事。2. 生物信息現在在各個方向都需要機器學習的背景知識。二代測序、代謝通路、非編碼RNA分析、蛋白質結構功能預測、疾病亞型分型、術後預測哪個不是ML頂大半邊天。
3. `頂大半邊天`是在演算法和處理數據上,而不是在研究上。歸根結底ML是一個很強的加分項,而生物信息的研究中也是個加分項。4. 憑我在找研究生實驗室的觀察,絕大多數(本土)高校的機器學習和數據挖掘的實驗室都有過生物信息方面的研究和論文,我研究生學院還有幾個老師主打生物信息的。5. 如果(學生)想轉生信,我感覺最好的方法就是跑到計算機牛叉的綜合性院校跟一個在這個方向小有成果的老師。我本科是在全國唯一的生物信息學院,真的感覺當做一個交叉學科的研究又不與其他學科交流還覺得這就是交叉學科應有的樣子的時候是最可怕的。6. 專家們的水準就不知道了哈。
我是CS PhD,focusing on computational biology,或者叫Bioinformatics,反正我們系裡也沒有各個分支的明確界限。
computational biology大部分情況下指的的computer Science的一個分支,Bioinformatics在美國大部分指的是生物學的一個分支。這裡不細分了,統稱生物信息。
生物信息本來就是用計算的手段來解決生物問題的,機器學習自然是現在來說,最最熱門的計算上的手段了。生物信息和機器學習,分別是目的和手段,從純學術來講,是沒有什麼矛盾的。
從個人角度來看,因為和生物背景的人合作很多,大家的思路是不一樣。生物系搞生物信息的,一般情況下,問題基本是定好的,比如我要預測某某某東西,我想分析A與B的相關性,問題定好了之後,在去找方法,統計分析,機器學習都試試,看看有什麼結果。學計算機的搞這個生物信息,一般都是從方法出發,一般需要讀文獻的時候,從一個比較廣的角度去看,看到某個方法很新穎很有效,就想想有沒有什麼問題可以用這個方法解決。
而經常遇到的困難,對從點了生物樹技能的來說,就是經常因為編程或者方法上的問題,本來應該很快得到結論的,拖了很久才能有結果。對升了CS技能童鞋倆說,最常見的問題就是,解決的問題,沒有生物學意義,屬於屠龍之術。
從個人前途來講,哪怕發了一樣的paper,走CS路線的,不管找工業界工作,還是postdoc,包括教職,都好於從走生物路線的。從我們學校來看,排名100以後,CS PhD首先就被各大公司的校招general hire招走一大批,美國人很多留在本地,不想全國性搬家,剩下找postdoc的基本就是真的對學術感興趣的,並且基本也都能找到大學霸的課題組
何苦呢,如果不是將來計劃在高校發展,最好不要轉生物信息學,何苦呢從機器學習 跨到 生物信息,屬於「降級」,即從更高難度學科跨至低難度,順著這個方向,比較容易,反過來則難。同樣的降級,例子有 統計 -&> 生物信息,應用數學 -&> 生物信息。
成功案例:張學工教授(統計學習理論譯者,國內較早展開支持向量機研究的專家),自動化出身,跳生物信息。現在承擔國家第一個973生物信息項目。
但一般很少有人這麼跳,因為路通常更窄,待遇通常更差些。
我覺得非常不錯,生信領域太廣了,你理解的生信可能是 做基因組用Linux的那部分,然而,做代謝的基本用的是核磁共振和MATLAB,還有一些比如跨領域實現一些演算法, 假設naive bayes原來只能在MATLAB上實現,你把它構建到R裡面了,那也算是做生信的, 所以跨領域不是問題,找到自己對口的方向就行。另外,在分類學上,cluster和classification非常重要,你可以結合一些分類演算法搞個pipeline也不錯~我只見過反過來的,從生物信息跨到計算機搞機器學習,畢業以後去找工作去掙錢吃香的喝辣的,很少見到過願意不要炙手可熱的熱點,願意貢獻自己的學識,青春給我們遺傳學的。
真心給問主點個贊!
生物信息或者說計算生物裡面很多都要用到機器學習來做,這兩者交叉結合起來相對容易出成果,並不是獨立的關係。首先要澄清一下,生物信息學和計算生物學整體是相似的,但細節上有明顯差別。生物信息學更多感興趣的問題是信息,如何產生,存儲,搜索生物實驗數據以及開發挖掘這些數據的軟體工具,比如如何做DNA或蛋白序列的對齊(sequence alignment),或是建立資料庫存儲大量的實驗數據並提供用戶搜索,這屬於生物信息學的範疇;計算生物學更多的關心生物學問題,尤其是能用計算方法解決的生物學問題,比如只給定蛋白質序列的情況下,回答蛋白質是怎樣摺疊形成三維結構,蛋白質是怎樣相互綁定,或是蛋白質有什麼功能等等一系列問題,屬於計算生物學。
清楚這個差別,題主的問題就可以分為兩個情況,題主是想提供某種服務,軟體或是平台,還是想尋求生物學問題的答案。我感覺如果是前者,最終就會淪為碼農,而且工業界對生物信息的需求量還沒有非常大(我只了解我的所在國的情況,可能美國會高一些?),不如作可以普遍化的數據科學家,能處理各種數據類型。如果是後者,前景比較廣,尤其是製藥醫療行業,但門檻比較高,CS轉生物要建立另外一套知識體系,分子生物,生物化學,病理藥理,免疫學,就記名詞就能讓人腦袋炸開。。。(這是我的體會,對其他人未必是個問題 )。
以下是我個人觀點,歡迎討論。
我已經離開生信領域了。我說的生信是指偏向Computational Biology,用計算機解決生物問題,而非信息技術這塊的。
我離開這個領域的主要原因就是我認為生物目前還進入不了大數據時代。固然現在測序很火,但是成本依然很高,數據量依然很小。而要做深度學習的話,這些數據量是遠遠不夠的。就以癌症為例,公開資料庫的樣本數,就算是乳腺癌這種,也就2000到3000這個量級。要知道目前的機器學習(特別是深度學習)早就從演算法驅動轉變為數據驅動了,圖像識別的訓練集都是千萬級的。幾百個樣本能分析出什麼呢?恐怕也就是聚聚類,得出一些粗淺的結論罷了。這其中的技術含量可想而知。
而目前的生信界也是魚龍混雜,你說你的模型很NB,如何驗證呢?我讀過的一些paper都感覺水分很大,都是在炒概念。而這些「成果」,對實際生物學的發展來看,推動極其有限。
所以,我認為生信這個領域,目前的瓶頸根本不在演算法上,而在工程方面。工程問題解決了,數據量上去了,才談得上生信的春天。
我是學生物信息的,在自學機械學習。確實有難度,而且我還算有系統的學過神經網路,svm,線性非線性回歸什麼的。但是我這樣的想寫出什麼新的algo什麼的也不可能,更多的是想知道怎麼應用在生物領域
推薦閱讀:
※螞蟻是由蜜蜂進化來的么?
※如何保證轉基因作物的新基因片段的啟動轉錄表達及與宿主其他基因蛋白等交互作用不會產生非預期的物質和變化?
※以前聽說21世紀是生物學的世紀,但是那得是後半葉。生物學研究到什麼樣的程度能說它的世紀到來了呢?
※大數據時代下的生物信息學專業與生物信息學職業?
※瓊脂糖凝膠電泳跑的DNA為什麼會拖尾?