目前機器學習在生物學領域有應用嗎?
我在題目中說的生物學主要是生物化學、細胞生物學、分子生物學、神經生物學、生物物理學、生物信息學、計算生物學等。
回答最好能給出相關的參考文獻,謝謝!
謝邀。我自己做的東西主要局限在癌症分子數據,所以盡我所能把機器學習在癌症方面的研究總結一下。
1、對癌症做subtyping
背景:cancer is a set of heteorogeneous diseases. 臨床上把癌症分成各個亞型(subtyping)是為了達到更好的治療效果,提高病人的生存幾率(一般看五年存活率)。在人們沒有完整的觀察過cancer genomics之前,沒人知道原來各個patient tumor之間的差別如此大。考慮到分子是表型的基礎,人們便考慮把在差別如此大的各個腫瘤劃分出一些類型,使得類型內的tumor相似性高而類型之間的相似性低。這樣做的好處很多,最直接的就是對那些臨床分型沒啥用的腫瘤給予治療支持。機器學習的主要應用:
我主要看過的文章是TCGA對各個腫瘤的分子數據分析,共性便是利用分子數據做subtyping。機器學習的非監督學習在這裡起到巨大作用。一般來說,會按照某一種數據類型比如基因表達數據來做subtyping,也有一些是會將不同數據類型比如表達、甲基化、拷貝數變異等整合起來再做subtyping。因此這裡還涉及到how to combine heteorogeneous data的機器學習問題。因此也可以說cancer genomics的發展推動了機器學習的發展。2、預測病人phenotype
背景:近五六年癌症分子數據研究的中心應該是TCGA(The Cancer Genome Atlas),現在這個項目已經完成了所有病人的測序和數據分析,其生物信息學研究機構GDAC正在抓緊準備發表剩下的文章。TCGA推動了人們對cancer genomics認識的大幅度提高,並且繼續引領這方面的研究:他們在考慮如何大規模的將分子數據真正應用到臨床上!這將是一次顛覆傳統臨床醫療的行動,主要在於規模之大、預期目標實現的日子很近。從此,癌症的臨床醫療將不會是一門玄學(醫生以猜測為主),將在分子數據的指導下完成治療。期待癌症病人將會大大收益。機器學習的主要應用:機器學習的監督學習在這裡仍然會有廣闊的應用前景。根據已知病人的phenotype和genomic data,構建預測模型,在新的病人上做好預測。癌症治療的一大領域靶向治療和這個的思路很像。比方說,乳腺癌中HER2高表達時ERBB2靶位葯的標誌物,從而我們構建出(ERBB2靶向葯有效果,HER2高表達+ERBB2突變)這樣一個模型,之後新的病人如果也觀察到HER2高表達且ERBB2突變,我們就能預測這一靶向葯有效果。說實話我突然忘了這個超級有名的葯的名字了,曲妥珠單抗?3、發現表型相關的癌症分子機制
背景:cancer genomics中的各種alteration一般不太可能是孤立的,因為生物系統中的各個元件都與其他元件共同作用行使功能。生物分子網路的概念就是以此為基礎。早期有人用分子網路來預測蛋白質的功能,尋找網路上出現變異的模塊(一組互相連接且同時在case-ctrl出現巨大變化的分子節點)等。現在,人們打算用個體癌症分子網路來描述癌症惡化的程度。機器學習的主要應用:發揮你的想像吧,網路本就非常適合做機器學習,比如social network方面的各種研究。現在人們對癌症的分子數據領悟到的東西非常多,用網路來做癌症模型,推斷癌症的各種過程的機制,就像早期人們利用網路來研究細胞狀態等,這可能會給我們帶來系統性的認知,人們對癌症的理解將會提升一個層次。4、基本數據處理和分析
人類觀察微觀世界一般都採取間接的方式。我們在觀察細胞分子這個層次時,只能通過對間接觀察到的現象進行建模,從而推斷分子所處的狀態等。當各種測序技術突飛猛進的發展時,總會帶來各種新的挑戰,尤其是機器學習的建模或者演算法設計。當人們有技術去探測基因表達、突變、拷貝數變異、蛋白質水平等,人們也同樣需要合適的方法來measure各種層次的活躍程度。未來人們能測量的東西會更多,所以好好期待吧!臨時想到這麼多,能想起來的話繼續更新。非常多,幾個印象非常深刻的,1,hmm來學習基因組,2,回歸、分類器來學習mirna、crisper的靶點和效率,3,貝葉斯方法和生物物理模型(rna 雜交)學習mirna的chipseq數據,預測mirna靶點4,利用概率圖模型來學習具體的基因調控過程,給出非常好的針對實驗的預測結果5,rna-seq中基因表達水平預測是一個generative statisitical model6,各種clustering
還有好多。。。。
晚上給文獻%%%%%%%%%%%%%%%%%1,隱馬太有名了,自己google一下吧!2,miRNA的靶點和效率的學習是targetscan,這個應該是svm,TargetScanHuman 7.0cripser的學習,Xu H, Xiao T, Chen CH, Meyer CA, Wu Q, Wu D, Cong L, Zhang F, Liu JS, Brown M, Liu XS. Sequence determinants of improved CRISPR sgRNA design. Genome Res. 2015;25:(8)1147-573,貝葉斯方法和生物物理模型(rna 雜交)學習mirna的chipseq數據,預測mirna靶點http://www.nature.com/nmeth/journal/v10/n3/full/nmeth.2341.html4,利用概率圖模型來學習具體的基因調控過程,給出非常好的針對實驗的預測結果,(應該還有好多MRF,貝葉斯網路的文獻,大家自力更生吧)Iterative experiment design guides the characterization of a light-inducible gene expression circuit5,rna-seq中基因表達水平預測是一個generative statisitical model
cufflinks http://www.nature.com/nbt/journal/v28/n5/pdf/nbt.1621.pdf6,各種clustering這個太多了,舉個偏統計的例子,sparse SVD, sparse SVD regression, T-SVD ,PCA還有這個經典的SVD分解http://www.pnas.org/content/97/18/10101.full.pdf補充一點,這些文章,關鍵都在附件裡面。。%%%%%%%%%%%%%%%最近又看了一篇,關於deep learning的,Predicting the sequence specificities of DnA- and RnA-binding proteins by deep learning但不得不說,這個CNN真的好淺。。。。
---------2016.4.14修訂,補充前言,來自《機器學習》(周志華)------
周志華老師的《機器學習》中的第1章的緒論的1.6節應用現狀中這樣寫到:機器學習還為許多交叉學科提供了重要的技術支撐。例如,「生物信息學」試圖利用信息技術來研究生命現象和規律,而基因組計劃的實施和基因藥物的美好前景讓人們為之心潮澎湃。生物信息學研究涉及從「生命現象」到「規律發現」的整個過程,其間必然包括數據獲取、數據管理、數據分析、模擬實驗等環節,而「數據分析」恰是機器學習技術的舞台,各種機器學習技術已經在這個舞台上大放異彩。
--------以下是正文---------
我從一個學習者的角度來回答問題,來向各位介紹生物學家們將機器學習應用到研究生命現象和規律的嘗試。先講兩篇我讀過的綜述,再舉兩個我知道的例子。
兩篇綜述:一.Machine learning applications in genetics and genomics : Nature Reviews Genetics : Nature Publishing Group(這個用scihub自己下吧)
這篇綜述的生物學背景很強。結合預測轉錄起始位點(TSS)這個具體的分子生物學問題介紹了機器學習的基本概念,以基因注釋(Gene annotation)這個測序技術發展帶來的問題為例,介紹了有指導的機器學習,無指導的機器學習以及半指導(semi-supervised)的機器學習。以轉錄因子結合位點的預測為例介紹了生成模型(generative model)和判別模型(discriminative model)(後者我們最熟悉的是支持向量機)。這篇綜述還講了機器學習在生物學領域應用的挑戰:1.結合先驗的生物學知識,在模型的準確性之外提高解釋性和減少複雜性。結合多種不同來源的數據,如基因表達數據(如micro-arrary,RNASeq),互作數據(蛋白互作,核酸互作,蛋白核酸互作),以及序列數據進行研究而帶來的異質性(heterogeneous)問題。2.label skew( 有指導的學習的樣本中,兩個標籤的數據相差過大,比如一個預測強啟動子的機器學習步驟,正樣本(這個問題中為,已知是強啟動子的核酸序列數據集)的數目是1711,負樣本(這個問題中為,已知不是強啟動子的核酸序列數據集)數目為3000,000.負樣本是正樣本的2000倍。3.缺失數據的處理。4.選擇合適的特徵(feture)。
5.挖掘出不同來源的樣本之間的關聯。最典型的就是通過表達數據構建出調控網路出來。二.Machine learning for Big Data analytics in plants http://www.sciencedirect.com/science/article/pii/S1360138514002192
這篇文章是我的老師在Trends in plant science發表的綜述,全面的匯總了生物學中的大數據來源與管理,以及代表性的機器學習演算法和R中的包,以及機器學習在植物基因組學的應用,搞植物的同學可以參考一下,這兩張圖對於學機器學習的同學也應該是不錯的資源。兩個應用
一.冷凍電鏡中的圖像處理(推薦大家看下coursera上面的加州理工的冷凍電鏡的課程,尤其是Tomography那一節)關於冷凍電鏡的背景大家請看為什麼冷凍電鏡 (Cryo-EM) 去年突然火了?是有什麼技術突破嗎? - 生物學
以及什麼是2015年最受科學界關注的新技術? - 知識分子 - 知乎專欄當然還有The revolution will not be crystallized: a new method sweeps through structural biology : Nature News Comment根據nature這篇新聞稿,冷凍電鏡取得突破性進展主要要歸功於兩個人:Richard Henderson和Sjors Scheres還有他們所在的實驗室:UK Medical Research Council Laboratory of Molecular Biology (LMB)。Richard Henderson和他的同事 Nigel Unwin 在1975年的一片文章(Molecular structure determination by electron microscopy of unstained crystalline specimens)中為冷凍電鏡技術做出了奠基性的貢獻。而新發展的直接電子探測器使得對大分子的高速動態成像成為可能。新技術帶來的大數據使得Sjors Scheres有了在方法學和軟體上的突破( Maximum-likelihood Multi-reference Refinement for Electron Microscopy Images,RELION: Implementation of a Bayesian approach to cryo-EM structure determination,這幾篇文章都是數據處理的乾貨,數理功底好的同學可以看看)。那麼,冷凍電鏡中的圖像處理是如何應用到機器學習的思想與方法的?下面這張圖(來自How cryo-EM is revolutionizing structural biology http://www.sciencedirect.com/science/article/pii/S096800041400187X) 展示了在新技術(B)下由冷凍電鏡解析出大分子構象的流程,文章中對這張圖的說明如下:(i) digital direct-electron detectors yield data of unprecedented quality and allow recording movies during exposure; (ii) computer programs to realign the movie frames may correct for sample movements that are induced by the electron beam; and (iii) powerful classification methods lead to multiple structures from a sample mixture.當然從記錄的數據中識別出我們要的大分子成的像,本身就是一個機器學習中的圖像識別問題,我就不多說了。新技術的應用機器學習的亮點在體現為下面這張l兩張圖: (來自A Bayesian View on Cryo-EM Structure Determination)我們通過傅里葉變換的方法用計算機重構出粗略的結構模型然後把這個粗略的結構模型與成千上萬的成像數據比對,得到每個圖像之間的相對位置。通過作者改進的機器學習中常用的貝葉斯方法,將粗略的結構模型調整為新的一個更精確的結構,如此迭代以精鍊我們的模型,文章提到對於核糖體的結構的解析他們迭代了25次。這整個的過程就是所謂的取「平均」了,不過是基於機器學習的方法,結合先驗的知識來取得「平均」(不是很懂,寫的不好,歡迎成像和圖像處理方面的專家指正)總結下這部分有價值的參考文獻:
1.How cryo-EM is revolutionizing structural biology http://www.sciencedirect.com/science/article/pii/S096800041400187X很好的綜述。2.RELION: Implementation of a Bayesian approach to cryo-EM structure determination,A Bayesian View on Cryo-EM Structure Determination,數學功底和圖像處理功底好的大神們應該會感興趣3.http://xrm.phys.northwestern.edu/research/pdf_papers/2000/bonnet_advancedimaging_2000.pdf一個機器學習與模式識別在電子顯微鏡圖像處理中應用的綜述。二.基於機器學習的差異網路分析進行的擬南芥脅迫下的轉錄組研究Machine Learning Based Differential Network Analysis: A Study of Stress-Responsive Transcriptomes in Arabidopsis
這篇文章是我的老師做的。這篇文章的亮點在於1.在構建共表達網路的時候採用隨機森林的方法把未標籤的樣本中的「noninformative」 genes(不表達,持續表達,與脅迫無關的基因)過濾掉了,減少了共表達網路構建的無用信息。2.與傳統的差異網路表達分析不同,在預測與脅迫相關基因時,挑選了網路多個特徵進行脅迫先關基因的差異表達基因分析,3.文章中根據P=0.05作為閾值(飽受詬病的p=0.05....),從統計學意義上只有60%的候選基因可以作為脅迫相關的基因,然而剩下的40%的基因從生物學角度來講依然可以轉錄,甚至與脅迫相關。所以文章接下來做了Gene Set Enrichment Analysis 來從一已知資料庫中挖掘出預測出來的基因的生物學功能看其是否與脅迫相關,並且區別了不同的脅迫下,對所有脅迫都響應的基因(Stress-Shared)和只對某一脅迫響應的基因(Stress-Specific Gene)
總之,這篇文章對於機器學習比較熟悉的人來說,是他們了解生物學問題的窗口,而對於生物學背景較強的人來說,也是他們在機器學習方法應用於具體的生物問題上的一個進階。總結和感想所謂機器學習就是一種智能的數據挖掘技術,它依據先驗的知識建立預測模型來識別大數據中的有用信息。所以只要有大數據和前期積累的先驗知識,就有機器學習方法用武之地。說幾句與題目無關的話,個人感覺其實這個題目也可以回答學生物的人多學點基礎的數學和物理知識有用嗎?我覺得是有用的,比如你想搞清楚冷凍電鏡成像的原理,你必須懂點物理知識(干涉衍射之類的)還得懂點數學物理方法(如傅里葉變換與它的逆)。當然想要進行機器學習,當然得有統計學和數據的可視化方法的數學基礎和計算機編程基礎(Python或者R)了。學科之間其實是可以互通有無的,然而這點常常被目光短淺的一些人忽略了,希望關注這個問題的人可以能多從這個角度來學習,思考問題,解決問題。PS:引用老師的圖片已獲得許可。這是我們實驗室的網站http://bioinfo.nwafu.edu.cn歡迎大家了解我們實驗室的工作。----------修改了排版和圖片的bug------2016.3.18-------關於生物醫學圖像處理,還可以參看徐葳:生物醫學影像處理、分散式系統與數據共享平台------------------20163.27補充--------------有對生物信息和大數據以及機器學習結合感興趣的同學可以聯繫我的老師,第十二批國家「千人計劃」青年人才(關於公布第十二批國家「千人計劃」青年人才、 創業人才入選人員名單的公告)馬闖教授(西北農林科技大學生命學院)03/25/2016 再更新: 我覺得這個可以寫的東西太多了。 都放在這個回答里肯定要爆長了。 計劃之後把單獨的部分都寫到一個地方, 然後貼鏈接過來。 下一次更新想寫一下這個圈子裡邊我熟悉的比較厲害的人以及研究地。 某些想對此領域感興趣並且計劃申請研究生的人可以關注。 之後的更新里, 我會選取幾篇特殊的文章來介紹機器學習應用以及當前這個領域的一些方向。 我自身水平有限, 接觸的也不多, 只是起個拋磚引玉的作用, 歡迎交流。
03/25/2016 更新:對這個領域的個人看法, 這個領域的人都在什麼專業
對這個領域的看法:神經科學的發展前景我也就不多說了, 感興趣的話可以直接去看現在的政府支持項目就行, 媒體上吹的也不少了。 比如美國的BRAIN INITIATIVE, 歐盟的human brain project, 中國的中科院「腦功能聯結圖譜」先導計劃, 』十三五『國家戰略百大工程項目「腦科學與類腦研究』, 等等。 直接搜索就可以了。 腦科學是一個探索大腦工作機理的科學, 涉及到的問題包括神經系統的方方面面, 比如學習、記憶、意識、認知功能、 信息編碼和傳輸 、神經疾病等等。 對它的研究可以在疾病治療, 探索大腦工作原理, 研究人工智慧等方面都會有貢獻。 這些廢話我也不說了, 隨便找本教材裡邊都寫的很炫酷。這是一個多學科交叉的領域, 融合了生物,心理, 工程, 統計, 計算機,數學, 物理, 化學 等多學科(排名不分先後)的知識。 以我所在的Center for the Neural Baisis of Cognition (CNBC) 為例, 人員來自10+個不同的系。 這些老師和同學們彼此之間都會有各種跨系的互動和合作。 題目雖然問的是『機器學習的應用』, 但是在接下來的回答中我將不區分機器學習, 統計, EE中的信號處理等不同專業在神經科學的應用。 很多時候他們的區別都只是在於這個老師是在哪個系而已, 做的工作彼此都是可以無障礙溝通的。本質上都是對數據的建模和分析。我唯一談的少的是偏數學的研究。 偏數學的計算神經科學發展的很早了, 從上個世紀中期的神經元biophysical model 開始, 到後來的各種dynamical system 分析, 發展了很多年。這些領域的發展多是model driven的, 類似物理中牛頓定律那樣的自下而已的研究, 力求把單個神經元的性質研究清楚了, 一點點往上構建大的網路。 我所要談的是data driven的,用的模型多是統計模型, 不是有直觀生物物理意義的模型, 重點是對數據的解讀, 很多細節信息都會被忽略掉。 這個領域真正開始也就是最近十幾年。 早期的神經科學研究受限於技術採集手段的局限性, 很多分析都可以用非常直接的方法來完成。 隨著數據採集技術的發展, 數據在量和複雜度上都遠遠超過了過去, 傳統的方法將不能滿足現在的需求, 因此機器學習將成為未來神經科學不可替代的一部分。
我個人認為機器學習對腦科學的作用有三個方面:數據的分析(更快,更自動化,更準確);從人工智慧的角度來提出關於大腦工作原理的假說;對神經科學中的假說進行驗證。
涉及的專業:
我接觸的做相關領域的人多集中在統計系,計算機系,生物系,EE,BME, 數學系等。他們的背景也是方方面面的都有, 比如我是物理的。 我不會去說哪個專業更好更適合,因為我見到的這些人都是從來不畏懼去學習一門別的專業的東西。 在神經科學的研究中,是沒有太嚴格的專業劃分, 只要你需要並且感興趣, 就都去學習, 通常來說也就是一兩門課甚至幾篇文章的問題。只要是找到了一個好的課題好的導師(好難啊T_T),那麼在編程, 數據分析, 問題抽象建模方面訓練就不會少的。至於不想幹了的工作去向, 完全就是看個人能力。 我比較佩服的一個老師(之後會講)組裡倆人都去了deep mind(不知道?就是阿發狗那個公司)。03/22/2016 原始回答:占坑帖子
這個問題好, 不請自來。 先佔個坑,等我有時間了慢慢答。 在座的各位提到的主要都是在生物信息學上的應用。 我要重點介紹Machine Learning 在Neuroscience領域的貢獻。 考慮到這個領域在neuroscience就是在起步階段, 而 neuroscience在國內也處於起步階段, 希望這個回答可以吸引一批理科大牛們為探索人類的大腦發光發熱。 我計劃從這個領域裡邊我熟悉的一些大牛說起, 然後說幾個經典應用以及當前比較火的幾個方向。 對於另外幾個我不熟悉但是我知道應用很廣的領域, 我會邀請我的同學(比如 @楊穎 stat-neuro@Yuanning@張逸萌@This Is Not Tina)來回答。 (@This Is Not Tina , 你專欄給我留的坑有望被填上了)剛跟Fabio Vandin聊完,更一下自己的想法,給樓主潑點冷水。
樓上提到的這些做Machine Learning的大牛我基本都見過。他們做的根本不是general machine learning algorithm,而是自己extract statistical model。
要知道statistical model 跟algorithm是一回事,你都是很理解生物問題之後才能設計出來的。machine learning 的方法只適用於你滿足於black box和有時不知道意義何在的features的方法。當然machine learning在生物信息中能找到應用,但是要把握住這個原則,如果你想對biological problem真正了解的話,是不會用machine learning的。
我跟google X lab的人聊過,他們的觀點是,反正我有錢,我有現成的deep learning model,讓我們把生物數據拿過來,看看能出來什麼結果吧,至於真的biological meaning,他們不care。
====11/30/2016 更新有幸在冷泉港碰到了Olga Troyanskaya, 對對就是那個做deep learning做得很屌,發nature method的那位。 Zhou, Jian 以及 Olga,我自己的感覺,他們已經在這個生物問題上浸淫多年。哪怕沒有deep learning他們也能learn出來生物意義好嘛!!
Olga神原話:你們要是做deep learning小心點,很容易overfitting的哈哈哈,你們又沒有那麼多data哈哈哈我以前做基因組,只熟悉這個領域。在基因組和生物信息學領域裡,馬爾可夫鏈的方法用的比較多,主要用於做序列的模式提取,比如HMMER工具包和Pfam資料庫用於分析蛋白序列的motif、結構域,Inferno工具包和Rfam資料庫用於分析RNA結構。另外簡單的貝葉斯推算也有一些應用,比如RDP classifier使用特定基因序列的7子串的成分做物種分類。傳統的神經網路沒聽說過有啥應用。
大部分回答在探討科研,但在科研上,我覺得 @子林 的答案比較有代表性。機器學習方法的可解釋性太差。
我提一個應用的方向,個人覺得非常有意思。目前有不少國內外公司正在這個方向努力,目標是在大田育種實驗中,利用計算視覺方法,設計出一套能自動鑒別、收集、記錄、分析作物性狀的儀器,擺脫以往的育種記錄工作,需要袁隆平們一株株手動統計的現狀,大大提高育種的效率。目前在人工溫室里,已經有相當成熟的產品了,但在實際的大田裡,想讓機器人饒著農田跑一圈,統計出這個田地里作物的性狀,那麼還是有不少挑戰的。
文獻見此:An opinion on imaging challenges in phenotyping field crops謝邀。我簡單的回答一下,就不去搜索資料啦。機器學習在生物信息學中的應用還是很多的。比如,我們導師原先博後的課題是基因(蛋白質)功能預測,這個課題也帶到了我們課題組,我們還參與寫過一本書的章節,Predicting Gene Function Using Omics Data: From Data Preparation to Data Integration. 主要就是介紹各種預測蛋白質功能的演算法。後來,我們課題組繼續開發演算法,參加了CAFA比賽,還取得了比較好的名次。說起CAFA, 其實大家可能對CASP更加熟悉一些,就是蛋白質結構的預測,也會運用到很多機器學習的演算法。其實此類比賽還蠻多的。類似的課題還有很多,比如,疾病基因預測,蛋白質活性位點預測等等。其實,找基因表達晶元中的差異表達基因,然後再用這些基因去做樣本分類,也是機器學習。另外,我選修過計算機學院的統計學習與維度約簡,其實講的是概率圖理論,probabilistic graph theory,包括Markov鏈,DBN等等,我自己嘗試過運用這些方法來分析二代測序數據中的轉錄調控的因果關係網路等等。另外,我自己看過一本書,講的是系統生物學,可能扯的有點遠了,它裡面主要是講數學中的動力學模型的。另外我旁聽過數學系的課程,講的是因果分析,LASSO回歸等等,這些都在生物信息學中經常用到。現在測序那麼火,post-GWAS分析中,經常會有gene prioritization分析,也算是運用到一些機器學習的方法吧,還有我最近看到的一些文獻中,整合疾病表型、基因型等等,來進行醫療診斷的,這個方向和精準醫學掛鉤,研究的人挺多的。我沒有系統學過機器學習,平時就是通過聽各種課程和查詢文獻,然後軟體用的比較多的是WEKA,在我的感覺裡面,就是有一個很大的矩陣,每一行是一個樣本,每一列是一個feature,最後是分類marker,然後就可以通過各種演算法嘗試去做feature selection,然後再用剩下的feature構建模型,做個cross-validation,如果ROC好,模型複雜度也不高,就可以了。當然,機器學習裡面的監督學習,非監督學習,弱分類器等等概念,雖然多多少少知道一些,沒有系統學習過,就不獻醜啦~略吐個槽:現在生物信息學領域做機器學習的人,有些對生物學不太了解,出發點就是純模型,模型構建的很好,但是沒有深挖生物學意義。有些對機器學習又不太了解,又不會選取合適的模型來進行預測。最理想的科研狀態是,得到好結果,也能知道為什麼是好結果
我這個跟Xun Huang的答案相似。
有人要研究某些藥物對皮膚的作用(具體說來是止癢的效果),於是需要記錄小白鼠撓自己皮膚的次數,然後為了避免苦逼的PhD們整天盯著小鼠有沒有撓痒痒,他們在研究如何直接錄音,用機器學習方法分析錄音頻譜裡面的各種特徵來直接判定小鼠撓了幾下。有一家公司叫做DeepGenomics,開發了一個東西叫做DeepBind,發在了NatureBiotechnology上
Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning (Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning : Nature Biotechnology : Nature Publishing Group)還有一篇研究DeepSEA,預測變異對binding什麼的影響
Predicting effects of noncoding variants with deep learning–based sequence model (http://www.nature.com/nmeth/journal/v12/n10/full/nmeth.3547.html)貌似ENCODE之類的項目也運用了深度學習?搜到一篇綜述 Deep learning for regulatory genomics (http://www.nature.com/nbt/journal/v33/n8/full/nbt.3313.html)計算生物/生物信息/理論生物這個學科和數量金融還真的挺像的。
大概分為兩類:- 一類以PDE,隨機過程,動態系統等方法為研究工具。
- 從事這些的一般都是物理/數學背景,用大規模的隨機偏微分系統對生物/化學系統進行模擬。
- 比如細胞中有幾千乃至幾十億種分子,他們在整個細胞生命周期中如何演變的,需要建立大規模的連續過程模擬和設計。
- 可轉行為投行的定價Quant,技能點很相似。
- 一類以統計/機器學習為主。
- 一類是對生物實驗數據進行統計分析,推斷做出統計意義上支持的結果。
- 從事人員以傳統統計背景為主。
- 一類是對生物過程/個體之間的相關性,因果性進行建模,預測和描述,基本上各類型的機器學習問題都可以找到,分類,回歸等判別類模型。概率圖模型等生成類模型。
- 從事人員以統計/機器學習背景為主。
- 轉行一般在對沖基金等公司從事金融數據挖掘和分析,嘗試預測。
- 大名鼎鼎的D.E Shaw, 就是計算生物/數學出身。
- 還有醫學圖像,醫療信號處理等等方向也可以歸類在這個學科。
大家基本上講的都是機器學習在計算生物學上的應用,我來說個特別點的。。。
一天,養蒼蠅的生物PhD覺得自己很苦逼。一天到晚要守在實驗室。記錄實驗組的果蠅在社交行為上的變化。於是他找來了隔壁機器學習組的人設計了一套視覺跟蹤和運動識別的演算法,只要拿攝像頭把果蠅的生活拍下來,電腦就可以代替生物PhD做實驗記錄了。。。
真是太機智了。我是學生物信息的,上學期我們系裡也開了一門機器學習的課。我感覺在生物領域應用還是很多的,比如通過基因表達的信息預測疾病進展和患者的嚴重情況(死亡率),通過腦成像數據預測和診斷阿爾茲海默等等。
貌似有一個很大的國際項目叫DREAM Challange,有興趣的可以看看,官網在這裡:homepage - Dream Challenges。大體上就是不同的實驗室都提交自己機器學習的演算法,比較誰的預測結果最好的。
總體的感覺就是最近這樣的應用越來越多,因為生物大數據近幾年也是很火的。生物信息學很大一個方向就是做這個的。機器學習在生物領域的應用實際上從90年代開始就已經開始了。比如早起的基因預測就是基於hmm實現的。現在隨著各種noncoding rna的發現,這類應用也還不斷存在。
supervise learning經典的例子有突變致命性的預測,從21世紀初的SIFT,到後來08年的polyphen2以位點保守性,結構信息,序列信息為feature,訓練貝葉斯分類器。另外的例子包括疾病預測,TF binding site預測等。
unsupervised learning的經典例子有癌症亞型分類,簡單的方法如clustering,PCA。複雜得則是綜合各組學及pathway相關信息構建概率圖模型如PARADIGM。另外我覺得很有意思的是通過genetic信息進行歐洲人種分類,畫了個pca圖和歐洲地緣幾乎吻合。
除了這些常規的應用,一些特別的應用比如positive-unlabeled learning本來是開發在文本分類的,也在生物領域有應用。
甚至每年還有很多競賽,組織方提供訓練集,邀請參賽者設計機器學習演算法做預測。如DREAM每年都有競賽,去年是通過組學數據預測細胞耐藥性。參賽者基本把machine learning領域的演算法全試了。最後結果最好的的是multi-kernel learning和random forest。
更重要的是machine learning其實也是隨著在生物領域的應用而不斷提高。最典型的一個例子就是high-dimensional data。這個問題基本就是組學數據所帶來的。前幾年statistical learning的一個很火的方向就是variable selection。
不過最近很火的deep learning倒是應用不多,一來生物數據的樣本不如圖片,圍棋來得多,其次一些為圖片識別專門設計的卷及網路在生物中也不太適合。但是我預計隨著MRI等醫學影像自動化分析的要求越來越多,deep learning的應用也會越來越廣。
總之這個坑是非常大的,歡迎跳進來!生物信息學。
Why?
先回答 What: 什麼是生物信息學?
生物信息學,是試圖利用信息技術來研究生命現象和規律,如基因組計劃,基因藥物。再說 Why:
從「生物現象」到「規律發現」,其間必然包括 數據獲取、數據管理、數據分析,模擬實驗等環節。而「數據分析」則是「機器學習」技術的用武之地。參考:
《機器學習》周志華P.S. 非此專業,恰好讀過一點相關。我關注的是機器學習可以用來幹什麼。故有此分享。最近看到AlphaGo的新聞,想到SuperComputer, Machine Learning, AI等技術在生命科學領域的應用,所以上網搜索了一下,找到了斯坦福的Pande Lab,他們正在進行相關的研究:Pande Lab a€」 Vijay Pande"s Lab at Stanford University不過我的構想是,在模糊測試思想的指導下,使用計算機結合模型和模擬,自動篩選出針對特定疾病的合適藥物,所以我寫了郵件詢問了斯坦福實驗室的一位成員,非常高興和感謝的是,他給我提供了Github上開源的一個,使用深度學習技術進行藥物開發的項目:GitHub - deepchem/deepchem: Deep-learning models for Drug Discovery and Quantum Chemistry大概和題主提到的差不多,雖然答主不是計算機專業的,不過最近對這塊非常感興趣,同樣有興趣的同學可以可以知乎私信我,一起討論研究哈。
正好最近看到一篇應用在預測DNA甲基化方面的應用,其中涉及到Hi-C(我的研究領域),用得到了機器學習,下面是文獻:Wang Y, Liu T, Xu D, et al. Predicting DNA Methylation State of CpG Dinucleotide Using Genome Topological Features and Deep Networks[J]. Scientific Reports, 2016, 6: 19598.
謝邀。應用非常之多,我做的生態學研究,基本現在所有的分析都有機器學習的參與,多採用0.7比0.3的比例學習迭代。例如動物的棲息地分析,用的隨機森林法(obb顯著高於其他,不過也和物種本身的習性有關);動物行為之間的關係用的決策樹出圖分析,相關分類的也多用決策樹;生態學數據的因素解釋能力的分析都是用廣義類模型。機器學習在預測方面非常實用,在分析因素間關係的時候需要理論支持,不然略顯單薄,隨著理論研究的豐富,這點也逐漸被充實。尤其是現在p值使用的有限性,更多領域內的編輯更推薦預測數據與觀察數據之間的直接比較,這點更推動的機器學習在這個領域的推廣深入。
TargetP用的就是神經網路,迄今為止亞細胞定位預測(尤其是細胞器定位)最為準確的軟體。葉綠體,線粒體等細胞器的信號序列複雜度高,可變性大,不像核定位序列有consensus sequence,而神經網路是唯一可以較好解決此問題的方法。
自己之前做項目的時候最重要的就是亞細胞定位預測,所以看了大半年這方面的內容。貼一個Target P的參考文獻:
Locating proteins in the cell using TargetP, SignalP, and related toolsOlof Emanuelsson, S??ren Brunak, Gunnar von Heijne, Henrik NielsenNature Protocols2, 953-971 (2007).先留一個坑,具體內容後面有時間補充。我們組有個師兄做這個,利用高斯過程來進行藥物重定向,就是研究現有的藥物是否可以用來治其他的病。生物信息這塊這幾年在國外挺火的,但是國內比較少,尤其是沒有這方面的公司。
推薦閱讀:
※澳洲龍蝦和阿拉斯加大螃蟹打架誰會贏?
※同卵雙生雙胞胎和同卵雙生雙胞胎(異性)結合,後代基因表現是否會相似?
※嬰兒奶粉暴利嗎,和 成人奶粉有什麼區別?
※為什麼對於有些人來說起床很困難?
※有哪些我們司空見慣但目前的科技水平無法解釋的現象?