碼農轉臨床,未來想做癌症數據分析,解決癌症問題,可行嗎?

題主背景:生物碩士(中科院北京某所),計算機博士(北美Top30),博士是計算生物和大數據方向。

研究水平是發過幾篇一作的Bioinformatics,都是演算法和理論計算方面的(演算法證明,並行計算,統計模型等等)。

現在在某FLAG公司是碼農。

現在的人生規劃是想要去癌症研究機構或者癌症醫院做數據分析,往小了說是感興趣,覺得能解決這種問題很了不起,說大一點是為了攻克癌症這個難題。說得中二一點就是自己有個醫生夢,看豪斯醫生,實習醫生格蕾等美劇更加深對醫生這個職業的憧憬。

但是對癌症數據了解還不是很多,並且對這個行業了解也並不多。

想問癌症領域的待遇怎麼樣,未來發展如何。

想實現這個目標,接下來需要怎樣規劃?比如先去NCI或者MD Anderson之類的地方做博後(最好不要博後),還是去做數據分析,或者去類似的機構做碼農?


01/20/2018更新:

看到很多人說到了medical imaging,這是AI技術直接應用的一個很好的場景,前景光明,各大公司也在投入,最經典的案例算是Stanford去年的Nature封面(Dermatologist-level classification of skin cancer with deep neural networks),還有Google Verily的JAMA(Accuracy of a Deep Learning Algorithm for Detection of Diabetic Retinopathy),這必是未來的趨勢。但從science的角度講,這些只能做到輔助診斷,更多臨床上的價值,並不能解析cancer的發生機理,更談不上攻克了。而且確實存在和醫生之間主導權和身份的問題,medicine這塊做research有很多技術之外的因素,你在搶人家飯碗還能指望別人對你和顏悅色卑躬屈膝么。

drug-target prediction這塊也是一個方向,這兩年drug repositioning又有復甦的跡象,雖然這玩意已經搞了十幾年了(我印象中比較元老的是Yamanishi那篇Prediction of drug–target interaction networks from the integration of chemical and genomic spaces | Bioinformatics | Oxford Academic)。不得不服big data泡沫威力之大。很多人說藥廠很關心這個問題,他們確實很關心,但是他們對這些演算法的真實態度到底如何呢?為什麼搞了這麼多年,model演算法數不勝數,就是沒一個真的被用起來?我想18年的數據和演算法並沒有比08年有質的飛躍,問題在哪呢?基於我的個人經驗,我更願意相信這些paper里處處outperform的東西實際通通不work。另外,這個topic會涉及到network representation(因為drug的分子結構可以表示成graph),這是ml里現在挺火的一個topic(word2vec都知道吧,隨之而來的就是node2vec,blablabla),有一幫人在做。有關dl on drug,可以參考Ryan Adams的NIPS2015([1509.09292] Convolutional Networks on Graphs for Learning Molecular Fingerprints)。關於net repr的survey有很多,比如最近Jure Leskovec有一篇(Methods and Applications)。希望這些工作會對這個領域有所推動吧。

=============================

我是非專業的半吊子,而且cancer的東西看得很少,僅限於計算裡面一些偏systems biology的。總的來說,現在所謂cancer方面的combio研究大都是基於TCGA,畢竟沒幾個組有錢有時間有心情自己出去測測測。基本任務就是找marker,找module,而且大家都喜歡玩pan-cancer,畢竟各種cancer data都在那,你分析一個也是分析,分析十個也是分析。何況純計算的paper如果不pan一下很難發到好的地方。

但是問題來了,首先找marker這事圈子裡已經被詬病很多年了,有興趣的可以去看Han Liang那篇詭異的nbt(Assessing the clinical utility of cancer genomic and proteomic data across tumor types),discussion寫的很有意思,反正我看完一口老血吐了出來。因為cancer關心的是somatic mutation,所以沒法直接跑GWAS(GWAS也爭議很多,無力吐槽),那就得設計「高級」演算法在一堆noise里找微弱的signal。另一方面sample數量非常有限(幾百個上天了),model越高級越有bias,所以一篇文章找出來的signal另一篇就找不到了,reproductivity慘不忍睹。其實想想也自然,cancer那麼複雜的疾病,你claim一兩個marker很關鍵,如果事實真如此,那cancer早被攻克了。其實不僅cancer,任何complex disease都這樣,它不是由某一個或幾個variant或者gene壞掉導致的,更像是很多若干微弱的擾動導致系統(比如protein/gene interaction network或者regulatory circuit)的一個或者若干功能崩掉了。所以出現了polygenic甚至omnigenic的概念,感興趣的可以去看前一段時間Pritchard的Cell蓋世神作(An Expanded View of Complex Traits: From Polygenic to Omnigenic),我把其視為史上最高級的勸退文。

有人可能會說,小的擾動導致大的變化,這不是「蝴蝶效應」嗎?不能用系統論或者控制論來研究嗎?我不了解具體這方面的工作,我的控制論知識早還給老師了,腦子裡只有「反饋」二字。我見過不少工作通過建立PDE來研究生物系統(比如signaling)的dynamics,但這裡的問題不是我們缺乏數學工具,而在於測量手段的匱乏,這才是致命的。愛因斯坦牛逼的前提是實驗證明了他的理論,而實驗的本質是測量。如果我們都無法準確測量,那理論將毫無意義,這也是我為什麼經常說「理論xxx學科的尷尬在於給你變個assumption可能就跪了」(請參考learning theory vs machine learning)。細胞分子層面的測量很困難,測什麼,怎麼測,測了怎麼去掉bias,都需要仔細考量,舉個例子到現在ribosome profiling還是noise一片,爭議頗大。更何況如果涉及到時間維度和single cell,那測量將更加困難和難以控制。所以我非常鼓勵搞genetics的多去專研專研實驗技術,開發新的測量技術,而不是一窩蜂學點machine learning,跑跑sklearn就試圖渾水摸魚。實際上,一種新技術的開發會帶來大量的data,進而是大量的計算方法,看看ENCODE里各種xxx-seq就知道了。

扯遠了,所以在研究complex disease,或者更廣義一點,complex trait的方法里,systems biology那套很多人都很喜歡,畢竟network一上,顯得很systematic呢。我個人覺得這個方向是對的,現在都21世紀了,你再一個gene一個gene的搞,不如回家種地顯得成熟。但我想說的是,即使放在network上去看,問題也不會隨之解決。說一下我眼裡很片面的現狀,這個圈子,Ben Raphael握著hotnet(Pan-cancer network analysis identifies combinations of rare somatic mutations across pathways and protein complexes),Ernest Fraenkel守著pcsf(Integrating Proteomic, Transcriptional, and Interactome Data Reveals Hidden Components of Signaling and Regulatory Networks),Trey Ideker抱著nbs(Network-based stratification of tumor mutations),其他各種零散方法更是數不勝數,給我的感覺是,死了。systems biology太老了,方法太多了,大佬手握「寶劍」各持一方,相互看不見,但誰都做不到指哪打哪,只能做個山大王。舉個例子,感興趣的童鞋可以去試一下Trey的nbs,試試他paper之外的cancer,看看效果,必有驚喜哦。對,忘了元老Andrea Califano,也做了很多cancer里的systems biology(比如Functional characterization of somatic mutations in cancer using network-based inference of protein activity)。問題在哪呢?我也沒法準確回答。有些時候你覺得應該work,但事與願違,原因往往不在方法玩的不夠嫻熟,我更願意相信是大家對問題本身(biology)的認識和理解還欠缺,或者說缺乏足夠的prior(人們現在連regulatory region的target都不清楚,如何正確刻畫noncoding variant的effect呢?參考Kevin Yip最新的ng:Reconstruction of enhancer–target networks in 935 samples of human primary cells, tissues and cell lines),導致modeling掉在了local minimum里,這需要大的momentum衝出重圍。以我的經驗,在bio里,black-box modeling並不受人待見,往往也不work。

總的來說,我們關心的是,給定genotype,設計model來準確地預測儘可能多的phenotype,並給出是哪些variant,gene和module的貢獻最大,從而discover new biology(注意這裡面有一個circular logic)。現在別說儘可能多,一個也做不到。對,沒錯,這就是一個machine learning問題,連帶著feature selection,但deep learning在這裡就是個軟蛋啊,哈哈。


碼農參與癌症治療研究最大的困難之一是醫生的阻力。

我這有很多watson的碼農,他們吐槽和醫生開會時醫生的反彈很大,翻譯成人話就是「我是MD, 用不著你教我怎麼看病」

要不你跳過來好了。我們醫院旁邊剛給watson蓋了一幢樓。我這一年10萬過的很舒服,就是太冷。

現在計算機科學在腫瘤領域有很多應用

比方說可以用計算機讀病人組織切片結果,特別是術中冰切結果。這個應用是阻力最大的,因為病理醫生非常不高興。本來現在病理醫生就不好找工作。。

比方說可以讀cfDNA做腫瘤篩查,前幾天剛有大文章出來。

比方說類似oncomine一樣挖掘測序結果。

但是問題是研究的主導權一定是在醫生手裡的。他們壟斷著樣本。

當然你去把測序結果拖下來挖挖水文章還是沒問題的。

如果你要做薄厚的話,

Arul Chinnaiyan

Levi Garraway

Bert Vogelstein

MSKCC都是好選擇

Chinnaiyan是印度人,不過據說炒雞謙和。他們實驗室只有不到10個博後,一堆學生技術員,真的把博後當做博後用,接近博後的本意。

Garraway 做各種info,人脈也很好,最大的缺點是在danna farber,那邊極品比較多,生活也比較辛苦。

Vogelstein我覺得有點老了。

MSKCC有個IMPACT測了上萬病人的腫瘤,非常震撼。問題就是我前面說的,在醫生面前你沒有話語權。 而且在曼哈頓。


生物基因實際上可以畫成一張巨大的graph,有很多演算法問題需要解決,不過很多數據受制於實驗和臨床測定,數據精度低、準確度低,甚至有時互相矛盾,不能用一般的圖演算法解決,需要很多模糊判斷。隨便舉個例子,這是幾個腫瘤相關基因間已知的部分相互作用,僅僅是冰山一角。用我自己寫的小工具生成的。

Pathway enrichment - iProteinwww.iprotein.info圖標

而且研究基因相互作用的一個難點就是永遠很難確定宏觀檢測到的結果體現兩個基因間是的相互作用是直接還是間接的,導致很多數據的使用有極大限制。

計算機診斷(如IBM Dr Watson)也發展得很快。這就更傾向於臨床實踐的層面,而不是機理的層面了。https://www.ibm.com/watson/

以前我們實驗室招過一個數學本科、CS PhD做博後,要不你看看他的課題,也許有點啟發?http://people.unisa.edu.au/thuc.le


加州有很多小startup做這塊,不需要博後,data scientist直接做。不過它們的問題是醫院合作不夠多,數據不行。大一些的比如ibm的watson組數據可以,但是不好進,而且進去比較偏擰螺絲。

現有思路就是從生理數據測序數據影像學數據基於ML判斷有沒有癌,或者有癌判斷用什麼方案治預後最好。

認識老哥干過一陣子,後來跳去uber了,覺得意思不大。對於治病,本質上你並不是在發明新東西,只是在探索老東西的組合。

發明新東西的藥廠也招碼農,但是pay慘不忍睹而且工作非常無聊…說到這我想起來了半年前公司一個新人碼農被我丟了幾千行帶拼音的實現一個他沒聽說過的領域裡一個他沒聽說過的演算法的code讓他改寫成js什麼的做成網頁版,不知道這熊弟quit了沒…


做基礎的基因層面的有戲,做臨床相關的人群相關的不用想了,專業知識不夠,做不好的。除非讀個流行病學生物統計的學位。

而且其他答主也說了,要做臨床研究你要打交道的不是其他碼農,而是醫生(MD看不起其他行業的很正常)。所以說溝通能力也相當重要。


UIUC統計系的一個新的中國AP Ruoqing Zhu教授就做這方面的研究。一個極其聰慧善良陽光的帥哥。他人真的超棒而且特別聰明。人大附中-南大-UNC-Yale的背景。他完全沒有任何生物的background,讀的也就是數學+金工+統計三個專業。他用的方法主要是R語言做各種統計模型和機器學習,統計學習。

我github上那個R語言的project其實就是一個非常類似的問題。那個數據集合是生物信息數據(怎麼做出來的我也不知道,不關心);不過稍微換一下,他就是量化金融了。btw,生物信息學有一個最大的特點是往往數據的feature是很大的。對於學習ML和DM的朋友來說,如果熟練掌握這一塊的數據挖掘或者機器學習,必然對你整體有非常大的提升。


話說我是個做了一陣子醫學圖像分析的娃。目測這個和碼農靠的比較近,至少我是想當碼農去的。Bioinformatics我沒發過,但是審過。

基本上做的事兒就是拿各種圖片來學一下到底有沒有危險,是不是癌症,或者到哪個階段了,哦還有一類是找找有沒有分裂中的細胞或者什麼什麼細胞。廣泛一點大概叫computer aided diagnosis。。。

看你有沒有這方面的興趣?

待遇方面,原本的話是碼農的1/2差不多吧。。。不過最近因為各種國內國外互聯網公司,G這樣的,國內的BAT,都在搞,所以待遇基本持平。。。至少,拿深度學習做這些的,待遇都不差。。。

哦,補一句,有興趣有相關技能點的話咱可以私聊。。。


如果是基礎研究,以你的背景會很好找(工資呵呵)。我覺得大概率會和你想的很不一樣,因為從基礎研究translate成真正可用的東西,是非常遙遠的。

如果是靠近臨床的話,是有相關的board certificate的

http://www.abmgg.org/

我沒考過,之前研究過。最好有綠卡,最好有相關研究經驗和臨床方面的推薦信。而且生物和醫學方面的內容還是比較多,如果不是科班出身還是需要不少時間投入(科班的也一樣,只是說基礎要好一點)。

再或者葯企上游研發里的computational biologist,可以選oncology相關部門的,數據量也是非常大的,做的東西主要和藥物篩選有關,和臨床治療還是有一定距離。


1. 鄭冶楓博士最近剛進騰訊優圖實驗室,做醫學影像基礎研究去了。大致可以參考。

2. 我知道的正在做癌症研究的,微軟研究院,IBM研究院等,都有專門的組。

3. 直接進醫院不知道情況如何,好像在國內不是很容易的樣子。國外不清楚。


我覺得你如果有足夠的興趣去學習,有意願在癌症數據分析領域施展自己,是可行的。現在的你也就是使用你前十幾二十年的學習來工作而已,後面還有幾十年的學習時間呢


Bioinformatics這期刊感覺偏software多,估計題主更擅長演算法設計和實現。可以考慮去大名鼎鼎的broad institute,專業造生信輪子。

想專註癌症研究當然是去全美最頂尖的 Sloan Kettering, 去Dana Farber, UCSF也不錯。

做應用就是去一大票各色藥廠。

但上述地方除了藥廠之外,工資估計只有FLAG的一半到七成左右。慎重。


當然可以 也是很好的發展方向 但其中與臨床醫生的溝通極其重要

我見過比較完美的組合是這樣:一個純粹的臨床醫生+一個純粹的碼農+一個既懂一些臨床又懂一些數據的基礎科研大boss

臨床醫生告知疾病臨床特點 告知哪些點臨床關注 哪些研究有意義

碼農 嗯 我是臨床醫生的角色…所以說不清他具體幹了什麼 但最終會給我想要的東西

大boss負責臨床醫生和碼農之間的溝通 因為我嘗試過和碼農的直接溝通 他聽不懂我說什麼 我要聽不懂他說什麼…所以中間那個大boss的角色很重要

不論是醫工結合 還是醫x結合 雙方關注的點不同 交叉點太少 或者需要其中一方去深入了解對方的行業 不然就需要那麼一個中間人…


我在德國做癌症數據分析,有空可以一起交流;

你這個簡歷我們老闆看了絕對龍顏大悅……就是不知道DKFZ的博後在你心目中有沒有分量了……


強答一波。我覺得可行,但是沒有現成的路,需要答主自己摸索。但是潛在需求量肯定很大。

其實答主要做的cancer research,不僅僅限於clinical research,整個health science領域用得到數據技術的地方太多太多太多了,但是現在開發的太少,所以我覺得很有前景。

以至於,我一隻菜雞現在整天惡補編程和data science,為的就是將來你們這些碼農入侵的時候我的飯碗能保住啊!!!!

以上是大環境。

具體思路,不管是試驗研究,還是觀察性研究,可以用上計算機和大數據的地方很多,但是每個領域特點不一樣,需要解決的技術問題也不盡相同。臨床上大數據的應用更多的在輔助診斷和結果預測,但是臨床之外有海量的評價研究,比較研究和流行病學分析等等等等。這些學科本身存在一些方法學上的限制,與其說引入新的方法,不如說更需要有人能think out of box,能做到這些的最好就是技術背景比較好,而且對本學科的認知也比較通透的人吧。

具體應用,不了解,關注此問題也是希望能有行業大神來解答。我個人會覺得在學術機構內更容易找到合適答主的課題。Industry中更多的是start up,有興趣的話答主可以查找一下和precise medicine有關的公司,這是現在比較popular的。


解決不了任何癌症問題,但掙錢相對容易一些。

待遇的話,上海這邊精準醫療初創公司針對這種數據分析職位能開到20~30K,未來發展前景未知。題主這個背景的話應該也在這個範圍之間。大公司不了解。

不過,說到底這種數據分析還是在生物醫學領域內的,相對於互聯網的數據分析,待遇和前景肯定沒法比。我自己遇到的事情就很鬧心,拿到了一個醫學數據分析的offer,一個月之後項目被凍結,然後就沒有然後了。

建議繼續待在FLAG,別來湊這波熱鬧了。


Grail做癌症早篩可以考慮


分頁阅读: 1 2