關於癌症細胞基因序列測定。癌症是天生的嗎?
01-26
題主對生物知識一竅不通,還請各位見諒。我最近偶然看到nature的一篇paper,說三分之二的人患癌症只是unlucky。前段時間又看了一篇做基因序列的paper,看到乳腺癌,結腸癌,膀胱癌基因測序的判斷準確率已經非常高了。題主是學計算機的,於是乎自己下了數據做了一個classification,還真的發現,學習之後的準確率能到百分之九十。既然基因是天生不能改變的,那麼我們可不可以說癌症很大程度上是天生的呢?謝謝!再次請各位原諒,題主完全不懂生物啊基因啊,還請各位見諒。
你做classification之前,了解生物這個領域的數據含義嗎?你用的數據集,有沒有內參、外參?實際上,基因是可以後天突變的。你光用先天基因缺陷的數據,推出主要是先天基因缺陷才導致癌症,這是不合理的。
數據挖掘領域,最重要的是數據本身的含義。
我嚴重懷疑題主的數據來源,其實是晶元的RNA表達譜數據。breast、colon和bladder數據集在一些機器學習的網站上都有收入,但來源是RNA表達,不是DNA突變之類的。這幾個數據集做的是癌症與正常人表達譜的差異,確實可以做到90%以上的準確率。所以答主可能是根據不同類型的數據,問了一個不相關的問題。
這類基於表達譜的Gene Signature要得到應用,一方面困難是取樣問題,它們的樣本來源是組織活檢,理想情況下最好是血液或者尿液、唾液這類(mRNA容易降解,所以很難在這些體液中檢出,miRNA有這個優勢)。二是必須證明這種手段優於常規的切片免疫組化形態觀察或者血清學檢驗(已經做了活檢,所以需要和這些比,因為這塊很成熟,畢竟癌症的診斷金標準就是組織活檢了,所以很難打得過),或者能提供額外的分子水平的分類證據。這幾個數據集只是個Proof of concept的東西,應用價值不大。後繼的大部分這塊的研究,篩選得到的表達譜marker,只有少數幾個達到了實用階段,即確實優於傳統檢測手段。不是,遺傳因素對大部分癌症都只是影響因素之一而已。
你給我一堆固定的數據,我可以做到100%:)過擬合嘛
二者似乎不矛盾呀,確實有一部分癌症患者是遺傳因素引起的,可以通過基因檢測及早發現自己患癌可能性,然後及早進行預防處理,安吉麗娜·朱莉不就是一個很好的例子嗎。另一方面,大多數的癌症患者是後天發生的,比如說吸煙、喝酒、病毒感染、環境污染等等,這部分人並沒有先天的癌症基因。以抽煙為例,同樣是抽煙而且沒有癌症遺傳基因的人,就可能有一部分人患癌,一部分人沒有患癌,相對來說,患癌的這部分人也沒有想到會是自己呀,也許他抽的煙比沒患癌的人還少呢,你說這算不算運氣。
我就問你一句誰告訴你基因不能改變的…
請問你看的paper是哪一篇?用的是什麼數據集?最近想做這方面的實驗
推薦閱讀:
※深度解讀我國2017年最新癌症發病率:對我們普通人到底意味著什麼?
※前列腺癌的預防、診斷及治療
※丁一醬:2016,我的抗癌攻略
※天價的諾華CAR-T療法,按療效付費,會坑到誰?
※他花了一生去研究癌症疫苗,卻換來最遺憾的諾貝爾獎,當代「普羅米修斯」燃燒一生只為點燃癌症治療的火苗