標籤:

純生物信息學的分析結果可信么?或者說現在的測序服務公司的數據分析結果是否可靠?

現在的生物信息服務都是各公司用公司自有的流程跑的,如果流程中有bug,或者軟體並不適合,那麼分析結果就很可能有問題了。

是不這樣才有了一批華大做爛的項目,客戶,小公司接手發展了。

作為客戶,他們了解這種必然么?

作為從業者,你對這種情況怎麼看呢?講個故事也好。


單純生物信息學的分析結果由於演算法、參數等原因並不可靠,所以在之後會進行實驗驗證。學校或研究機構中比較完善的生信實驗室都是兩個lab:一個負責做計算和數據分析的dry,一個負責前期樣品處理和後期實驗驗證的wet。但在生信公司中就不大一樣了。

普通業務型的生信公司一般不會有後期實驗驗證,基本就是做不來或沒有條件做測序的學校或醫院的實驗室外包給這樣的公司,然後拿到公司的測序結果再進行之後的實驗。

做診斷類的生信公司有時會和一些研究機構搭建聯合平台,因為涉及到直接給出診斷報告,所以這個類型的生信公司的pipeline會比較可靠,甚至會有同時使用多個pipeline進行交叉驗證的情況,可以避免單一演算法或pipeline的局限性。

還有一種是面向個人的基因組測序分析……嗯這個就把測出來的序列文件自己帶回家玩就行了,他們給出的分析結果看看就好。


我對公司分析的結果是這樣一個印象:他們的流程都有著非常靠譜的文獻支持,絕對是用得最多的方法。但是用得最多的方法不代表是最適合你課題的方法。他們能得出一堆看似蠻有道理的結論,但是仔細想想,好像其實就跟「該植物里沒發現HIV病毒」一樣並沒有什麼卵用……

舉個栗子:我在剛進這個新實驗室的時候,老闆拿給我一堆RNA-seq的數據,還給我一個公司分析的流程,讓我參考。我之前沒做過RNA-seq,所以一邊學一邊做。他們的流程的確很方便,直接參考他們的流程,去搜相應的文獻,你會發現他們做過的結論、用過的工具都是RNA-seq最普適的,直接學一遍他們的流程,你就對RNA-seq的很多東西了解了(當然也只能是入門,要想精通得花個好幾年的時間去理解一些細微的東西)。學完一遍我回頭研究他們的結果,卻發現,為毛他們的mapping率能有70%,而我始終只能有65%甚至只有60%?後來看了半天,才找到,他們用tophat做mapping的時候,取的mismatch是2,而我這個測序樣本跟ref的差異度大概在萬分之一左右,125x2的pair-end reads你給我設置2個mismatch實在是有點說不過去吧?更何況這個物種是一個六倍體,本身基因組的repeat程度就非常高,設置這麼高的mismatch肯定會有很多問題。於是我自己重新把結果分析了一遍……

不過,據說,如果你付非常多的錢,他們是能夠按照你的要求幫你得出具有生物學意義的結果的(假設你的課題設計沒有問題)。不過,那樣的話,個人認為,其實跟花錢買一篇文章也沒有太多的區別了……


你問的只是生物信息里高通量數據分析這一塊,額,一大塊,但並不能代表整個生物信息學科呀。

測序結果對不對,不是簡單的分析的事。

自己實驗設計不好,測出來的東西沒有毛線用,非要讓做生物信息的搞點結果出來的人,我也是呵呵。

吐槽一下之前分析的一個數據,質量那麼渣,連特么重複都不夠!害得後面驗證一個都出不來,這怪我分析得不好咯?浪費我的時間,等於謀害生命,哼!還非要讓出文章,出個大鬼頭啊出!

至於技術性的問題,別人已經談過了,演算法工具參數什麼的,不想講。

但是說真的,一個物種里的基因成千上萬,通過生物信息學的方法幫你們把範圍縮小几個數量級,幾十個,幾百個,這還不夠嗎?自己驗證去啊!這總比從整個基因組裡面刨好多了吧!還想怎樣啊!難道一定要精確到某一個基因兩個基因?讓您一做一個準嗎?那還要實驗有毛線用啊,親們?!

利益相關: 經常無償幫助實驗人員做分析還被埋怨結果不靠譜的生物信息博士生。生氣臉


顯然不啊...就像研究特定基因的時候除了blast相關係序列和結構域之類的生物信息方法外還要在體內體外進行試驗驗證...


呵呵,說對了,公司給我們做得植物結果居然有神經系統和內分泌系統,就是瞎扯。有很多參數沒法說哪個是對,自己滿意就好。盡量,不要相信公司做得標準分析。

包括華大和諾禾,他們分析確實很牛,但是,大多數小項目都享受不到。小項目都是標準流程,結果相似,且不可靠。。


修正一下答案。

測序公司的原始數據是可信的,但是結果分析不可信。需要有針對性的數據分析才可以。

純跑程序跑的結果是不完全可信的。

講個故事吧

好朋友是生信研二,前幾天他在做一個基因分析,他很鬱悶,跑程序的結果是呈上升趨勢,可是已有的文獻結果是下降的。也就是說,軟體分析的結果是錯的。

然後他開始修改。

後來結果修正對了。

但是 問題是,如果他是在分析全新的數據,那他的結果結論至關重要。但是,不排除是錯的。因為他沒有其他的結論做參照。

工科生文筆不好,諒解!


我不得不吐槽一下國內生物信息學的教學水平。就以我所為例,研二的孩子還說不清什麼叫系統發生學,構建系統發生樹有幾條思路,系統發生學和多序列比對有什麼關係的比比皆是。都念到博士了還講不清Blast和FASTA的原理到底有什麼不同的我也見過一把。而公司的分析主力恰恰就是由這一批人中的一部分組成的。其技術水平也就可見一斑了。話說某公司的技術總監曾經請教過我什麼叫混合效應模型,我聽後也真是醉了。公司的分析是絕對不用指望的。還是乖乖拿來數據自己分析吧。


推薦閱讀:

自學生物信息學,感覺學的很零散,無法形成完整的體系,應該怎麼辦?
在生物信息學領域,Python 和 Perl 誰更強大、易用、代表著未來的發展方向?
剛接觸生物信息二代測序數據分析,看文獻學軟體學語言,如何不著急?
如何理解基因富集分析以及富集的意思?
為什麼只有猿誕生了智慧,而獅子、老虎等卻只有力量這個屬性?

TAG:生物信息學 |