全基因組測序數據獲取後應該怎麼分析?

利用生物信息學獲取的全基因組測序的數據,怎樣進行挖掘,以獲取原創者未發現的信息並尋找生物學的意義?


你的問題我可以回答一部分,先~

全基因組測序數據獲取後應該怎麼分析

我的確拿到了自己的全基因組測序收據,已經分析了小半年了,可能還需要一兩年才能完成。

下面是:直播我的基因組分析-目錄-持續更新

【直播】我的基因組(一):直播的目的及意義

【直播】我的基因組(二):科研和臨床分析調研

【直播】我的基因組(三):抽血送樣測序

【直播】我的基因組(四):計算資源的準備

【直播】我的基因組(五):測試數據及參考基因組的準備

【直播】我的基因組(六):變異位點注釋資料庫的準備

【直播】我的基因組(七):從整體理解全基因組測序數據的變異位點

【直播】我的基因組(八):原始測序數據質量報告

【直播】我的基因組(九):拿到數據後要做的事情

【直播】我的基因組(十):測序數據質量控制

【直播】我的基因組(十一):測序數據的比對

【直播】我的基因組(十二):先粗略看看幾個基因吧

【直播】我的基因組(十三):了解sam格式比對結果

【直播】我的基因組(十四):bam文件給按照染色體給分割成小文件

【直播】我的基因組(十五):提取未比對的測序數據

【直播】我的基因組(十六):提取左右端測序數據比對到不同染色體的PE reads

【直播】我的基因組(十七):初步分析一下multiple mapping 的情況

【直播】我的基因組(十八):初步分析PCR duplication的情況

【直播】我的基因組19:根據比對結果來統計測序深度和覆蓋度

【直播】我的基因組20:覆蓋度詳細探究

【直播】我的基因組21:為什麼我算出的染色體覆蓋度與公司差異甚大

【直播】我的基因組22:用IGV查看具體某個位點是否變異

【直播】我的基因組23:對比對結果文件進行過濾

【直播】我的基因組24:用GATK對SAM格式的文件進行重排

【直播】我的基因組25:用bcftools來call variation

【直播】我的基因組26:GATK的realign對最後的結果影響到底有多大

【直播】 我的基因組27-先簡單統計一下全基因組變異情況吧

【直播】我的基因組28-必須要理解vcf格式記錄的變異位點信息

【直播】我的基因組 29:統計1000 genome hom-het ratio

【直播】我的基因組 30:使用軟體把變異分類—添加tag

【直播】我的基因組 31:vcf文件標記dbSNP的rsID號

【直播】我的基因組 32:使用annovar注釋vcf

【直播】我的基因組 33:用samstat軟體對sam文件做統計

【直播】我的基因組 34:Qualimap對比對好的bam文件進行統計及可視化

【直播】我的基因組 35:bam格式轉化為bw格式看測序深度分布

【直播】我的基因組 36:這些可能是somatic突變的位點究竟是什麼?

【直播】我的基因組 37:gwas研究結果在我身上得到了驗證

【直播】我的基因組 38:我得了艾滋病?我是暴躁狂?

【直播】我的基因組39:從bam中提取我們的原始測序數據

【直播】我的基因組 40:不同lane的bam文件的比較

【直播】我的基因組 41:按照不同的lane來call variation

【直播】我的基因組 42: 不同lane的variation的比較

【直播】我的基因組 43:簡單粗糙的WGS數據分析流程

【直播】我的基因組 44:比對文件畫profile和heatmap圖

【直播】我的基因組 45:SNV突變(6種)頻譜的製作

【直播】我的基因組46:SNV突變(96種)頻譜的製作

【直播】我的基因組47:測序深度和GC含量的關係

【直播】我的基因組48:我可能測了一個假的全基因組

【直播】我的基因組49:Y染色體的SNV不能用常規流程來找?

【直播】我的基因組50:從測序深度和位點間距來看SNV分布情況

【直播】我的基因組51:畫全基因範圍內的染色體reads覆蓋度圖

【直播】我的基因組52:X和Y染色體的同源區域探索

【直播】我的基因組53:幾個找變異的軟體的效果比較

【直播】我的基因組54:把我的variation跟dbSNP資料庫相比較

【直播】我的基因組55:簡單的PCA分析千人基因組的人群分布

【直播】我的基因組56:探索遺傳起源

【直播】我的基因組57:最簡陋的祖源分析

【直播】我的基因組58:用R包SNPRelate來對我的基因型跟hapmap計劃數據比較

【直播】我的基因組59:CNV初步探索

【直播】我的基因組61:scalpel軟體找indel

【直播】我的基因組62:用Delly檢測SV

【直播】我的基因組63:wegene晶元跟二代測序的簡單比較

【直播】我的基因組64:用gwas來預測健康風險

【直播】我的基因組65:什麼性狀一定是由單個基因簡單決定的?

【直播】我的基因組66:大多數性狀往往是多個基因控制的

【直播】我的基因組67:clinvar資料庫

【直播】我的基因組68:看看哪些基因的突變較多,哪些較少

【直播】我的基因組69:一個標準的基因檢測報告目錄

【直播】我的基因組70:比對文件並不能完美的還原出測序文件


怎麼講呢,學會提問了,問題就解決了一半。

先定義問題,問題「是什麼」,在你的認知範圍里第一時間想到什麼「關鍵詞」,google、wiki一下關鍵詞,向上和向下「衍生出來哪些內容」,然後結合你自己的「實踐」提出真正的問題。

這樣起碼你提問的時候提前「預習」了,不然總是問「應該怎麼」的問題,哪怕是別人回答好了也對你幫助不大吧。

我感覺在知乎,比較合適的問題是關於「看法」和「掉坑的經驗分享」這一類價值判斷、沒有什麼很硬的對錯的東西,而不是偏硬的「知識」。


問題太泛了。

你的實驗設計是什麼?測的什麼物種?主要期望做哪方面工作?


到淘寶上搜索「基因測序」、「數據分析」、」培訓「等關鍵詞,組合和過濾搞好了,可以找到很物美價廉的一線培訓和教材。例如這個NGS生物信息分析(封皮精裝)

最後是廣告時間(求不摺疊)。我們團隊在招生物信息人才,提供互聯網級別的工資和期權,歡迎投簡歷,具體信息參考 GeneDock 也歡迎推薦,成功入職後獎勵推薦人iPhone或DJI大疆無人機。


謝謝邀請,感覺你把整個行業的問題都問了。再加上雲計算,分散式,大數據,精準醫療是不是更high?

我覺得吧,你這是想入門。如果真心想知道或者想入門生物信息學,不如多買幾本書看一看。 @王樂珩 推薦的東西挺靠譜的。

遇到問題以後,先自己google,思考,然後去biostar碰碰運氣。絕大多數的問題都能搞定。如果還搞不定,可能是一些特別細節的問題,可以跟之前做過類似問題的人交流,提問。目前關於NGS常用的分析流程和Hi-C數據處理的問題都可以私信我~

總之,多想,多動,多做,別等著光等著知乎的答案……


你需要明確你最終要得到什麼輸出。

如果想用你現有的數據建模型進行診斷或預測,出門左拐生統和機器學習。

如果想用你現有的數據注釋新的基因,出門右拐自然語言處理與基因組組裝。

如果想用你現有的數據找疾病相關的基因/通路/網路,出門直走差異表達分析。

然而首先你得有一架跑得起來的伺服器,

其次,你得有自己看文獻、不做伸手黨的態度,

最後,如果剛開始接觸NGS,建議先從某一類數據(比如RNA-seq)入手,吃透一類前不要動其他數據,不然做出來全是type I error時你是真的會哭的。

最後的最後,希望題主明白,一個領域的入門不在知乎,你想知道的一切都應在文獻和書中尋找,不久後你就會知道,往知乎上貼code是不會有人幫你debug的,嗯。


知乎什麼時候變成百度作業幫了?後者還知道給懸賞。


Google scholar "whole genome sequencing"

不過WGS多數是找SNPs


自己查文獻,自己想,這東西問別人是要給諮詢費的,逃~


推薦閱讀:

OneSeq二代測序報價平台的推出,對國內NGS測序與生信數據分析市場會造成怎樣的影響?
當前computational biology發展如何?會有怎樣的突破?
如何評價南科大/瀚海基因推出第三代基因測序儀GenoCare?
麻煩想諮詢一個關於illumina 測序出的reads的問題?
基因測序在美國和中國都有哪些商業模式?

TAG:數據分析 | DNA測序 | 生物信息學 | 數據獲取 |