數據挖掘專題 | TCGA數據挖掘如何入門?

在回答這個問題之前,必須要先講講TCGA

https://cancergenome.nih.gov/:

TCGA(The Cancer Genome Atlas, 癌症基因組圖譜)項目最早始於2005年,由美國政府出資,美國國家癌症研究所(National Cancer Institute)和美國人類基因組研究所(National Human Genome Research Institute)共同監督,旨在應用高通量的基因組分析技術,以幫助人們對癌症有個更好的認知,從而提高對於癌症的預防、診斷和治療能力。

TCGA是由多個組織機構和單位共同在支持和維護的項目,主要分為負責測序的GCCs(genome characterization centers)和負責生物信息分析的GDACs(genome data analysis centers),TCGA Data Flow 如下:

TCGA第一階段的測試項目,是以膠質母細胞瘤、肺癌和卵巢癌作為研究重點。其後的第二階段,計划到2014年完成20-25種不同癌型的分析,而TCGA超額完成任務,已經收錄包括10種罕見癌型在內的33種類型的癌症。

作為目前最大的癌症基因信息資料庫,TCGA的全面不僅僅體現在眾多癌型上,還體現在多組學數據,包括基因表達數據、miRNA表達數據、拷貝數變異、DNA甲基化、SNP,而相對於GEO資料庫,小編覺得TCGA最大的優勢是豐富且規範的臨床數據,以及針對每種癌型的大樣本量,簡直令人無法抗拒!

注意,TCGA現在的數據均收錄在GDC中,而GDC同時也收錄了TARGET資料庫的數據,在GDC中可以通過GDC Data Portal 和 GDC Legacy Archive 這兩種方式獲得TCGA數據,官方解釋如下:

Data in the GDC Data Portal has been harmonized using GDC Bioinformatics Pipelines whereas data in the GDC Legacy Archive is an unmodified copy of data that was previously stored in CGHub and in the TCGA Data Portal hosted by the TCGA Data Coordinating Center (DCC).

總結來說就是,GDC Data Portal 中的數據是最新經過統一標準整理的,但有些數據還未開放,而 GDC Legacy Archive 中的數據是所有未經處理的數據,更全面。

此處拋出第一個問題:什麼時候用 GDC Data Portal ,什麼時候用 GDC Legacy Archive?

默認情況下TCGA的數據檢索和下載是通過 GDC Data Portal 方式進行的,點擊首頁右上角 Launch Data Portal:

此時界面會跳轉到GDC Data Portal,如下

portal.gdc.cancer.gov/

首先映入眼帘的就是對TCGA所收錄的數據的統計,簡單直接,截至2017年8月22日最新發布 Release 8.0 中,TCGA共覆蓋人體29個組織/器官的38種癌型及其亞型,39個Projects,14551個患者,收錄的文件總數達到274724個,所研究的基因和變異數分別為22144和3115606,總之,對於癌症的研究,可以說是很巨大的資源寶庫了!

放兩個鏈接供有興趣的小夥伴參考:

wiki.nci.nih.gov/displa

en.wikipedia.org/wiki/T

現在我們要來回答今天的主要問題了:TCGA數據挖掘如何入門?

給大家推薦一個公眾號:

aHR0cDovL3dlaXhpbi5xcS5jb20vci84RHRwY2J6RWN1RU5yZmdTOTI3aQ== (二維碼自動識別)

從數據下載到數據分析一站式告訴你如何分析TCGA數據!

為了兼顧細節及大局觀,生信控將在每期文章中或多或少拋出一些問題,在後續逐漸解決問題的同時能保持一個整體的思維。

請大家搬好自己的小板凳,認真圍觀,一大波文章來襲~


推薦閱讀:

MMP家族公審案
來自癌症患者:只問深情敢勇,無問西東

TAG:腫瘤 | 生物信息學 | 資料庫 |