如何進行R-ChIP數據分析之準備篇
來自專欄生物科研
這應該是全網能搜索到的第一篇介紹R-ChIP數據分析的中文教程。
寫這篇文章的目的是想通過重複別人文章的分析提高下自己的分析水平。本篇教程所用代碼更新在我的GitHub上,地址為https://github.com/xuzhougeng/R-ChIP-data-analysis
教程會對第一篇介紹R-ChIP技術文章"R-ChIP Using Inactive RNase H Reveals Dynamic Coupling of R-loops with Transcriptional Pausing at Gene Promoters"里的所有分析進行重複。
選擇這篇文章進行重複的理由有三點:
一:最近要探索R-loop數據分析流程
二:這篇文章的通訊作者是大牛,Xiang-Dong Fu
三:這篇文章將分析所用代碼都託管在https://github.com/Jia-Yu-Chen
背景知識
高通量數據分析其中在流程上大同小異,大多數會跑流程卻不知道如何分析的人,更多缺乏的是生物學基礎。在閱讀文獻後,我整理下幾個我覺得和後續數據分析有關的幾個知識點:
- R-loop是一種RNA/DNA三鏈結構體,與基因組穩定性和轉錄調控有關。
- 通過電鏡觀察,R-loop大小在150~500bp之間。
- 硫酸氫鹽測序(bisulfate sequencing)表明R-loop主要出現在基因啟動子的下游。
- R-loop所在非模板鏈(又稱編碼鏈)具有很強的序列偏好性,計算方式為(G-C)/(G+C)
R-loop的高通量分析方法目前都是依賴於S9.6抗體捕獲RNA/DNA雜合體,然後超聲打斷或酶切,如果後續對DNA進行測序,那就是DRIP-seq(DNA:RNA immunoprecipitation [DRIP] sequencing),如果後續對RNA逆轉成的cDNA繼續測序,那就是 [DRIPc]-seq(DNA:RNA immunoprecipitation followed by cDNA conversion)。 然而酶切的解析度不夠,超聲又容易破壞脆弱的R-loop結構,於是就導致目前很多文獻報道有矛盾。
這篇文章就開發了一種新方法,基於RNase H的體內R-loop譜檢測策略。作者構建一種沒有催化活性的RNASE H1(原始的RNase H會同時靶向和基因組和線粒體基因組,因此在N端加上了NLS用於定位,在C端加上V5標籤用於IP ),RNASEH1與RNA/DNA結合,超聲打碎,用anti-V5抗體進行染色體免疫共沉澱(ChIP)。隨後RNA/DNA雜合體轉換成雙鏈DNA(ds-DNA), 之後便是鏈特異性測序。
關於鏈特異性測序,推薦拜讀鏈特異性測序那點事
「和普通的RNAseq不同,鏈特異性測序可以保留最初產生RNA的方向」
文章的分析內容
後續的分析部分會嘗試完成文章中出現的分析。
證明R-ChIP方法的效率和可靠度
- 找到D210N特異而WKKD非特異的基因
- peak的正負鏈比對情況
序列偏好性和基因組分布
- 比較narrow Peak和broad peak的peak大小(boxplot)
- broad peak是否包含narrow peak(韋恩圖),且一方特異的peak的信號值也弱
- G/C skew, 統計距離summit的ATCG比例,統計背景和R-loop相比,G二聚體、G-三聚體、G四聚體..的出現比例
- G-rich 在非模板鏈出現次樹顯著增加
- peak在基因組上的分布(promoter proximal regions, +- Kb from TSS). 比較不同基因不同部分的差異
與S9.6的R-loop結果系統性比較(基於K562 cells)
- 比較DRIP-seq和R-ChIP的peak大小
- 看兩者的peak的overlap
- 在JUN座位上的R-ChIP, DRIP-seq, DNase, H3K4me1, H3K4me2,H3K4me3, H3K27ac
準備分析環境
軟體部分
文章中"Software and Algorithms"這部分列出了分析主要所用的軟體,加上下載SRA數據所需工具和一些常用軟體,一共要安裝的軟體如下:
- SRA Toolkit: 數據下載工具
- Bowtie2: 比對工具
- SAMtools: SAM格式處理工具
- BEDtools: BED格式處理工具
- MACS2: 比對後找peak
- R: 統計作圖
- Ngsplot: 可視化工具
- Deeptools: BAM文件分析工具, 可作圖。
軟體安裝部分此處不介紹,畢竟如果你連軟體安裝都有困難,那你應該需要先學點Linux基礎,或者去看生信必修課之軟體安裝
分析項目搭建
使用 mkdir
創建項目文件夾,用於存放後續分析的所用到的數據、中間文件和結果
mkdir -p r-chip/{analysis/0-raw-data,index,scripts,results}
個人習慣,在項目根目錄下創建了四個文件夾
- analysis: 存放原始數據、中間文件
- index: 存放比對軟體索引
- scripts: 存放分析中用到的腳本
- results: 存放可用於放在文章中的結果
後續所有的操作都默認在 r-chip
下進行,除非特別說明。
數據下載
根據文章提供的GEO編號(GEO: GSE97072)在NCBI上檢索, 按照如下步驟獲取該編號下所有數據的元信息, 我將其重命名為"download_table.txt"然後上傳到伺服器 。
微信不支持過大的GIF圖,想看GIF去我的簡書
然後在 scripts
下新建一個腳本 01.sra_download.sh
#!/bin/bash
sra_files=${1?missing input file}
sra_ids=$(egrep -o SRR[0-9]{5,9} $sra_files)
mkdir -p analysis/log
for id in $sra_ids
do
prefetch $id >> analysis/log/download.log
done
在項目根目錄下運行 bash scritps/01.sra_download.sh ownload_table.txt
下載的數據默認情況下存放在 ~/ncbi/public/sra
, 需要用 fastq-dump
解壓縮到 analysis/0-raw-data
. fastq-dump
的使用說明見Fastq-dump: 一個神奇的軟體
新建一個腳本,叫做 02.sra_uncompress.sh
,存放在 scripts
文件下,代碼如下
#!/bin/bash
file_in=${1?missing input file}
SRR_IDS=$( egrep -o SRR[0-9]{5,9} ${file_in})
OUT_DIR="analysis/0-raw-data"
mkdir -p ${OUT_DIR}
for id in $SRR_IDS
do
echo "fastq-dump --gzip --split-3 --defline-qual + --defline-seq @$ac-$si/$ri $id -O ${OUT_DIR} &"
| bash
done
然後用 bash02.sra_uncompress.sh download_table.txt
運行。
如果空間不夠用,可以用
egrep-oSRR[0-9]{5,9}download_table.txt|xargs-i rm~/ncbi/public/sra/{}.sra
刪除SRR數據。
注意:這是單端測序,所以每個SRR只會解壓縮出一個文件
此外還需要下載human genome (hg19)的bowtie2索引,用於後續bowtie2比對。
curl -s ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/hg19.zip -o index/hg19.zip &
cd index
unzip hg19.zip
從索引提取每條染色體的長度
bowtie2-inspect -s index/hg19 | cut -f 2,3
| grep ^chr
> index/hg19.chrom.sizes
來源
:生信媛
ps:如有侵權,請聯繫小編進行刪除。
推薦閱讀:
※人真的會傷心到死掉,而記憶也能隨心臟被移植?
※不要空腹吃荔枝,尤其是孩子,可能會致命!
※了解這些先進的試管技術後,無精也不會害怕無後啦
※ABO官網:ABO將用戶隱私安全保護到底
TAG:生物學 |