標籤:

生物信息學100個基礎問題 —— 第20題 SAM/BAM中的其它重要信息列

Hello大家好!今天我們又見面了!

今天我們來繼續探索SAM/BAM文件的信息列。

我們之前已經說過,1個標準的SAM文件包含前面的11列標準信息列和若干標識符信息列(如表1所示),其中前面的6列我們已經為大家解釋清楚。那麼今天我們來繼續探索剩下的7到11列。

表1 SAM格式的標準11列信息介紹

第7列,一般情況下是指Pair read的另一半的比對的參考基因組;

第8列,一般情況下是指Pair read的另一半的比對的參考基因組的坐標;

第9列,可以簡單理解為這1對read比對到基因組上以後,上游第1個鹼基到下游最後1個鹼基的距離。如果用負號表示是下游的序列;如果是正數表示為上游的序列;如果是0表示只是單端比對上;

第10列,進行比對read的序列信息;

第11列,進行比對read的質量信息;

圖1 SAM文件的截圖,包含11列

對於我們今天的簡單講解,其實還涉及到很多概念,就比如在SAM官方文檔中,對template,segment,read的各自定義就很讓人撓頭,我也是用了很長的時間才弄懂學會的。大家有興趣的可以看一下圖2我的截圖,看看裡面的定義。

圖2 SAM官方文檔中對一些概念的解釋(很讓人難懂)

那麼我們今天的問題如下:

1. 圖1中第20行,第9列記錄了TLEN值,請你根據今天的文章與圖1中的信息,列出算式計算TLEN值。

2. 如果使用FASTA文件作為input,第11列的質量值是否還有意義?為什麼?

3. 有沒有可能通過SAM文件,提取裡面的序列信息並轉換成FASTQ格式的文件?如果可能,請你寫出程序思路。


大家在看了我們的BBQ100活動以後,也不要忘了支持我們的知乎Live!

孟浩巍的知乎 Live - 生物信息學

購買任意一個上面鏈接內生物信息學的知乎Live都可以加入我們的生物信息學交流群。

目前群已經有1000多人了!謝謝大家的支持!


另外,今天說一件特別不開心的事情!

我辦了這麼多場Live,哪一場不是精心準備,3000多人次聽從來沒有差評。今天我真的有點無力吐槽了…… 可能我們真的不是一路人。

@知乎小管家 你們能不能管管???


推薦閱讀:

NCBI教程(一)獲取基因(gene)或基因產物(gene product)的功能
R語言入門2:數據結構-3
生物信息神奇網站系列(十七):Bioconductor Workflows
數據分析終極解決方案!
基因差異表達之一 - RPKM, FPKM, TPM, 傻傻分不清楚

TAG:生物信息學 |