生物信息學100個基礎問題 —— 第20題 SAM/BAM中的其它重要信息列
Hello大家好!今天我們又見面了!
今天我們來繼續探索SAM/BAM文件的信息列。
我們之前已經說過,1個標準的SAM文件包含前面的11列標準信息列和若干標識符信息列(如表1所示),其中前面的6列我們已經為大家解釋清楚。那麼今天我們來繼續探索剩下的7到11列。
第7列,一般情況下是指Pair read的另一半的比對的參考基因組;
第8列,一般情況下是指Pair read的另一半的比對的參考基因組的坐標;
第9列,可以簡單理解為這1對read比對到基因組上以後,上游第1個鹼基到下游最後1個鹼基的距離。如果用負號表示是下游的序列;如果是正數表示為上游的序列;如果是0表示只是單端比對上;
第10列,進行比對read的序列信息;
第11列,進行比對read的質量信息;
對於我們今天的簡單講解,其實還涉及到很多概念,就比如在SAM官方文檔中,對template,segment,read的各自定義就很讓人撓頭,我也是用了很長的時間才弄懂學會的。大家有興趣的可以看一下圖2我的截圖,看看裡面的定義。
那麼我們今天的問題如下:
1. 圖1中第20行,第9列記錄了TLEN值,請你根據今天的文章與圖1中的信息,列出算式計算TLEN值。
2. 如果使用FASTA文件作為input,第11列的質量值是否還有意義?為什麼?
3. 有沒有可能通過SAM文件,提取裡面的序列信息並轉換成FASTQ格式的文件?如果可能,請你寫出程序思路。
大家在看了我們的BBQ100活動以後,也不要忘了支持我們的知乎Live!
孟浩巍的知乎 Live - 生物信息學
購買任意一個上面鏈接內生物信息學的知乎Live都可以加入我們的生物信息學交流群。
目前群已經有1000多人了!謝謝大家的支持!
另外,今天說一件特別不開心的事情!
我辦了這麼多場Live,哪一場不是精心準備,3000多人次聽從來沒有差評。今天我真的有點無力吐槽了…… 可能我們真的不是一路人。
@知乎小管家 你們能不能管管???
推薦閱讀:
※NCBI教程(一)獲取基因(gene)或基因產物(gene product)的功能
※R語言入門2:數據結構-3
※生物信息神奇網站系列(十七):Bioconductor Workflows
※數據分析終極解決方案!
※基因差異表達之一 - RPKM, FPKM, TPM, 傻傻分不清楚
TAG:生物信息學 |