標籤:

生物信息神奇網站系列(十七):Bioconductor Workflows

編者按

bioconductor是R語言一種重要的項目,是專門利用R處理生物數據,類似於biopython與bioperl等,不過Bioconductor功能更加強大,不只是輔助處理一些生物數據。而是有些生物數據可以完成一整套分析內容,例如晶元數據和RNAseq數據等。Bioconductor分成獨立的軟體演算法,實驗數據,注釋三部分,這三部分可以組合起來,完成一個完整的數據分析過程,不過Bioconductor的擴展包很多,學習難度較大,不過裡面提供了很多完整的workflows,利用workflows學習起來更容易。

十七:Bioconductor Workflows

bioconductor.org/help/w

1、打開Bioconductor workflows網址,這些workflows會按照功能分成8個大類,根據自己數據分析類型,選擇對應的鏈接,例如是基因表達數據還是單細胞數據。

2、一般最常用的是基因表達,基因表達其實包括晶元和RNAseq,其實Bioconductor最早就是用來分析晶元數據的,因為R擅長處理矩陣,而晶元數據恰好就是「矩陣」。

3、我們以Gene Expression中第一個workflow為例,這個是利用Deseq2包來分析RNAseq數據的例子,點開之後其實是一遍文獻,這是這種workflow另一個顯著的特點,它本身是一篇文獻,也是包含腳本數據和講解的技術文檔。

4、可以照著腳本文檔介紹一步步進行操作,完成整個分析流程,文檔非常詳盡。

5、完成前面操作,第六步只需一條命令即可進行RNAseq差異表達基因的分析。

6、同樣workflows中也包含很多數據可視化的案例

7、同樣也包含了基因注釋部分,注釋也是Bioconductor包三大分類中重要一項。

8、每個案例最後會給出本workflows所使用的工具以及版本,方面進行重複試驗。順便吐槽一下,使用Bioconductor一個討厭的地方就是擴展包之間千絲萬縷的聯繫。


推薦閱讀:

生物信息實用R語言筆記1-軟體安裝與設置
生信分析平台搭建(十六):CentOS
R語言入門5:數據變形-Tidyr
【好書分享】生信技能學習指南
PCR duplicates in NGS - I

TAG:生物信息學 |