Biostar課程集合
01-29
- 參考
- https://mp.weixin.qq.com/mp/homepage?__biz=MzI1MjU5MjMzNA==&hid=9&sn=bd09eccd4018b9331cf80c3c990139f8&scene=18&uin=&key=&devicetype=Windows+7&version=62040525&lang=zh_CN&ascene=7&winzoom=1
- Code Repository 2014
- 不多說了,0門檻,跟著做一遍就是了,你會懂的!
- 我的筆記不值得參考,直接看原文。
- Biostar:課程1、2
- 跟著做一遍就行
- Biostar:課程3、4
- Lecture 3 - 安裝和使用Entrez Direct
- esearch -db sra -query PRJNA257197
- #*譯者註:-db是指定資料庫類型,而query是跟著你要搜索的關鍵詞。esearch -db nucleotide -query PRJNA257197這條命令的意思就是,在nucleotide這個資料庫(database,簡稱db)里用關鍵詞PRJNA257197搜索。以此類推。
- -format是指定格式,這裡指定為fasta
- esearch -db nucleotide -query PRJNA257197 | efetch -format fasta > ebola.fasta
- # 以GenBank格式獲取數據
- esearch -db nucleotide -query PRJNA257197 | efetch -format gb > ebola.gb
- Lecture 4 - 安裝和使用SRA toolkit
- # 命令prefetch 可以從遠程站點下載文件
- prefetch SRR1553610
- #*從NCBI下下來的數據,雙端測序數據是放在一個文件里的,所以需要把它們重新拆解為兩個文件。
- fastq-dump --split-files SRR1553610
- # 如何下載多個文件?創建一個含有SRR runs的文件。
- echo SRR1553608 > sra.ids
- echo SRR1553605 >> sra.ids
- # 用這個文件去prefetch對應的runs.
- prefetch --option-file sra.ids
- cat sra.ids | sed s/SRR/fastq-dump --split-files SRR/ | bash
- esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.txt
- cat runinfo.txt | cut -f 1 -d , | grep SRR > sra.ids
- https://www.ncbi.nlm.nih.gov/sra/
- Biostar課程:5、6
- Lecture 5 - 編寫可重複使用的腳本。獲取子序列。
- # 可以一次性獲取多個id下的序列。
- efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta > multi.fa
- efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta -seq_start 1 -seq_stop 10 > multi.fa
- #*這條命令獲取的是每條序列的第1-10個鹼基。
- esearch -db nucleotide -query PRJNA257197 | efetch -db nucleotide -format fasta -seq_start 1 -seq_stop 10 > starts.fa
- function esearch_ebola() { # 搜索ebola(埃博拉)的核苷酸序列。 esearch -db nucleotide -query PRJNA257197 }
- Lecture 6 - 編碼和fastq格式
- python -c print "Hello World"
- # 字元的序數(整數)
- python -c print ord("A")
- # 整數的字元(字母代碼) 。
- python -c "print chr(65)"
- time gzcat illumina-data.fq.gz > tmp
- 你也可以通過在任何一個命令前面添加time來知道運行需要的時間。這個命令用來測試計算機的總體性能也是不錯的,因為它需要快速磁碟訪問和高性能CPU。
- zcat illumina-data.fq.gz | head -10000 | grep GATCGGA --color=always | head
- Biostar:課程7、8
- Lecture 7 - 用FastQC進行質控。 講解輸出文件。
- tar cfzv mydata.tar.gz *.fastq
- tar xzvf mydata.tar.gz
- # 用 t 羅列存檔中有什麼。
- tar tf lec7.tar.gz
- Lecture 8 - 質控:基本的質量微調
- 安裝prinseq, trimmomatic 及 seqtk
- Biostar: 課程9、10
- Lecture 9 - 質控:模式匹配和接頭剪切
- cat SRR519926_1.fastq | egrep "TA(AA|CC)TA" --color=always | head
- trimmomatic SE SRR519926_1.fastq trimmed.fq ILLUMINACLIP:adapter.fa:2:30:10 SLIDINGWINDOW:4:30 TRAILING:30 ILLUMINACLIP:TruSeq3-SE.fa:2:30:5
- Lecture 10 - 比對
- #http://www.ebi.ac.uk/Tools/psa/
- Biostar: 課程11、12
- Lecture 11 - 安裝和使用Blast
- blastn -db refs/KM233118.fa -query query.fa -task blastn
- esearch -db nucleotide -query PRJNA257197 | efetch -db nucleotide -format fasta > refs/all-genomes.fa
- makeblastdb -in refs/all-genomes.fa -dbtype nucl
- efetch -db nucleotide -id KM233118 -format fasta -seq_start 1 -seq_stop 1000 > 1000.fa
- blastn -db refs/all-genomes.fa -query 1000.fa -outfmt 6
- Lecture 12 - blastdbcmd, blastp, blastx, tblastn 的用法
- esearch -db protein -query PRJNA14703 | efetch -format ft
- makeblastdb -in refs/NC_002549.fa -dbtype nucl -parse_seqids
- makeblastdb -in refs/NC_002549-prot.fa -dbtype prot -parse_seqids
- blastp -db refs/NC_002549-prot.fa -query query-p.fa
- blastx是核苷酸序列比對到蛋白資料庫
- tblastn是蛋白序列比對到核苷酸資料庫
- Biostar:課程13、14
- Lecture 13 - 安裝和使用bwa
- bwa index ~/refs/852/ebola-1999.fa
- bwa mem ~/refs/852/ebola-1999.fa query.fa > results.sam
- Lecture 14 - 了解SAM格式
- bwa mem ~/refs/852/ebola-1999.fa query.fa 1> results.sam 2> errors.txt
- Biostar:課程15、16
- Lecture 15 - BAM文件和samtools
- samtools貌似過期了
- Lecture 16 - Converting data with ReadSeq
- ReadSeq 貌似下不了
- Biostar:課程17、18
- Lecture 17 - 用awk進行簡單的編程
- cat TAIR10_GFF3_genes.gff |awk $3 == "gene"{split($9,x,";");split(x[1], y, " ");name = y[2];gsub(""", "", name); print $3, name, $5 - $4 + 1 }
- Lecture 18 - 序列比對工具的對比
- bowtie2-build ~/refs/852/NC.fa NC.fa
- Biostar:課程19、20
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484600&idx=1&sn=b41cf5685998a7f7d606d6152aa7f031&chksm=e9e02d19de97a40ff1dc9995e2b8e96f228fb439435bb4eaaaffa144a37f53525f51752545aa
- Lecture 21 - 使用samtools進行變異的calling
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484624&idx=1&sn=ee457e920755dca69896a4e0c96f65f1&chksm=e9e02d71de97a4672b9fb4618327f8234c3d7820c05e3c12aeaca3fdb581495544518805b613&mpshare=1
- Biostar:課程23、24
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484687&idx=2&sn=a7b388cb3fa31ea681f50a8eebcc3e51&chksm=e9e02caede97a5b84d89d8838470f61c7e44530eb3629cf5864855bc69071562eb0b1dd76168
- Biostar:課程25、26
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484725&idx=1&sn=a158df4dc2fbdda979200418a0c1149d&chksm=e9e02c94de97a5826e87666e1b7a5e5416f3f493b6d4945a55a593c934048a025b3d2893ed93&mpshare=1
- Biostar:課程27、28
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484739&idx=1&sn=018d1ac81eeac5a09342899dacab4e29&chksm=e9e02ce2de97a5f4ede920104f02558cf28b63325d26910721c9c5aa1d7ed5f061991573d3f2
- Biostar(大結局):課程29、30
- https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484774&idx=1&sn=cf0dd3afede44b1c95cf284cddb6dc4f&chksm=e9e02cc7de97a5d166227871396d378415fa7e9283322afbc72df48e1b786c8b216d54c5efb4&mpshare=1
推薦閱讀: