Biostar課程集合

  • 參考
    • mp.weixin.qq.com/mp/hom
    • Code Repository 2014
  • 不多說了,0門檻,跟著做一遍就是了,你會懂的!
  • 我的筆記不值得參考,直接看原文。
  • Biostar:課程1、2
    • 跟著做一遍就行
  • Biostar:課程3、4
    • Lecture 3 - 安裝和使用Entrez Direct
      • esearch -db sra -query PRJNA257197
      • #*譯者註:-db是指定資料庫類型,而query是跟著你要搜索的關鍵詞。esearch -db nucleotide -query PRJNA257197這條命令的意思就是,在nucleotide這個資料庫(database,簡稱db)里用關鍵詞PRJNA257197搜索。以此類推。
      • -format是指定格式,這裡指定為fasta
      • esearch -db nucleotide -query PRJNA257197 | efetch -format fasta > ebola.fasta
      • # 以GenBank格式獲取數據
      • esearch -db nucleotide -query PRJNA257197 | efetch -format gb > ebola.gb
    • Lecture 4 - 安裝和使用SRA toolkit
      • # 命令prefetch 可以從遠程站點下載文件
      • prefetch SRR1553610
      • #*從NCBI下下來的數據,雙端測序數據是放在一個文件里的,所以需要把它們重新拆解為兩個文件。
      • fastq-dump --split-files SRR1553610
      • # 如何下載多個文件?創建一個含有SRR runs的文件。
      • echo SRR1553608 > sra.ids
      • echo SRR1553605 >> sra.ids
      • # 用這個文件去prefetch對應的runs.
      • prefetch --option-file sra.ids
      • cat sra.ids | sed s/SRR/fastq-dump --split-files SRR/ | bash
      • esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.txt
      • cat runinfo.txt | cut -f 1 -d , | grep SRR > sra.ids
      • ncbi.nlm.nih.gov/sra/
  • Biostar課程:5、6
    • Lecture 5 - 編寫可重複使用的腳本。獲取子序列。
      • # 可以一次性獲取多個id下的序列。
      • efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta > multi.fa
      • efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta -seq_start 1 -seq_stop 10 > multi.fa
      • #*這條命令獲取的是每條序列的第1-10個鹼基。
      • esearch -db nucleotide -query PRJNA257197 | efetch -db nucleotide -format fasta -seq_start 1 -seq_stop 10 > starts.fa
      • function esearch_ebola() { # 搜索ebola(埃博拉)的核苷酸序列。 esearch -db nucleotide -query PRJNA257197 }
    • Lecture 6 - 編碼和fastq格式
      • python -c print "Hello World"
      • # 字元的序數(整數)
      • python -c print ord("A")
      • # 整數的字元(字母代碼) 。
      • python -c "print chr(65)"
      • time gzcat illumina-data.fq.gz > tmp
        • 你也可以通過在任何一個命令前面添加time來知道運行需要的時間。這個命令用來測試計算機的總體性能也是不錯的,因為它需要快速磁碟訪問和高性能CPU。
      • zcat illumina-data.fq.gz | head -10000 | grep GATCGGA --color=always | head
  • Biostar:課程7、8
    • Lecture 7 - 用FastQC進行質控。 講解輸出文件。
      • tar cfzv mydata.tar.gz *.fastq
      • tar xzvf mydata.tar.gz
      • # 用 t 羅列存檔中有什麼。
      • tar tf lec7.tar.gz
    • Lecture 8 - 質控:基本的質量微調
      • 安裝prinseq, trimmomatic 及 seqtk
  • Biostar: 課程9、10
    • Lecture 9 - 質控:模式匹配和接頭剪切
      • cat SRR519926_1.fastq | egrep "TA(AA|CC)TA" --color=always | head
      • trimmomatic SE SRR519926_1.fastq trimmed.fq ILLUMINACLIP:adapter.fa:2:30:10 SLIDINGWINDOW:4:30 TRAILING:30 ILLUMINACLIP:TruSeq3-SE.fa:2:30:5
    • Lecture 10 - 比對
      • #ebi.ac.uk/Tools/psa/
  • Biostar: 課程11、12
    • Lecture 11 - 安裝和使用Blast
      • blastn -db refs/KM233118.fa -query query.fa -task blastn
      • esearch -db nucleotide -query PRJNA257197 | efetch -db nucleotide -format fasta > refs/all-genomes.fa
      • makeblastdb -in refs/all-genomes.fa -dbtype nucl
      • efetch -db nucleotide -id KM233118 -format fasta -seq_start 1 -seq_stop 1000 > 1000.fa
      • blastn -db refs/all-genomes.fa -query 1000.fa -outfmt 6
    • Lecture 12 - blastdbcmd, blastp, blastx, tblastn 的用法
      • esearch -db protein -query PRJNA14703 | efetch -format ft
      • makeblastdb -in refs/NC_002549.fa -dbtype nucl -parse_seqids
      • makeblastdb -in refs/NC_002549-prot.fa -dbtype prot -parse_seqids
      • blastp -db refs/NC_002549-prot.fa -query query-p.fa
      • blastx是核苷酸序列比對到蛋白資料庫
      • tblastn是蛋白序列比對到核苷酸資料庫
  • Biostar:課程13、14
    • Lecture 13 - 安裝和使用bwa
      • bwa index ~/refs/852/ebola-1999.fa
      • bwa mem ~/refs/852/ebola-1999.fa query.fa > results.sam
    • Lecture 14 - 了解SAM格式
      • bwa mem ~/refs/852/ebola-1999.fa query.fa 1> results.sam 2> errors.txt
  • Biostar:課程15、16
    • Lecture 15 - BAM文件和samtools
      • samtools貌似過期了
    • Lecture 16 - Converting data with ReadSeq
      • ReadSeq 貌似下不了
  • Biostar:課程17、18
    • Lecture 17 - 用awk進行簡單的編程
      • cat TAIR10_GFF3_genes.gff |awk $3 == "gene"{split($9,x,";");split(x[1], y, " ");name = y[2];gsub(""", "", name); print $3, name, $5 - $4 + 1 }
    • Lecture 18 - 序列比對工具的對比
      • bowtie2-build ~/refs/852/NC.fa NC.fa
  • Biostar:課程19、20
    • mp.weixin.qq.com/s?
  • Lecture 21 - 使用samtools進行變異的calling
    • mp.weixin.qq.com/s?
  • Biostar:課程23、24
    • mp.weixin.qq.com/s?
  • Biostar:課程25、26
    • mp.weixin.qq.com/s?
  • Biostar:課程27、28
    • mp.weixin.qq.com/s?
  • Biostar(大結局):課程29、30
    • mp.weixin.qq.com/s?

推薦閱讀:

做一台優秀的機器人
等離子點表徵了蛋白質的什麼特性?
【趣味模式生物】開啟諾獎之門的小昆蟲——黑腹果蠅

TAG:生物信息学 | 生物学 | 基因 |