網上的生物信息學資源都有哪些?
包括各種資料庫、軟體等等
蟹妖。
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和準確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標準化比對,並基於這個東西搞了個物種分類工具。
EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。
SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點複雜。
fastx toolkit:用來操縱高通量測序序列的工具包。
這種東西浩如煙海。想到了再補充。
最後幾個廣告,我搞的一些工具:HTQC:類似fastx toolkit,設計不太一樣。實際上,如果當初知道有fastx toolkit,也許我就不搞這個了。。。
TCRklass:專門用於分析TCR高通量測序的工具,至少在我發Paper的時候,比所有的已有程序的準確性都要好。
GenoEye:基因組元件繪圖庫,用C++搞的,提供了Perl介面,用Cairo做繪圖底層。
謝邀。
資源太多了,你要做的是針對自己的研究課題,查文獻/Google,看別人用的是什麼工具/數據。所以我下面要談的也只是我自己用到過的而已。另外Unix/Linux和Perl/BioPerl,R/BioConductor之類的更都是現用現查的,這裡就不提了。1.綜合性資料庫 - 幾乎每天都要用的
- NCBI
- PubMed- 什麼?你不讀文獻?
- GenBank - 所有生物序列都"應該"提交到這裡。只是"應該",是因為高通量測序的發展讓這個事情不太現實,就有了下面的SRA幹了部分的活。
- GEO (Gene Expression Omnibus / SRA (Short Read Archive) - GEO最初建立主要是用於收集microarray數據的。近來以 RNAseq 為首的各類 *seq 高通量數據大舉進佔。原本專門建立來存儲這些數據的SRA反倒成了GEO的附屬。任何有點象樣的基因組數據的文章,都應該有GEO Accession Number的"GSExxxx"字樣。
- BLAST - 學過生物信息的沒有不知道這個的吧。新拿到的序列是什麼,直接來BLAST一下。設計了引物想看有沒有非特異擴增,也是一個好去處。
- dbSNP / HapMap(不是NCBI的,但跟dbSNP關係密切) - 收集單核甘酸多態,和其他小範圍核苷酸的變異/多態的資料庫。它們是用來做連鎖分析/關聯分析的理想遺傳標記。
- OMIM - 人類基因與遺傳疾病的關係。
- EBI - 用的比較多的就只是Pfam(蛋白質家族)。其他不熟悉,就不細說了。
2.Genome Browser - 收集各類基因組範圍數據的地方
- UCSC - 老資格的Genome Browser,加上很多小工具(BLAT,bedtools)能讓人比較方便地利用它的基因組數據,或在它的框架下可視化。值得一提的是全站慣用的0-based start coordinate應該坑過不少人,千萬要小心。
- EnsEMBL (包括EnsEMBL Bacteria / EnsEMBL Fungi / Gramene,還有BioMart勉強也算吧) - 以轉錄本(Transcript)為中心的基因組資料庫。是BioPerl的創始人Ewan Birney搞起來的,自然API非常完善,想把整個資料庫搬到自己機子上也非常容易(只要硬碟夠大)。近來數據類型越來越多,搞得有點臃腫了,反而不如UCSC簡潔。
3.衡量/比較不同生物信息學軟體的表現 - 不服跑個分? 題外話,大家似乎不太熱衷這個,理由大概是不同工具的優勢不一樣,用同一組數據來跑分有失公允。姑勿論這個原因有沒有道理,至少說明用戶選用不同的工具應該優先考慮要研究的生物學問題,跑分只能做部分參考。
- GAGE (Genome Assembly Gold-standard Evaluations) - 高通量測序結果用於組裝基因組,看誰組裝出來的更正確。
- CASP (Critical Assessment of Protein Structure Prediction) / CAFASP - 誰預測蛋白質結構更准?
- CAPRI (Critical Assessment of PRediction of Interactions) - 預測蛋白質相互作用/結合,哪家強?
- CAGI (Critical Assessment of Genome Interpretation) - 預測基因組上的變異會對生物的表型產生什麼影響,看誰的預測更准。
- BAliBASE / BRAliBase - 多序列聯配(Multiple Sequence Alignment)的準確性
- DREAM challenges (http://dreamchallenges.org/) - 多種不同生物信息學任務的比拼,吸引我注意的是比賽預測選擇性剪接(Alternative Splicing)的那次。
- http://lh3lh3.users.sourceforge.net/alnROC.shtml - 各種把高通量測序結果比對到基因組上的工具的準確率比較(ROC curve)。雖然我相信他沒有 bias,但是必須指出參賽者之一的Heng Li也是裁判。
4.模式生物的專門門戶 - (這個頁面的list更全:Generic Model Organism Database)
- PortEco - 大腸桿菌
- SGD - 酵母
- WormBase - 線蟲
- FlyBase - 果蠅
- ZFIN - 斑馬魚
- MGI - 小鼠
- XenBase - 非洲爪蟾
5.各種Ontology/Pathway - 能讓計算機讀懂生物數據的「字典」
- GO(Gene Ontology) - 都知道吧。
- BioCarta - 信號通路比較多。不過是公司做的,免費版數據舊且難用,幸好BioConductor的一些包裡面有現成整理好的(舊)數據。
- KEGG - 代謝通路比較多。
- Panther (PANTHER - Gene List Analysis) - 後起之秀,通路和GO都有。
- DAVID (DAVID Functional Annotation Bioinformatics Microarray Analysis) - 根據上面列的這些資料庫,進行生物信息挖掘。
- OBO (The Open Biological and Biomedical Ontologies) - 一個比較全的Ontology數據集列表。
- Pathguide (Pathguide: the pathway resource list) - 一個比較全的Pathway數據集列表。
6.其他 - 只是個人感興趣,沒經過系統整理的東西
- BioNumbers - 想建個數學模型描述生命活動,來這裡找參數就對了。對建立所謂的Biological sense非常有用——比如:線粒體究竟體積有多大?一個細胞裡面有多少個mRNA啊?一個核糖體每秒能搞定多少個密碼子啊?
- 進化相關
- Phylogeny Programs - 群體遺傳學軟體/工具列表。
- Inparanoid - 比較全的同源基因關係數據集。
- Open Tree of Life - 物種進化樹。
- TimeTree :: The Timescale of Life - 進化樹的時間尺度。
- GWAS Catalog - 已發表的全基因組關聯分析(GWAS,Genome-Wide Association Study)列表。
- miRNA相關
- miRBase - miRNA "官方"列表。
- miRWalk2.0: a comprehensive atlas of predicted and validated miRNA-target interactions - 預測及已驗證的靶標。
好吧,想當初我在生物信息學領域還是一個小白的時候,我也曾像題主這樣尋求過網上資源。
首先回答軟體方面,我也曾問過帶我的博士:為什麼想用一個軟體,找半天都只有作者自己寫的簡略的英文readme,每次都要自己摸索老半天,都沒有其他人分享的實際軟體使用體驗,像百度經驗那樣親民就最好了。但事實上的確沒有,因為生物信息學領域的各種軟體更新太快,像blast系列,bowtie,tophat等軟體,更新之後用法完全不一樣,教程也得更新,像bwa,samtools等更新功能的,教程一般也沒人及時更新,還不如自己看作者的readme,慢慢探索咯。生物信息學常見領域,如基因組,外顯子組,轉錄組,等都有人專門收集軟體集,比如:最全面的轉錄組研究軟體收集 還有NGS數據比對工具持續收集 ,當然我這也是轉載的國外的,一般來說,你想學軟體,學會五六十個就差不多了,看看各個領域的關鍵詞排名最高的綜述一般都會講的很全,任何一個軟體說穿了就是準備好輸入文件,配置好參數,然後解析它的輸出文件。等你用到一定程度,很容易總結出規則,以後用任何軟體都不需要再看中文的介紹了,直接就用,錯了就Google,非常好使~!
那麼,再來說說資料庫吧,這個實在是數不勝數了,http://www.genecards.org/cgi-bin/carddisp.pl?gene=ALB 你進入這個頁面,看到裡面的所以鏈接都是一個資料庫, 先不說基因的特徵,僅僅是對一個基因進行命名就有一百多個國際組織搞些不同的名字,有的把TP53叫做7157(entrez ID),有的把它叫做ENSG00000141510(ensembl ID),其它好多ID我都叫不上名字,但是你記住出名的那幾個就好了,所以你必須熟悉非常出名的那幾個資料庫,就是NCBI,ensembl,UCSC,其它的資料庫主要是為了解釋生物大分子的,也有跟疾病特異性資料庫(比如:糖尿病),還有物種特異性資料庫(大多數模式生物都有),但是除非你特定的要研究某個領域,否則你很難接觸那麼多資料庫,一般也就是幾個實驗室自己在維護。
接下來是重點啦!
網上的學習資源:
先說點中文的,畢竟一般人也只有精力看這個了,首推就是北大的公開課啦(MOOC課程_生物信息學: 導論與方法),然後你可以看看葯明康德的陳巍學基因(優酷網-中國第一視頻網,提供視頻播放,視頻發布,視頻搜索) 了解一些測序常識,接著你可以看看測序中國的一個公開課,最後你還可以關注很多生物信息學的微信公眾號(這個非常重要,因為他們為了吸引關注,通常會放出很多乾貨!!!)
好了,接下來說重點,畢竟國內生物信息學起步很晚,所以網上資源肯定大多數英文的!
首推賓夕法尼亞州立大學-新一代測序技術數據分析-英語-生信課件加優酷視頻
然後是德國自由大學生物信息學,課件可以自行下載
接著是美國明尼蘇達大學生信課件,可以下載
還有NHGRI Current Topics in Genome Analysis 2014裡面幾百個ppt關於生物信息學研究熱點
還有斯坦福大學-計算生物學-2011課程ppt,它專門課程專門把生物信息分成了6個topic,推薦了一百多篇文獻閱讀,均可下載!(用wget批量下載需要認證的網頁或者ftp站點裡面的pdf文檔),還有一個斯坦福大學-遺傳生物信息課程-2009也很不錯
還可以關注很多國外的生物信息學會議,影響很大的那種,一般都會公開ppt,都是很牛的導師在講(幾個國外出名的跟生物信息學相關的會議)
也可以關注一些生物信息學出名的講師(推薦5個生物信息學領域的教授)
安德森癌症研究中心有一個晶元數據課程,也挺好的-anderson-基因晶元課程
還有二十多個生物信息學課程(都是各個大學的,比如MIT什麼的,我自己都沒看,就不推薦給你啦!)
暈,本來準備把我寫的生物信息學資源持續收集通過有道雲筆記分享給你的,結果!!!!!!!居然不小心給刪除了,唉,真倒霉,幾百個資源就那麼沒了!
反正我也是成長的過程中隨便收集的,我相信你學習的過程中也能收集到很多好資料的,希望你也可以分享給後來者,讓他們少走彎路!O(∩_∩)O謝謝
來個詳細的啊
蛋白質組學及蛋白質鑒定常用的網站和資料庫
蛋白質資料庫
1.UniProt (The Universal Protein Resource)
網址:http://www.uniprot.org/
http://www.ebi.ac.uk/uniprot/
簡介:由EBI(歐洲生物信息研究所)、PIR(蛋白信息資源)和SIB(瑞士生物信息研究所)合作建立而成,提供詳細的蛋白質序列、功能信息,如蛋白質功能描述、結構域結構、轉錄後修飾、修飾位點、變異度、二級結構、三級結構等,同時提供其他資料庫,包括序列資料庫、三維結構資料庫、2-D凝聚電泳資料庫、蛋白質家族資料庫的相應鏈接。
2.PIR(Protein Information Resource)
網址:http://pir.georgetown.edu/
簡介:致力於提供及時的、高質量、最廣泛的注釋,其下的資料庫有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,與90多個生物資料庫(蛋白家族、蛋白質功能、蛋白質網路、蛋白質互作、基因組等資料庫)存在著交叉應用。
3.BRENDA(enzyme database)
網址:http://www.brenda-enzymes.org
簡介:酶資料庫,提供酶的分類、命名法、生化反應、專一性、結構、細胞定位、提取方法、文獻、應用與改造及相關疾病的數據。
4.CORUM(collection of experimentally verified mammalian protein complexes)
網址:http://mips.gsf.de/genre/proj/corum/index.html
簡介:哺乳動物蛋白複合物資料庫,提供的數據包括蛋白複合物名稱、亞基、功能、相關文獻等
5.CyBase(cyclic protein database)
網址:http://research1t.imb.uq.edu.au/cybase
簡介:環狀蛋白資料庫,提供環狀蛋白的序列、結構等數據,提供環化蛋白預測服務。
6.DB-PABP
網址:http://pabp.bcf.ku.edu/DB_PABP/
簡介:聚陰離子結合蛋白資料庫。聚陰離子結合蛋白與聚陰離子的互作在胞內定位、運輸、蛋白質摺疊等生命過程中起重要作用,此外許多與神經衰退疾病相關的蛋白質均為聚陰離子結合蛋白。該資料庫提供已被鑒定的聚陰離子結合蛋白的數據,與NCBI蛋白資料庫存在交叉應用。
7.IUPHAR-DB
網址:http://www.iuphar-db.org
簡介:G蛋白偶聯受體、離子通道資料庫。提供這些蛋白的基因、功能、結構、配體、表達圖譜、信號轉導機制、多樣性等數據。
8.GLIDA
網址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/
簡介:G蛋白偶聯受體-配體資料庫,提供G蛋白偶聯受體-配體互作數據、配體數據、G蛋白偶聯受體數據、同源受體關係網、保守識別區,為新葯發現提供了支持。
9.LOCATE
網址:http://locate.imb.uq.edu.au/
簡介:哺乳動物蛋白質亞細胞定位資料庫
10.InterPro
網址:http://www.ebi.ac.uk/interpro/
簡介:蛋白質綜合資料庫,從大量的資料庫中整合而成的包括蛋白質結構域、蛋白質家族、功能位點等信息的資料庫。
11.OKCAM
網址:http://okcam.cbi.pku.edu.cn
簡介:人體細胞粘附分子資料庫。
蛋白質組資料庫
1.GELBANK
網址:http://gelbank.anl.gov
簡介:提供全基因組的二維凝膠電泳圖譜,搜集了已知基因組信息生物的蛋白質組二維凝膠電泳圖。可通過描述相對分子質量、等電點和蛋白質序列信息進行快速檢索。
2.SWISS-2DPAGE
網址:http://www.expasy.org/ch2d/
簡介:提供人類、小鼠、大腸桿菌、釀酒酵母、盤基網柄菌的2D-PAGE參考圖。
3.SysPIMP(Systematical Platform for Identifying Mutated Proteins)
網址:http://pimp.starflr.info/
簡介:通過質譜技術建立的蛋白質突變資料庫。當蛋白質某一氨基酸殘基發生改變時,其質譜圖也會發生改變,通過蛋白質質譜圖的改變,檢測與疾病相關的突變。
4.Sys-BodyFluid
網址:http://www.biosino.org/bodyfluid/
簡介:人體體液蛋白組研究資料庫。提供人體各種體液的蛋白質組數據,包括血漿/血清、尿液、乳汁、淚、汗液、唾液、骨髓液、腦脊液、胃液等。
5.BloodExpress
網址:http://hscl.cimr.cam.ac.uk/bloodexpress/
簡介:小鼠造血過程基因表達資料庫
6.CentrosomeDB(human centrosomal proteins database)
網址:http://centrosome.dacya.ucm.es
簡介:人體中心體蛋白資料庫
7.ConsensusPathDB
網址:http://cpdb.molgen.mpg.de
簡介:人類功能作用網路資料庫,與多個資料庫有交叉應用,提供蛋白質互作、生化反應、基因調控等作用網數據。
8.Proteome Analysis Database
網址:http://www.ebiac.uk.proteome/
簡介:蛋白質組分析資料庫
9.HPRD(Human Protein Reference Database)
網址:http://www.hprd.org/
簡介:人體蛋白文獻資料庫
10.NOPdb
網址:http://www.lamondlab.com/NOPdb3.0/
簡介:核仁蛋白組資料庫
11.EndoNet
網址:http://endonet.bioinf.med.uni-goettingen.de/
簡介:細胞通訊網路資料庫,提供激素、激素受體相關信息
蛋白質互作、蛋白質網路資料庫
1.3DID(3D interacting domains)
網址:http://3did.irbbarcelona.org
http://gatealoy.pcb.ub.es/3did/
簡介:搜集3D結構已知的蛋白質的互作信息,可通過結構域名稱、基序名稱、蛋白質序列、GO編碼、PDB ID、Pfam編碼進行檢索。
2.DOMINE
網址:http://domine.utdallas.edu
簡介:結構域互作資料庫。
3.PiSite(Database of Protein interaction sites)
網址:http://pisite.hgc.jp
簡介:以PDB為基礎,在蛋白質序列中搜尋互作位點。
4.Binding MOAD
網址:http://www.BindingMOAD.org
簡介:致力於提供蛋白質-配體晶體結構數據信息。提供結構已知的蛋白質的相關配體,並附有詳細注釋,同時提供由實驗而得的親和力數據。
5.Phospho.ELM
網址:http://phospho.elm.eu.org
簡介:蛋白質磷酸化位點資料庫
6.SuperSite
網址:http://bioinformatics.charite.de/supersite
簡介:蛋白質中代謝物、藥物結合位點資料庫,提供結合機制、識別機制、保守結合位點等信息。
7.STITCH
網址:http://stitch.embl.de/
簡介:蛋白質-化合物作用網資料庫
8.Reactome
網址:http://www.reactome.org
簡介:人體生命活動路徑與過程資料庫,提供生化過程網路圖,並對參與其中的蛋白質分子有詳細註解,與其他資料庫如UniPort、KEGG、OMIM等建立了廣泛的交叉應用。
9.PID(Pathway Interaction Database)
網址:http://pid.nci.nih.gov
簡介:由NCI和Nature共同創立,提供已知的人體細胞信號轉導、調節活動及主要細胞生命過的蛋白質路徑網,可通過輸入某個分子名或代謝過程名稱進行查詢。
10.UniHI(Unified Human Interactome database)
網址:http://www.unihi.org
簡介:人體蛋白-蛋白相互作用資料庫,可根據蛋白質名稱、代謝路徑等進行查詢。
11.VirHostNet
網址:http://pbildb1.univ-lyon1.fr/virhostnet/index.php
簡介:病毒-宿主分子互作網資料庫,提供病毒-宿主蛋白質互作信息及這些蛋白質的相關注釋。可通過輸入基因、蛋白質、路徑等關鍵詞進行查詢。
12.Bionemo(molecular information on biodegradation metabolism)
網址:http://bionemo.bioinfo.cnio.es
簡介:搜集與生物降解代謝相關的蛋白質、基因數據,包括蛋白質序列、結構域、結構;基因序列、調控元件、轉錄單元等信息。除此之外還包括生物降解的代謝路徑圖、相關生化反應等。
13.PMAP
網址:http://www.proteolysis.org
簡介:蛋白質水解路徑資料庫
蛋白質三維結構資料庫
1.PDB(Protein Data Bank)
網址:http://www.rcsb.org/pdb
簡介:生物大分子結構資料庫,提供蛋白質、核酸等生物大分子的三維結構數據、序列詳細信息、生化性質等。
2. SARST (Structural similarity search Aided by Ramachandran Sequential Transformation)
網址:http://sarst.life.nthu.edu.tw/
簡介:高效的蛋白質結構比對資料庫
蛋白質基序資料庫
1. CDD(Conserved Domain Database)
網址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
簡介:蛋白質的功能與其結構密切相關,一個蛋白質的保守結構域在一定程度上體現了該蛋白質的功能。CDD,蛋白質保守結構域資料庫,收集了大量保守結構域序列信息和蛋白質序列信息。檢索者通過CD-Search服務,可獲得蛋白質序列中所含的保守結構域信息,從而分析、預測該蛋白質的功能。
2.Blocks
網址:http://blocks.fhcrc.org
簡介:蛋白家族保守區對比資料庫
3.CPDB(database of circular permutation in proteins)
網址:http://sarst.life.nthu.edu.tw/cpdb
簡介:蛋白質環形序列重組基序資料庫。蛋白質的環形序列重組(Circular permutation, or CP)可看作是原來的N與C端被接在一起,然後在另一處產生新開口。 雖然當前已有很多知名的蛋白質家族被發現有CP成員,而且也有研究指出蛋白質結構資料庫中可能存在著不少CP實例,高效率的CP搜尋工具卻很罕見。CPSARST提供了一套有效的CP搜尋工具。
4.MegaMotifbase
網址:http://caps.ncbs.res.in/MegaMotifbase/index.html
簡介:蛋白質基序家族、超家族資料庫,提供已知基序的3D定點陣圖、轉角距等數據。
5.Minimotif Miner
網址:http://mnm.engr.uconn.edu
簡介:蛋白質基序檢測資料庫,提供在蛋白質序列中尋找基序的服務。
6.Pfam
網址:http://www.sanger.ac.uk/Software/Pfam
簡介:提供多序列比對服務和並提供共同的蛋白質結構域的隱馬爾可夫模型。
預測類數據
1.InterPreTS(Interaction Prediction through Tertiary Structure)
網址:http://www.russell.embl.de/cgi-bin/interprets2
簡介:提供通過三級結構預測蛋白質相互作用的服務,可輸入兩個蛋白質的序列信息進行查詢。
2.Predictome
網址:http://predictome.bu.edu
簡介:預測蛋白質間功能關係的資料庫。這些蛋白質間的關係是基於將3種計算機預測法,即染色體相鄰法、系統發育譜法、結構域融合法應用與44個基因組上而得到的。
蛋白鑒定類資料庫
1. Contaminants
當我們搜索單一物種分類資料庫時,記得養成一個好習慣,就是同時選擇Contaminants資料庫進行匹配,因為污染總是很難避免的!這類資料庫中包含常見的污染蛋白如keratins、BSA和 trypsin,幫助我們把需要鑒定的目標蛋白與實驗中污染進來的蛋白進行區分。目前有兩個組織提供此類資料庫下載:
Max Planck Institute of Biochemistry, Martinsried,提供了一套來自多種來源,含有247個蛋白的資料庫。
下載方式:
http://maxquant.org/contaminants.zip
Tips:不要在網頁瀏覽器里打開哦,因為很可能會顯示網址無效,直接找個下載工具下載即可,比如把鏈接拷到QQ里,啟動QQ旋風下載助手就可以下載了。
Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116個來自於Swiss-Prot的污染蛋白庫 。
下載方式:http://ftp.thegpm.org/fasta/cRAP/crap.fasta
2. EMBL EST
由EMBL維護的EST Fasta 資料庫,」single-pass」 cDNA 序列,或表達序列標籤 Expressed Sequence Tags。該資料庫包含十個分類:1)ENV: Environmental Samples; 2)FUN: Fungi;3)HUM: Human;4)INV: Invertebrates;5)MAM: Other Mammals;6)MUS: Musmusculus;7)PLN: Plants;8)PRO: Prokaryotes;9)ROD: Rodents;10)VRT: Other Vertebrates下載方式:單一分類的Fasta文件可以從EBI FTP 伺服器上下載。比如FTP上嚙齒類動物序列庫的壓縮文件名就是: em_rel_est_rod.gz,而真菌的是em_rel_est_fun.gz。物種分類:一些比較友好的商業軟體,比如Mascot,會將所有分類信息在後台進行自動更新下載。如果你用的軟體沒有這個功能,那就要手動下載,然後根據軟體的操作要求,比如解壓縮到某個Taxonomy子目錄。
FASTA文件庫 ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz
物種分類信息 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
Unigene索引:NCBI的 UniGene的索引由GenBank序列自動分割成非冗餘的以基因為單位的簇。如果使用UniGene索引,EST資料庫的搜庫結果會按照基因家族進行分類,而不會僅僅以原始的EST索引號展示。
3. NCBI EST
大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三個不同的 EST 資料庫,同樣也包含GenBank EST庫中的」single-pass」 cDNA 序列,或 Expressed Sequence Tags。三個 EST 資料庫分別是: human、mouse和 others。目前的版本,壓縮過的EST_others 文件有11GB大小,而解壓後有40 GB。小夥伴們需要注意,像這麼大的資料庫,32位操作系統是無法處理的,而必須使用64位系統配合足夠大的內存。NCBI目前依然沒有計劃分割EST_others資料庫,因此小編覺得比較實用的還是EMBL EST庫。下載方式:訪問 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz或對應的其他名稱下載相應的資料庫。物種分類:以Mascot為例,對於 EST_others,在資料庫配置時選擇 「dbEST FASTA using GI2TAXID」。Mascot需要更新以下文件來構建索引,如果手動下載,同樣將它們解壓到指定的Taxonomy目錄:ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gzftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
4. NCBInr
Nr資料庫也是由NCBI (National Center for Biotechnology Information) 維護。它包含來自於GenBank CDS translations、PDB、Swiss-Prot、PIR 和PRF的非等同序列。NCBInr的特點在於其更新速度非常快,且涵蓋度很高。下載方式:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz由於廣受歡迎,一些搜索軟體直接做了自動更新功能,比如Mascot 2.3版本及以上的,初始配置成功以後就不用管了,軟體會自動去check並且在本地更新這個資料庫。物種分類:以Mascot為例,在聯網更新NCBInr時會自動進行分類索引庫下載,並應用」NCBI nr FASTA using GI2TAXID」的格式。
5. SwissProt
Swiss-Prot (reviewed) 是一個高質量人工注釋且非冗餘的蛋白序列資料庫。其中包含各類實驗結果、計算得到的特徵信息和文獻信息等。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸資料庫中的coding sequences (CDS) 序列翻譯而來。 而UniProtKB 本身是European Bioinformatics Institute、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立。由於其高質量,它被很多人列為首選資料庫之一。下載方式:Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase其中:Version info: reldate.txtSwissProt Fasta file: uniprot_sprot.fasta.gzSwissProt Dat file: uniprot_sprot.dat.gz物種分類:以Mascot為例,物種分類會自動後台更新,並對應格式: 「SwissProt FASTA」。
6. Trembl
TrEMBL (unreviewwed) 計算輔助預測注釋信息和功能信息的蛋白序列,而都還沒經過人工注釋。下載方式,物種分類格式等信息均和Swissprot一致,相關文件為:TrEMBL Fasta file: uniprot_trembl.fasta.gzTrEMBL Dat file: uniprot_trembl.dat.gz
7. UniRefUniRef (UniProt Reference Clusters)
從UniProtKB(含isoform序列信息)提供的序列進行聚類。所用的種子序列是各簇中最長的序列。UniRef包含三個子庫,按照序列相似度分別為UniRef100, UniRef90和UniRef50。UniRef100無相同序列,而UniRef90和UniRef50則是非冗餘的,聚類相似度90%和50%。基於質譜的序列搜索都要求序列的絕對匹配,因此UniRef100適用於蛋白質組學質譜搜庫。下載方式:PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/包含文件:Version info: uniref100.release_noteFasta file: uniref100.fasta.gz物種分類:UniRef採用以下索引庫: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
8. Uniprot
UniProt全蛋白質組資料庫包含多個模式生物的全基因組蛋白表達信息。其中收集的Reference Proteome包含多個研究比較透徹或者生物研究中比較受關注的物種的最全面的蛋白質組序列信息。下載方式:相關物種的序列資料庫可以訪問http://www.uniprot.org搜索Taxonomy,並點擊有關鍵詞」Complete proteome」的物種分類,或者直接使用關鍵詞如: (e.g.taxonomy:"Oryza sativa (Rice) [4530]" keyword:"complete proteome" in UniProtKB )可以搜索到人類基因組的Ref Proteome。搜索結果中點擊Download,並選擇格式 FASTA(Canonical)
9. 私有資料庫
蛋白質序列資料庫FASTA是一個非常流行的標準格式,而且要求非常簡單。因此實驗室自己收集整理的序列都可以格式化成FASTA並用於搜庫。&>Title text
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCE
&> Next title
NEXTSEQUENCE …以上是一個標準的例子,&> 之後是序列ID號和描述信息,然後緊跟整個序列信息,第二個蛋白重新以&>開頭即可。下面是一些ID和描述信息的例子。&>gi|6|bgi|Contig1.seq_7|2412 3299 [+3 L= 888] [Delayed
&> 20021010.2.1 1112073F09.y1 1112091F10.y1 1112073F0
&> IPI:IPI00140097.1|REFSEQ_XP:XP_168061 Tax_Id=9606
&> CCRB cytochrome c [validated] – rabbit
&> gi|129249|sp|P02820|OSTC_BOVIN Osteocalcin precursor
&> 」ORF5 | start 2178-1309 | frame -1 | length=870 |常用的搜庫軟體通常需要用戶提供一個名稱比較統一、符合一定規範的信息,才能將名稱中ID和描述信息進行較好地分離。具體的操作需要參考不同軟體的操作手冊說明。
原文這裡啊 蛋白質組學及蛋白質鑒定常用的網站和資料庫 | BioEngX生化工程實驗室
生物信息資源簡介
生物信息(bioinformatics)中的「信息(-informatics)」指的是從海量的數據中進行挖掘,從而得到知識的過程,如下圖所示。在這個過程中,會涉及到數據的管理,數據的運算,數據挖掘和建模模擬。其中,數據管理部分主要是資料庫(database),數據的運算部分主要是指各種生物信息的軟體(software tools)。這兩部分是生物信息研究非常重要的資源,也是生信入門需要了解的基礎知識。下面簡要介紹一下這些資源。(本文根據北京大學生物信息學公開課程視頻整理,圖片來自視頻截圖)
根據不同的特點,可以把這些資源分成不同的類別。比如根據數據性質可以將database分為原始數據(Original data)資料庫和二級數據(Secondary data)資料庫。再比如根據軟體是獨立的工具還是網路伺服器,可以將software tools分為standalone programs和web servers。
根據發布者的類別可以分為centralized
resources和individual resources。比較大的centralized
resources主要有NCBI(National Center for Biotechnology
Information), EBI(European Bioinformatics Institute)和UCSC(University of
California Santa Cruz)Genome Browser。下面將分別介紹這三個最大的資料庫以及其他的生物信息學數據資源。
1.NCBI簡介
- NCBI-Genome
Database:
存儲了目前絕大多數的被測序出來的基因組,目前有1000+基因組被測序出來。
- NCBI-Nucleotide/protein
(RefSeq):
將不同的版本作了整合之後的參考序列。其中NM_*表示核酸序列,NP_*表示蛋白序列。其中核酸給出了ID號,名稱,物種,特徵,編碼區,序列等信息。蛋白還給出了功能區間信息。
- NCBI-Gene:
以基因為單位,整合了pathway、variations、phenotype等信息。
對於Human genes而言,GeneCards比NCBI有更好的對人類基因、蛋白的注釋(表達、相互作用、同源蛋白、功能、遺傳變異等)。
- NCBI-SRA
新一代測序技術的短序列database,每5個月數據就會翻倍。
- NCBI-Taxonomy
把所有至少有一個基因被測序過的物種做的物種分類樹,在所有被描述過的物種中有10%被測序過。
- NCBI-PubMed
用於查閱文獻。
- NCBI-MeSH
(Medical Subject Heading)controlled
vocabulary used for indexing articles for PubMed 結構化的詞庫。
- NCBI-My NCBI
對於感興趣的關鍵詞,在NBCI設定之後,每周會推送相關文獻,對於項目中跟蹤文獻非常有用。
- NCBI-BLAST
NCBI最著名的工具,關於BLAST的兩篇文章已經被引用了四萬兩千多次。不同版本的BLAST包括:
Online:NCBI-BLAST
Standalone:BLAST+
Embedded
in webpage:wwwblast
2. EBI簡介
EBI中的一些資源如表中所示:
- EBI-Ensembl:
介於NCBI和UCSC之間的資源,整合很多物種的不同的資源。Ensembl中數量的類型包括:
- EBI-UniProtKB
The
Universal Protein Resource (UniProt) is a comprehensive resource for protein
sequence and annotation data.
(The UniProt Knowledgebase
(UniProtKB) is the central hub for the collection of functional information on
proteins, with accurate, consistent and rich annotation. )
- UniProtKB -Swiss-Prot(已經過人工校對)
- UniProtKB -TrEMBL(無人工校對)
- EBI-IntAct
分子之間相互作用
- EBI-Clustal
Omega
多序列比對
- EBI-InterProScan
輸入一個序列,看是否包含目前已經知道功能的蛋白的區域
3 UCSC簡介
以基因組為坐標。包含很多的track,包括:SNP,mRNA,剪切的EST,沒剪切的EST,高通量的,通過Chip-seq得到的轉錄因子的binging sites,物種的近源種、保守性,Gene
Structure, epigenetics Regulation, conservation, diesase or phenotype等等。
- UCSC-BLAT
全稱 The BLAST-Like Alignment Tool,可以稱為"類BLAST 比對工具",對於DNA序列,BLAT是用來設計尋找95%及以上相似至少40個鹼基的序列。對於蛋白序列,BLAT是用來設計尋找80%及以上相似至少20個氨基酸的序列。可以把感興趣的基因貼合到基因組上,看它是從哪個位置來的。
- UCSC-In-Silico
PCR
根據設計的primer的比對,抓取相關的基因,以檢測primer的特異性
4 三大資料庫的對比
5 CBI簡介
- CBI-基因分析和比較工具
- Rice-Map(水稻基因組和相關資源圖譜)
將已經注釋的水稻的兩個亞種,日本亞種和印度亞種的基因和表觀遺傳信息標記到水稻基因組上,做成了圖譜,並提供了篩選和標記功能。
- CVTree(composition Vector Tree)組合向量數
通過組合向量方法,不依賴與序列比對,建立了全基因組的植物系譜樹。
- Colinearscan
通過動態規劃,分析基因組的共線性,有效預測待測基因的共線性。
- 生物醫藥相關的蛋白質家族
- PathlocDB
關於新陳代謝途徑的亞細胞定位的全面的資料庫,研究代謝途徑及參與代謝的酶,亞細胞定位的中心工具。
- 基因表達調控
- Autism KB
疾病相關的資料庫,收集了基於六種實驗方式搜集的與自閉症譜系障礙相關的基因。
- PlantTFDB (植物轉錄因子資料庫)
提供多種植物轉錄因子的相關分析及檢測。
- 生物信息學基礎工具
- ABCGrid
生物信息學計算網路的應用,適用於小規模的生物學實驗室,適用大量的不同源的資源,並連接了大量的生物信息學應用。
- Weblab
整合了多樣化工具,多功能的生物信息學功能平台。是一個生物信息學工具箱,同時也提供數據管理功能,集團策略和知識分享機制。
6 一些其他的資料庫
- PDB(protein data bank蛋白三維結構資料庫)
共9萬+三維結構,其中X-RAY晶體結構(8萬),核磁結構(1萬),Electron Microscopy等等。
- GERP
來自斯坦福,用於計算蛋白序列保守性,根據蛋白序列找到最保守的區間。
- CNVnator
來自Yale,通過新一代測序技術來鑒定拷貝數變異。
- Rfam
把已知的非編碼RNA家族做了比對,可以預測新的mRNA的功能。
7 一些individual
resources匯總
生物信息學的hao123————abc
就沒有一個人回答學生物信息先要知道基本的unix命令么?因為很多程序都是在unix或者類linux命令行下run的。
就沒有一個人回答學生物信息先要知道基本的編程技能么?因為很多時候需要自己寫腳本。
生物信息大體上分為,infrastructre(構建維護資料庫,開發工具之類的),data mining(找差異表達基因,找SNP之類的),Modeling(開發一些演算法什麼的,比如blast演算法)
所以題主想要進生物信息這一行,除了排在一二位的答主說的以外,踏踏實實地學好,unix,以及編程相關知識很重要。
實驗室師妹來了。先給她推薦了一本,unix and perl to the rescue
先學著,慢慢來。
生物信息學最重要的一項技能就是會google
以上很全了,然而谷歌是最好的資源,然後是NCBI。
都是說的各種資料庫,貢獻兩個論壇:
SEQanswers:SEQanswers Home
BioStars: Latest Posts
Bioinformatics領域的StackOverflow,各種問題都可以得到解答,還經常會遇到某個軟體/paper的作者~可以直接請教。
1、GEO:
為了支持公共使用和散布基因表達數據,NCBI開始了基因表達彙編計劃(GEO)。GEO是一個基因表達數據倉庫和在線資源,用於從任何物種或人造的來源檢索基因表達數據。有四個基本實體:提交者、平台、系列和樣本
2、TCGA:
癌症基因組圖譜,通過大規模基因組測序分析技術實現,企圖全面加速理解癌症的分子基礎。總體目標是提高我們對癌症的診斷、治療和預防能力。
3、Call SNPs:
GATK soapsnp samtools VarScan SomaticSniper
SNP annotation: ANNOVAR snpEff AnnTools SeattleSeq
4、GENCODE:
提供人基因組和小鼠基因組高質量的參考基因注釋信息和實驗驗證信息(網站上有perl實例);
注釋信息有的是人工注釋,有的是Ensembl自動注釋;
biotype代表了一個基因或者轉錄本的生理重要性,GENCODE分成了四類protein-coding
, long non-coding RNAs(lnRNA) ,pseudogenes ,small RNAs
5、Ensembl:
Ensembl is part of the GENCODE project ,是GENCODE計劃的一部分。它最關鍵的作用在於提供了人類參考基因組組裝的軟體注釋信息,並將人工注釋合併進來
6、Batch Entrez:
NCBI系的工具,用於批量下載數據序列記錄的信息
PUBMED:
NCBI系的文獻索引資料庫,收集了絕大多數生物科學方面的文獻,以MEDLINE格式
7、cytoscape:
是一款圖形化顯示網路並進行分析與編輯的軟體,支持多種網路描述格式和插件應用
8、JGI
美國能源部的一個生物信息資料庫,主要是一些真菌、植物、微生物
9、GSEA:
Gene set enrichment analysis基因集富集分析。不需要依賴一刀切的閾值。
10、SINCERA:
single cell RNA-seq
analysis 一個單細胞RNA-seq圖譜的高通量的計算分析流程
11、FunRich:
一款獨立的軟體工具,主要用於基因和蛋白質的功能富集和相互作用網路分析
12、GDSC :
genomics of drug sentivity
in cancer 英國Sanger研究所,抗癌藥物敏感性基因組學資料庫,收集腫瘤細胞對藥物的敏感性和反應。來自於
75000個實驗,描述了約200個抗癌藥物在1000多種腫瘤細胞中的反應(AUC表示藥物吸收的程度)
Compound; Cancer feature;
Cell line
Compound: 數據格式 Cell line;TCGA classfication; Tissue; Tissue sub-type; IC50; AUC res
Features: Drug; Drug target; Effect size; p-value; FDR; ;Tissue
analysis
13、 MutSigCV
通過整合突變異質性,MutSigCV能夠消除大多數明顯人工產物,使其能夠識別真正與癌症相關的基因
14、TRUST
使用RNA-seq數據分析TCR或BCR序列的計算工具
15、GLADIATOR
用於闡明疾病模塊的全局方法,利用相似表型信息和蛋白質-蛋白質相互作用PPI同時預測數百種疾病模塊。
16、Graphpad Prism
帶有基本生物數理統計、曲線擬合和圖表顯示功能,適用於醫學、生物、數理等試驗數據統計處理和圖表繪製
17、 WGCNA
加權基因共表達網路分析,weighted gene co-expression network analysis
18、GEPIA
基因表達譜數據動態分析,gene
expression profiling interactive analysis; 差異表達、生存分析、相關性分析
19、GTEx
Genotype-tissue expression,是一個包含了基因表達、外顯子表達、單組織eQTLs、拼接wQTLs及蛋白質截斷突變體等一系列與基因表達相關數據的資料庫
20、 OMIM
Online Mendelian Inheritance in Man / an online catalog of human
genes and genetic disorders
21、NCBI下面的工具和資料庫: PUDMED;UniGene;
dbSNP; EST;Gene;GEO datasets; Genome; OMIM; Entrez;BLAST;Map Viewer;
22、 GO
標準化呈現基因和基因產物特性的資料庫
23、 CuffDiff
差異表達
24、蛋白質二級結構的資料庫:DSSP,並不預測二級結構
蛋白質三級資料庫:PDB MMDB SCOP
PPI: BIOGRID
看著大神們分享的知識,頓時長了不少信心
推薦閱讀: