生物信息學入門需要具備什麼能力?
生物類的小碩畢業後想從事生物信息學的工作,計算機基礎0,想問生信入門需要具備啥能力,可具體推薦幾本書,thanks.
其實你並非是從零開始學生物信息學,生信是一門交叉學科,甚至可以說就是一門比較複雜的技能,你本碩期間累積的各種生物學基礎都是有效的,對計算機學科人士來說也是如此,你們在掌握生信技能的道路上將會殊途同歸。
就好像木雕匠人這個職業雕刻木頭工藝品的這個技能來說,假如某廚師已經熟練掌握各種各樣的刀的使用技巧,握刀的姿勢,砍/切/削 等,那麼他需要的是熟練掌握各種雕刻原材料,樹根,枯枝的特性。同理對於了解原材料的其他木匠來說,只需要學會雕刻的刀功即可。那麼,是不是這兩種人就可以成為木雕匠人呢,當然不是,更重要的是雕刻什麼東西,掌握需要雕刻的物品的神形,獲得只可意會不可言傳的感覺。
【匠人】中國那些真正的木雕大師
生物信息學也是如此,完整的掌握了生物學基礎,或者計算機基礎,都是只是一個最基本的要求罷了。真正社會上做生物信息學數據分析, 往往更偏向於實戰,是有套路的,有流程的,能做到這個就需要一兩年的學習了。更麻煩的是,跟木雕匠人一樣,你往往不局限於雕刻一類物品,生信數據處理也是如此,一般人熟知的就有WES,WGS,RNA-seq,ChIP-seq等,上游分析很簡單了,都流程化了,但是下游分析五花八門,主要是消耗員工的時間和精力,其中還得是熟手。所謂的大健康方向,其實也是數據分析的個性化,並沒有什麼特殊之處。
所以對目前的你來說,如果還沒工作就很好,可以苦學3個月,裝模作樣的入門足夠你找到工作。如果已經畢業,那麼就麻煩了,只能先不計報酬的做實習生,在項目中抓住機會學習了。
好了,扯了這麼多雞湯,下面是乾貨
生信完全入門線路圖及資源大全
成為一個合格的生信工程師必經之路
6大基礎知識的掌握
首先你需要了解一些測序基礎知識,生物學基礎知識,這個主要靠自己看,還有平時多積累。
在生信技能樹論壇上面我列了一下,需要自行花時間自學,遇到不懂的名詞多搜索,多熟記。對應我們生信技能樹的論壇版塊是: 生信技能樹?生信技能樹?生信基礎?測序原理-數據格式-資料庫
然後你需要掌握一門編程語言,可以從http://www.biotrainee.com/forum-90-1.html 裡面的題目開始,當然你需要先來一些簡單,你先看這個,http://www.biotrainee.com/thread-834-1-1.html 編程學會怎麼著也得兩三個月了。對應我們生信技能樹的論壇版塊是:生信技能樹?互動作業?腳本能力實踐?生信人必練的200個數據處理任務
如果是linux,不妨看看實驗樓的練習:
- 全部課程 — &>Linux, 新手入門, 計算機專業課 — &> Linux 基礎入門(新版)
也可以跟著視頻來練習,如果你實在是需要,這裡推薦業界馬哥的視頻教程,鏈接: https://pan.baidu.com/s/1slukNwT 密碼: xyq9
這些基礎掌握的七七八八了,就可以開始NGS組學之旅了。
NGS組學技術的掌握
首先看 5 篇綜述並翻譯,涵蓋主流的5個NGS組學技術:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq
- Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3828144/
- A survey of tools for variant analysis of next-generation genome sequencing data : http://bib.oxfordjournals.org/content/15/2/256.short
- A survey of best practices for RNA-seq data analysis : http://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8
- Online resources for miRNA analysis : http://www.sciencedirect.com/science/article/pii/S0009912013000994
- Long non-coding RNA discovery pipeline : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0025915
對應這些組學的PPT也需要自行搜索後瀏覽,掌握概念,原理。
然後看5篇測序數據分析例子:
- miRNA-seq : RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model. : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0108051
- CHIP-seq : CARM1 Methylates Chromatin Remodeling Factor BAF155 to Enhance Tumor Progression and Metastasis http://www.cell.com/cancer-cell/abstract/S1535-6108(13)00536-9
- WES : Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders http://www.nejm.org/doi/full/10.1056/NEJMoa1306555#t=article
- LncRNA: Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo http://www.sciencedirect.com/science/article/pii/S1934590913000982
- RNA-seq: RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells
然後看5篇晶元數據分析例子:lncRNA : http://pubmedcentralcanada.ca/pmcc/articles/PMC3691033/ ,我就不繼續羅列了。
轉錄組流程
https://f1000research.com/articles/4-1070/v1
https://f1000research.com/articles/5-1438/v1
https://www.bioconductor.org/help/workflows/rnaseqGene/
當然,實踐這些項目你肯定是需要流程,代碼,在我的github裡面已經有了,但是你需要掌握了linux,軟體安裝等等,才能看懂。我的github地址是: https://github.com/jmzeng1314/NGS-pipeline
等你實踐經驗足夠了,你會發現它們本質上都只是數據處理而已,你可以看我以前錄製好的總結視頻:有參組學(全基因組,全外顯子組學,轉錄組學,表觀)的幾個NGS測序數據分析的表現形式的異同點,視頻在鏈接:http://pan.baidu.com/s/1jIQFGSA 密碼:48uj
當然,我的視頻還有很多,如果你感興趣,可以自行按需下載:
[我做博客3年來錄製的所有免費視頻: https://pan.baidu.com/s/1pKkA4Q3 密碼:8xxd
我還在論壇上面收集整理了很多NGS組學實踐項目,歡迎大家前去練習,http://www.biotrainee.com/forum-108-1.html , 這個取決於你的悟性了。
但是如果要真正步入生信的殿堂,編程其實是少不了的,請繼續學下去。
關於R語言
知道什麼是R語言,了解基本語法,Rstudio編輯器,讀寫文件,跟Excel的區別,繪圖等可視化,生物信息學相關的bioconductor系列包。
首先下載R語言列印版的 cheatsheet, 鏈接:http://pan.baidu.com/s/1nv5Oulb 密碼:4tsn 放在辦公桌,或者枕頭邊上,隨時瀏覽記憶。然後這裡有一個網路視頻教程,鏈接:https://pan.baidu.com/s/1slbPogX 密碼:ga9x 是數據分析與R語言視頻教程+課件 請務必抽時間聽完,一步步跟著操作學習,可以保證你R語言能入門。
尤為注意的是,初學者千萬不要鑽牛角尖,而是要廣泛涉獵,牢記基礎,應用加實踐,其背後的計算機邏輯演算法等可以後期再補,而且要時刻記住,學習R語言是為了分析生物信息學數據。
- 約翰?霍普金斯大學的Bioconductor學習課程
- 斯坦福大學的暑期小課程-用bioconductor做統計分析
- a Little Book of R for Bioinformatics!
- 生物學家應該這樣學R繪圖-視頻,數據,代碼全公開
一般不建議初學者直接下載 史上最全R語言資料匯總,鏈接: https://pan.baidu.com/s/1qYt6RXM 密碼: fj42 裡面的資料實在是太多了,初學者很容易迷失在裡面。但我還是給大家,畢竟入門之後的提高,還是用得著的。
關於python
同樣的,接下來你應該要開始實踐:
生信技能樹?生信技能樹?互動作業?腳本能力實踐?生信編程實戰5個月傳送門~~~
需要自己跟著一套視頻來一步步練習,這裡推薦 煉數成金的python課程 鏈接: https://pan.baidu.com/s/1bo9WmvX 密碼: di8q
小成境界
作為一名曾經的生信部經理,從我們的角度來答下這道題吧。以下內容只適合準備找工作的人,而不適合準備繼續在生信象牙塔里深造的人。
1. 從公司的角度來看,一位應屆碩士是什麼樣的定位?
我們需要的是一位經過短時間培訓就能獨立幹活的人。2. 為什麼需要這樣的應屆碩士?
因為你們工資低…校招比社招的工資低多了。公司雖然為應屆生付出了一部分培訓成本,但培訓後的你們完全能夠擔任公司的主力部隊,總體而言還是賺的。對,生信公司的主力是碩士,不是本科也不是博士,本科培養周期太長,博士太貴。3. 那麼哪些技能是公司需要的呢?
公司的第一要務是盈利,雖然會給你們投入一些培訓成本,但是並不希望投入太多,以短時間培訓即可獨立幹活作為原則來思考,答案就很簡單了。4. ……能不能說得更明確點?
生物信息學所用的計算機知識和CS專業的計算機知識有多大不同?對照這篇帖子來看吧,我們不會要求一個應屆碩士能獨立搭建出一台伺服器,但至少不能看到linux界面連複製粘貼取前一百行都不會…我們也不會要求一個應屆碩士能夠立刻馬上寫出一整套生信分析流程,但至少哈希/字典還是應該會用的。公司可不希望招來一個電腦小白,光編程就得教上個把月的那種。5. 那麼應該點亮技能樹上的哪一部分?
先學Linux基礎。
Perl和Python二選一,這會是你吃飯的玩意。R語言有所涉獵。有興趣自己裝一台linux先玩玩,配置不用很好,虛擬機或者雙系統都是可以的。6. 有什麼書推薦?
Linux我推薦《Linux從入門到精通》Perl沒什麼好說的,小駱駝Python我喜歡黃黑色那本《Python基礎教程》R…隨便吧,這門語言太龐雜,隨便找一本看明白它的基本用法,反正最後都是去看每個包的說明文檔的。7. 需要學到什麼程度?
每本都是半本足夠了…真的是半本,我們不是碼農,暫時用不到特別天花亂墜的編程技巧。
8. 怎麼樣知道自己的能力是不是達標了?
找篇簡單點的生信文章,跌跌撞撞安軟體、寫膠水腳本照著做一遍就算可以了。能夠做出和作者一樣的結果,說明你已經能夠獨立運用自己的編程能力去解決生物學問題了,未來一段時間的工作也就只是比這次做得更熟練、更優雅、更深入,不要怕。當然,你要有幸接到一些生信的課題,絕對務必一定要做,這個將會是重大的加分項。9. 還有什麼要說的?
有事沒事加一些生信的群、微信公眾號,比如@曾健明 那邊的生信菜鳥團,是很適合入門的地方。
謝邀(捂臉///)生信直博在讀,並沒有找生信工作的經驗。那就從學生信的角度說一點點我的理解吧~
1.編程
Linux:會用Editor(e.g. VIM) 和 Shell Script (e.g. bash);推薦《鳥哥的Linux私房菜-基礎學習篇》
Python/Perl:《Python編程入門(第3版)》,Perl推薦小駱駝
R/MATLAB:《R語言實戰(R in action)》
如果做資料庫或者server,推薦再學PHP,MySQL,JavaScript
2.課程
Bioinformatics: 生物信息導論和方法(北大高歌老師的課程,講解邏輯清晰,由淺入深),MOOC。
因為生信有好多分支,如對基因組、蛋白質組學數據分析並給出生物學解釋;在研究演算法方面,如利用機器學習的各種原理來解決生物學問題(對基因序列原件的注釋,如對TSS,splicing sites,promoters,enhancers,positioned nucleosomes等功能區域的注釋;通過對RNA-seq,microarray,ChIP-seq等數據的分析,區分不同的疾病類型或疾病的分子標誌物(biomarkers);對基因功能的注釋,如Gene Ontology term;以及基因間互作調控網路的分析);比如運用統計學知識改進已有的生信軟體的演算法,等等。可以根據將來要做什麼繼續補充知識,比如看一下斯坦福大學的Andrew Ng在coursera的機器課程呀 ,看一下統計學原理呀之類的。
3.文獻和實戰練習
如果是做基因組學的生信公司
3.1 RNA數據分析流程
RNA-seq:可以重複一下文章中的分析Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks[1]
當然入門之後可以更多了解相關軟體啦,比如STAR,feature counts, Gfold, EdgeR, DESeq2,
DESeq等。找lncRNA:Recurrently deregulated lncRNAs in hepatocellular carcinoma [2]. 這篇文章中有如何找新lncRNA的流程,可以根據文章提供的方法重複一下。
3.2 DNA數據分析流程
GATK那一套流程檢測
同時variant與疾病、eQTL等關聯分析的話,可以了解一下STATA
3.3
結合機器學習和基因組學的話,可以看一下以下文獻:DeepVariant:由谷歌Deep mind公司研發,利用卷積神經網路(convolutional neural network, CNN)檢測基因組上單鹼基突變(SNP)和小的插入缺失(Indel),比現有的GATK軟體有更高的精確度 [3]。
DeepWAS:根據功能單元選擇出一組SNP的集合,與現有的基因組關聯分析(GWAS)檢測基因組上一個SNP與疾病的關係相比,DeepWAS能夠更綜合地分析致病基因突變,在尋找調控區域的基因突變也更為直接[4]。
DeepSEA:預測人類基因組非編碼區有功能的變異 [5]。DeepBind:預測DNA,RNA結合蛋白的序列特徵,並能識別有害的基因突變 [6]。
DeepCpG:在表觀遺傳學層面上,應用深度神經網路演算法,研發了通過單細胞測序的DNA序列和不完整的甲基化修飾數據的,用來預測細胞細胞層面是否會發生甲基化,其效果優於現有軟體[7]。
暫時就想起來這麼多啦~
1. Trapnell, C., et al., Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc, 2012. 7(3): p. 562-78.
2. Yang, Y., et al., Recurrently deregulated lncRNAs in hepatocellular carcinoma. Nat Commun, 2017. 8: p. 14421.3. Poplin, R., et al., Creating a universal SNP and small indel variant caller with deep neural networks. bioRxiv, 2016: p.092890.
4. Eraslan,G., et al., DeepWAS: Directly integrating regulatory information into GWAS using deep learning supports master regulator MEF2C as risk factor for major depressive disorder. bioRxiv, 2016: p.069096.5. Zhou, J. and O.G. Troyanskaya, Predicting effects of noncoding variants with deep learning-based sequence model. Nature methods, 2015. 12(10): p.931-934.6. Alipanahi, B., et al., Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning. Nature biotechnology, 2015. 33(8): p.831-838.
7. Angermueller, C., et al., Accurate prediction of single-cell DNA methylation states using deep learning. bioRxiv, 2016: p.055715.
求知慾吧。
謝邀哈,生信本科在讀學生。
可能我們學校對於這個專業的教學體系還不是很成熟,對新生的課程也是有很多改動,我們算是試驗品吧。
我講講我們學校的課程安排吧,基礎的生物,化學,生化,遺傳有,因為最終的分析還是要落實在生物學意義上。這個你應該沒問題。
編程採用C語言入門,操作系統,上上屆有perl,後面改成Python,R,Linux基礎,shell編程,數據結構。
至於教學效果,可想而知,這本來就不是醫科大學學生的強項,也許做分析流程中的數據處理應該夠了吧。
我可能不想做分析吧,覺得分析是最無趣的事情了,我想搞開發,所以我另外自學了一些計算機專業課程,然後把花了兩年搞c/c++搞數據結構與演算法+Java。以下是來自網上的對生信的分類,希望對你有所幫助。我大一時學長發給我的生信是一個很大的領域,按照我的觀察粗粗分來大概有:分子物理流、建模與統計流、演算法流、應用生物流、實用工具流、資料庫流。根據學生老闆背景的不同,同一個組可能專精於其中一個流派,也可能樣樣包攬。所以達到什麼程度還看具體的研究方向……
分子物理流:使用量子力學等手段對蛋白質/RNA等生物分子建模,預測結構、相互作用。這個方向的基礎課程是物理、數學系列+簡單的生化/分子生物學知識。基本是學物理的小夥伴不慎入坑
建模與統計流:按照行話說,這個方嚮應該叫做生物數學(生物統計)、計算生物學。他們傾向使用數學工具來模擬生物過程(如心房心室血流量建模)或者開創某些新的統計挖掘方法。基礎課程:高數(數分)、高代、概統、多元統計等數學課程,以及一兩門統計語言……基本是學數學的小夥伴不慎入坑
資料庫流:查文章,針對某一特定的領域收集數據,完善資料庫。基礎課程:無
演算法流:專門為某些生物問題設計演算法。比如BLAST、DAVID、PHYLIP……這個方向我研究不多,總之能把握到像BLAST一樣的機會,還是少之又少。基礎課程:數據結構與演算法分析、編程語言。
應用生物流:這個方向目前是生信裡面做的人最多的。這個方向一般從具體的生物問題出發,採用一系列軟體、資料庫,從宏觀上理解生物學(比如各種組學)。如果是在其中用到了預測工具,最後很有可能還要回歸到生物,用實驗驗證預測的可靠度。基礎課程:生物系列(生化、分子、遺傳,根據方向不同也有免疫、植物、生理等)+一兩門編程語言+統計語言。在這個方向,比較流行的語言是perl/python,統計語言是R。
實用工具流:做分子物理/建模/統計/演算法/資料庫的小夥伴終於有一天完成了自己的課題,想讓其他做生物的小夥伴使用自己的成果……於是就專門有一批小夥伴去做軟體/web server。基礎課程:.net/c++(本地化)+(html+css+python/php/asp+sql)(web化),如果實驗室沒有專門管理網路的,還可能會被抓壯丁做網路安全、伺服器、通訊等網路工程師的活兒(不過會了這些幹嘛要考慮在實驗室?可以考慮跑路了)……基本是學計算機的小夥伴不慎入坑謝邀。作為生信專業的導師,我眼中合格的生信碩士至少應該具備:1.熟練掌握一門編程語言,並且能夠讀懂絕大部分編程語言;2.有廣泛的生物學背景知識,知道如何查找自己需要的資料,對具體的研究領域有自己的想法。在此基礎上,無論是學習軟體流程,開發演算法,或是負責具體的項目,都不會太難上手
寫在前面:同樣是在這條路上摸索的人,在此把我摸索出來的一些東西分享給給大家。大家辯證的看待。
1.編程能力!!!Python,R語言學到精深。而至於怎麼學,出門右拐。
2.有較好的數學基礎,尤其統計學!!!!
3.經常閱讀生信相關科學文獻,覺得最重要的是科研思維方法的掌握,作者是以怎樣的思路探索這個問題的。像導師經常推薦的文獻的資料庫有 Pubmind,NCBI,UCSC,CBioportal,Cistrome等等等
4.推薦幾個覺得挺好的微信公眾號:嘉因生物、生信技能樹,Linux愛好者,生信菜鳥團,生信媛,R語言中文社區等等等,都是滿滿的乾貨,但切記要自己親自動手實踐
5.生信人高效的辦公軟體:(1)即時消息----微信電腦版。(2)文件同步備份-----百度雲。(3)記筆記-----Evernote印象筆記。(4)瀏覽器----Chrome(具有豐富的插件,具體使用可以去微信里搜「Chrome插件」)。(5)文獻管理-----Zotero。結合chrome插件使用。(6)搜索引擎:當然是geogle,geogle scholar。 (7) 遇到問題時:知乎;Quora (現代技術的發達在某種程度上拉近了我們和大牛之間的距離) (8)文本文件的查看-----NotePad++ (9)數據處理-----Excel(搜索「Excel 交集」「Excel 去重複」「Excel出現次數」等等高級的用法,可以幫助我們處理龐大的基因列表)
6.如果是大學生的話跟著導師做課題是最快的學習方式,學習在分析項目中提高自己解決問題的能力,訓練自己的邏輯思維和科研思維,時刻清楚自己要解決的生物學問題是什麼,提出合理的假設,並運用信息學的方法是驗證,將問題有條理有層次的層層剖開去逐個擊破。不要擔心自己一開始什麼都不會。
路漫漫其修遠兮,吾等上下而求索。
很榮幸被邀請來回來這麼個看上去很簡單,但實際很有難度的問題,生信入門,好吧,畢竟也是在這個行業里摸爬滾打多年,就來說說入門需要哪些能力,以及入門的難度和一些學習方法吧,爬樓看了下回答的真的都很專業,但是大部分似乎都很專,專!
是的,我首先想強調一個概念的問題,生信真的是一門很雜而且涉及很廣的學科,想混的好起碼要精通生物+編程+數理+英語;
但是對於入門就沒那麼難了,這主要取決於你的基礎,需要的能力就是上面說到的四點,只是會根據你這四方面的綜合能力的發展階段來定義你是入門還是高手還是大牛,詳細的說下這四點:
- 生物:毫無疑問,生物信息,四個字佔了倆,深厚的生物背景是很重要的,根據不同的研究方向需要掌握不同的背景,這也是我認為最為限制你將來發展的一點;比如現在很火的高通量測序,比如一直很火的蛋白結構,再比如宏基因組等等,你得首先知道這些是什麼,大家都在做什麼,你才能入門,所謂的入門起碼是要看得懂別的寫的相關方向的文章吧;
- 編程:這裡就不說計算機了,有生物背景了能保證你看懂別人說了什麼,也能看懂別人提出了什麼問題,也能大概知道有些問題該用什麼思路解決,那麼編程就是幫你把你想到的去實現出來,至於用什麼語言重要程度遠遠沒有提出問題和找到解決思路更重要;編程能力又很廣泛了,要能寫,能看,這是最起碼的;另外編程+工具才是王道,明明很多現成的工具包,現成的資料庫已經開發的很好,所以平時多積累,有些問題你就知道都是標準問題,太多人給你提供了解決思路;如果你能在學習編程的過程中把信息搜索能力練精通了你的編程就解決了60%,因為大部分你要寫的代碼,網上都有現成的,拿過來看懂改一改即可,這就是最簡單的入門方式;
- 數理:這個東西我想來想去還是放上來吧,畢竟搞生物信息如果只會寫寫代碼用用工具那也只能說,你毫無競爭力;但是如果你數學也學好了,看得懂演算法, 看得懂公式變換,又精通數理統計那你的上限會很高,那麼這一點的入門標準是什麼呢?我覺得你能看懂一篇生信相關的演算法文獻就差不多入門了;
- 英語:為什麼放在最後,也不是不重要,只是覺得這個入門太容易了。基本的能力大家都有,涉及到生信,重點關注的就是文獻閱讀,以及第2點中提到的搜索,搜出來的東西能看懂,畢竟大多有價值的信息都是google出來的;那麼更牛一點就是要能自己完整的寫文章,然後作報告交流了。
暫時就想到這麼多,實際上這是我在知乎的第一篇回答,正兒八經的!有問題也歡迎來討論,另外生信這行,自學完全沒問題,只要你的學習能力沒問題就行,沒那麼難!
謝邀。
本人本碩是計算機背景,然後在醫學院做疾病的基因組研究,用的是機器學習技術。然後,論文方面,計算機期刊和醫學期刊(nature 子刊)都發過,因此,我就從科研的角度來談談做生信所需技能問題,可能我和題主的背景不太符合,不過也會有借鑒意義的。
編程
基本的編程肯定要會,不過一個python+R就基本上搞定所有了。沒有基礎的話,三個月學學,也可以上手。教材的話,隨便在網上找個《XX天學會python》就行。這部分不用太糾結,關鍵是必須要上手做,練手感。
數據處理
這塊是個大頭。基本上80%的工作時間都消耗在這個上面。基本的操作一定要熟練,比如,數據存取,清洗,可視化,標準化,等等。這一塊會佔用你整個科研一半時間,因為生物數據很容易受很多confounding因素的影響, 比如,病人的年齡,性別,種族,服用藥物等等。要想找到可信的pattern,必須盡量把這些confounding去除掉。這部分等你跟了實驗室後,直接看文章做就可以。
演算法
分析方法主要是用統計(比如單變數分析, 各種test, 各種statistic),機器學習(分類,類聚,降維)。然後分析對應的結果。這一部分需要你對演算法的,原理,操作過程,結果的含義,有深刻認識,但不需要懂如何實現。學這一部分&<An Introduction to Statistical Learning with Applications in R&>這本書就夠了。
生物醫學知識
這一部分,邊學邊看就夠了,尤其是樓主這種生物出身的,看這些不困難
實驗室
還有一個因素是影響你所需技能的,就是你老闆的科研目的。由於生信是一個大方向,計算機系,生物系,醫學系都在做。但是這些人做的方向都不太一樣。生物和醫學系的實驗室通常做的東西在問題上具有連續性,比如說就做一種疾病,做完SNP,link結果到imaging上,然後再link到其他地方,最後link臨床或者製藥。這種實驗室不需要你有很強的技術背景,要你分析能力強,會inference,能做得出真正的科學發現的。通常計算機系的實驗室是按照一類方法懟(比如說類聚),懟完了這個疾病,懟另一個。這種實驗室要求你更多的技術背景。
謝邀.
你問的是入門需要具備怎樣的能力。首先,本人本科是生信,目前也只是生信碩士在讀。所以並非生信資深人士,但對本專業也有一些理解,以下供你參考。1. 生信生信,乃是用數學及信息學的理論和方法去處理生物大數據,以揭開生命奧秘。那麼勢必要掌握數學和信息學的方法。
在數學方面,或許統計學是更好的選擇(相信大學都學過高數和線代)。為什麼說統計是更好的選擇?因為統計更偏應用,對你快速入門生信更佳。當然如果你志在去研發高級的生信工具的話,高數和線代也需要特別厲害。另一方面則是計算機方面的能力,如果你的計算機理論紮實,編程方面也很有經驗,那你將會很有優勢。具體而言,第一必須掌握至少一門文本處理語言。perl,python和R語言是本專業使用非常多的語言。可以選擇一種或全部,但我建議R必須掌握。另外兩門你自行斟酌,對於編程入門者,選擇學哪門語言常常十分困惑,因為各有各的強大之處。我建議優先選擇你周圍該門語言熟練掌握者的編程語言(我的意思是perl或python二選一),也就是說,你有個朋友或師兄什麼的對python經驗老到,那麼不要猶豫,去學python,這樣可以從別人的程序裡面學到很多很多,快速成長。信息學方面之二就是linux操作系統必須熟練使用,你會愛上它的,相信我。2.有沒有必要加修生物學,或醫學類的知識?
必要!不論是從生物信息學定義的邏輯,還是其學科起源(即醫學發展的歷史必然性),這一部分的知識都是至關重要的。迄今生信方面(比如差異表達,序列比對,變異檢測等等)的軟體層出不窮,多了去了。那麼你怎麼選擇?所以需要從其內在的數學和統計學方法評估該方法是否能很好的達到目的,可信度多高?局限在哪裡?我能不能改進或利用其思想?這就需要生物學背景或醫學背景,否則難以解釋和評估你的工作。更重要的是無法去設計課題。要修什麼? 生物化學與分子生物學,基因組學,蛋白質組學,分子病理學,細胞生物學,遺傳學等等。或許並非全部,但各個學科環環相扣,層層遞進。反正醫學背景也是一大優勢。3.生物信息學是一門工具!
鄙人認為怎麼看待這門學科也十分重要。它突如其來,又符合歷史。發展之快,一天一個樣。或許它在未來不會單獨存在,但絕不會消亡。它會融入各個學科成為一門醫學必修課。既然是工具,在學習理論的同時,多在實踐中成長才是歸宿。以上,簡答題回答完畢。時間匆忙,並非十分客觀全面。海涵。目前有有科研服務和臨床檢測兩個方向,有碩士學歷可以依靠生物學基礎優勢從科研服務做起。一般有生物信息分析工程師,和生物信息研發工程師,前者其實對編程基礎要求不高,更多的是關注生物學問題,可能需要python 基礎,只要能簡單地利用內置的一些數據結構如列表,字典,集合,文件讀取寫入操作,以及循環判斷等來進行數據的操作就行了。因為sci論文對繪圖有要求,所以可能還需要R來繪圖。可以考慮往第二者或者雲平台開發等IT崗位發展,生物信息研發工程師一般要求能寫流程,懂得性能測試,知道機器學習等統計演算法,總的來說要求更高的綜合能力
一定要掌握至少一門編程語言,java python C隨便,切記切記!不然都被CS把飯碗搶了
謝邀。
換個角度,破下題,可操作性的那種:
題目是入門所需的能力。
1、泛泛而言,學習能力。
2、下一步,學習什麼。生物類:遺傳學、微生物學、分子生物學,ok,因為生物碩士嘛;計算機類,我想知道什麼叫計算機基礎0。
3、自查:①演算法邏輯還成不(高中數學必修三,QBasic);②大學期間的C/C++/Visual Basic/SQL還成不;③如果都沒問題,玩兒玩兒Python(和or或)Perl(和or或)R。
4、其他:①了解一下測序原理;②開始試試實際任務和生信軟體。
1. Linux+python/perl+R2. 信息檢索能力,善用搜索引擎3. 幫助文檔/文獻閱讀能力
謝邀。。我只做個一個畢設是和生信相關的 可以移步 小黃:如何自學生物信息學?
生物類這個太廣泛了,生信也是個太寬的範圍了。
假設是做數據分析的,對基本的分子生物學有了解這樣一個背景。
- 熟悉各種組學數據的分析流程,包括但不限於NGS,蛋白質組,代謝組
- 學會一門編程語言,推薦R,python
- 會一點linux相關操作
最後,請一定要自己能搞定自己電腦上的問題,比如系統掛了怎麼辦
現在某醫科大學學習生信 目前讀大二就談談我們的課程吧計算機方面學了 linux C語言 R語言 java目前在學習 資料庫 離散數學大一學完了高等數學其他的就是跟醫學相關的了 有 醫化 生化 細胞生物 主要還是計算機方面
推薦閱讀:
※Perl,R,Python在生物信息學中分別扮演著怎樣的角色?
※複製出來的人是否於原來的人擁有完全相同的記憶、世界觀和價值觀?
※蛋白質組學在醫療和健康方面有什麼應用?
※聚道科技(GeneDock)是一家什麼樣的公司?
※純生物信息學的分析結果可信么?或者說現在的測序服務公司的數據分析結果是否可靠?
TAG:生物信息學 |