有哪些生物信息方面大數據的可視化案例?請列舉。
生物信息離不開大數據;如基因組,比較基因組,轉錄組等等繁多的數據需要展示,有哪些漂亮的可視化案例以及可視化方法。
其實已經有人提到了, circos ! http://circos.ca
這年頭搞生物信息尤其是基因組,發paper不來個circos都不好意思。
至於你說的方案: circos是方案之一。
至於你說的方法:circos走的是circle is beauty 的路線!不管是否叫大數據,最後的展現都是要靠人眼和人腦來「模式識別」的,所以circos很好的抓住了這個關鍵,讓一切都回到盤子里來,一眼看上去很完美,該展示的都展示了,你要是說精度什麼的,就不重要了,因為我們強調的是宏觀;當然circos支持局部的細節放大!
1 integrative genome viewer (IGV)
2 ucsc genome browser
3 circos
4 rasmol 等等 for protein 3D structure
5 忘記了什麼 for 3D genome models (Hi-C data)
才疏學淺,孤陋寡聞,見笑。
Hi-C技術:是高通量染色體構象捕獲技術(High-throughput chromosome conformation capture)。
利用高通量測序技術,結合生物信息學分析方法,研究全基因組範圍內整個染色質DNA在空間位置上的關係,構建染色體跨度單體型,同時捕獲不同基因座位上之間的空間交互信息,獲得高解析度的染色質三維結構信息,並能開發調控基因的DNA元件。
一個具體例子:
比如這張圖就是講這個技術來預測酵母染色體著絲點的,來自http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4477656/大白話請看這個Hi-C 簡介之Hi-C應用(上)
在1848年9月13日,一次爆炸使得一根鐵棒穿進了鐵路建築工頭Phineas Gage的頭骨。令人難以置信的是,Gage活下來了,但他的個性和氣質發生了巨大的變化,這使他成為早年的行為神經解剖學教科書的案例。在這幅圖像中,研究人員為那根鐵棒如何擾亂人腦的特定系統建立模型,排列在Circos圖的圓周上,它們之間的聯繫用連線表示。
從右上角順時針看,人類、黑猩猩、老鼠、斑馬魚的基因排列成一個圓圈,每一個顏色方格對應一對染色體顏色。線條相連類似DNA序列,只是在視覺上強調,我們與其它物種共享多少基因。
對於信息設計者,π值是非常具有魅力的。Krzywinski為了繪製這兩幅圖,用顏色對數組編碼,左圖中,顯示的是π值的前3422位;右圖中,顯示的是π值的前123,201位,它們以阿基米德螺旋狀排列。
亂糟糟的毛球:像這樣的可視化幫助激發了Krzywinski的工作靈感。通常所說的毛線團,被用於將網路間的相互作用可視化。在正確的場景中,它們非常有用,但是當網路變得龐大而複雜時,它們沒有辜負它們的綽號。Krzywinski說:「許多毛球看起來是隨機的,而且許多時候,它們的結構會迷惑我們而讓我們陷入思考我們知道某些實際上不知道的東西。」例如,上面的毛球來自於人類蛋白質的相互作用圖,暗示了實際上並不存在的架構。研究人員寫到:「明顯地,黃色的節點帶是圖布局演算法的一個偽影。」。該演算法並沒有解釋紅和藍邊緣明顯的分離,但是人的裸眼能識別。
Circos不僅用於比較基因組,也用於描繪它們,比如Gloeobacterviolaceus,一種最原始的光合細菌品種之一的直系後裔。雖然這張圖無疑對科學家比對一個門外漢富含更多的意義,它仍然是一個引人注目的圖:相比於十年前基因組的可視化,是意義深遠的,並且明顯更加豐富的。
並非所有的Krzywinski的工作都涉及到數據可視化。這些小鼠胚胎血管圖像是去年一期美國國家科學院院刊的封面圖片,它來自多個微觀橫截面圖像的合成,它們的顏色根據哈勃太空望遠鏡的照片和《星際迷航》進行了調整。Krzywinski說:「現在可以說已經完成了我的一個人生目標了,使生物學看起來像天體物理學」。
自己廣告一下:GenoEye
http://sourceforge.net/projects/genoeye
主要的問題是,目前處於alpha階段,尚有一些bug,而且文檔沒寫好。
有一個個人比較喜歡的GO降維表示方法,REVIGO: http://revigo.irb.hr/
剛剛用在畢業論文里表示DE的GO(捂臉)強行補圖必備
我也不是很懂,推薦一個會議VIZBI - Visualizing Biological Data
這個會議好像是Broad Institute承辦的,他們會把視頻放出來的,Videos | VIZBI
應該都是各種關於生物學visualizing的前沿研究。感興趣可以深入了解一下。
另外genome browser除了常見的IGV和UCSC之外,還有很多Genome browser
很抱歉目前我沒辦法舉具體的例子。我們總是把生物精確複製自身基因組的能力視為理所當然的,但這項能力卻是生命最非凡、最根本的特質。
DNA複製的錯誤率,也就是我們所說的變異,通常小於1/109。為了讓我們對這個高到令人震驚的精確度有些概念,我們可以想像一下本書中所包含的約幾十萬字、標點符號和空格,現在,假設圖書館中有約1000本篇幅相近的書,你的任務是如實地抄寫這些書中的每一個字、標點和空格。你覺得你會犯多少錯誤?這正是在印刷機發明之前,中世紀的抄寫員們所做的工作。他們必須盡最大努力用手抄寫文本。
他們抄寫的文本滿是錯誤,這其實並不奇怪,我們從中世紀那些充滿分歧的不同手抄本中可見一斑。當然,計算機能以非常高的準確度複製信息,但計算機完成任務靠的是基於固體硬體的現代電子數碼技術。假設用「濕軟黏糊的材料」製成一台複印機,你覺得如果用這台機器來讀取和書寫要複製的內容會犯多少錯誤呢?不過,如果「濕軟黏糊的材料」是你體內的一個細胞,要複製的信息以DNA的形式編碼,那麼錯誤的數量就會少於一個字,也就是 1/109。
高精度的複製對生命至關重要,因為活體組織高度的複雜性要求指令的設置必須同樣複雜,每一個錯誤都有可能是致命的。我們細胞內的基因組由約30 億個「基因字母」組成,編碼了約 1.5萬個基因。但是,就連最簡單的、進行自我複製的微生物,其基因組也有數千個基因,由幾百萬「遺傳字母」寫成。雖然大多數生物每一代都能容錯極少數的變異,但允許下 一代中擁有超過一掌之數的變異將引起嚴重的問題,比如形成人類的遺傳病,甚至誕下是無法存活的子代。此外,無論什麼時候,只要我們體內的細胞進行複製,包括血細胞、皮膚細胞和其他細胞等,都必須同時複製細胞內的 DNA 並注入到子細胞中。這個過程如果出了差錯,會引發癌症。
◆ ◆ ◆ 為什麼量子力學對遺傳極為重要
為了理解為什麼量子力學對遺傳極為重要,我們必須先回到 1953 年的劍橋大學。1953年2月28日,弗朗西斯·克里克衝進劍橋的鷹酒吧,興奮地宣布他和詹姆斯·沃森發現了「生命的秘密」。當年晚些時候,他們聯合發表了具有歷史意義的論文,在文中展示了一個結構並給出了一套簡單的規則,為兩個最根本的生命之謎提供了答案——生物信息是如何編碼的, 又是如何遺傳的?
許多文獻在描述遺傳密碼的發現時,習慣強調一個可以說是次重要的特點:DNA具有雙螺旋結構。這個發現確實引人注目,DNA優美的結構實至名歸,並由此變為科學界最具標誌性的形象,出現在T 恤衫、網頁, 甚至建築設計中。但雙螺旋結構本質上只是一個「腳手架」,DNA 真正的秘密在於腳手架上安裝的物質。
我們曾簡要介紹過,DNA的雙螺旋結構由糖–磷酸骨架支撐,上面攜帶著 DNA真正的信息:核酸鹼基鏈,包括鳥嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)和腺嘌呤(A)。沃森和克里克發現,鹼基的線性序列組成了某種密碼,而他們認為,這正是遺傳密碼。
在他們具有重要歷史意義的論文最後,沃森和克里克表示,DNA的結構也為第二大生命之謎提供了解答方案,他們寫道:「這並沒有逃出我們的關注範圍:我們提出的配對假說,同時為遺傳物質的複製提供了一種可能的機制。」沒有逃出他們關注範圍的,是雙螺旋結構的一個重要性質:螺旋雙鏈其中一條鏈上的信息,或者說鹼基序列,可以視為與另一條鏈上鹼基序列對應互補的拷貝——一條鏈上的 A 總和另一條鏈上的 T 配對,同理, G 總是和 C 配對。對應鏈上鹼基的特殊配對(A-T對或 G-C對)實際上是由一種弱化學鍵促成的,被稱為氫鍵。像「膠水」一樣將兩個鹼基分子結合在一起的氫鍵,本質上是兩個分子間共用的氫原子。氫鍵對我們的故事 很重要,稍後,我們會更詳細地討論它的性質。
配對 DNA 雙鏈間的弱結合順理成章地為基因複製提供了一種機理:雙鏈解旋分開成為兩條單鏈,每一條單鏈可以作為模板,分別在自身的基礎上形成互補的新鏈,使最初的一條雙鏈變為兩條,完成複製。這正是細胞分裂時基因複製的過程。雙螺旋結構的兩條鏈及其攜帶的互補信息解旋分開後,一種被稱為 DNA聚合酶的酶類得以靠近分開的單鏈。隨後,DNA 聚合酶與一條單鏈結合,並順著該鏈的核苷酸鏈滑動,讀取每個遺傳字母,並以分毫不差的準確性,在對應的位置插入與之互補的鹼基,使新鏈逐漸形成:只要遇到A,DNA聚合酶就在對應的位置插入一個T,只要遇到G, 就插入一個 C,直到完全形成一條互補的單鏈。同樣的過程也發生在剛剛分開的另一條單鏈上,使原先的一條雙螺旋鏈,變成了兩條:每個子細胞中各一條。
這個看起來簡單的過程,構成了我們星球上所有生物繁衍增殖的基礎。但是,薛定諤在1944年堅持認為,遺傳過程高得驚人的精確度無法用經典物理定律來解釋——他認為,基因太小了,基因的規則性不可能基於「來自無序的有序」原理。薛定諤提出,基因一定屬於某種「非周期性晶體」 (aperiodiccrystal)。那麼,基因真的是非周期性晶體嗎?
◆ ◆ ◆ 基因真的是非周期性晶體嗎?
晶體,比如鹽粒,有其特殊的形態。氯化鈉晶體(普通的鹽)是立方體, 而以冰的形式存在的水分子會組成六方體,並形成形態各異的雪花。晶體的形態是分子在晶體內部有序堆積的結果,因此,歸根結底,決定晶體形狀的還是量子規律,因為量子規律決定了分子的形狀。然而,雖然標準晶體高度有序,但是無法編碼信息。因為每一個重複的晶體單位都完全一樣—— 有點像棋盤格子樣式的壁紙,一條簡單的規律便足以描述整個晶體。
薛定諤提出,基因屬於他所謂的非周期性晶體:也就是說,這類晶體既具有和標準晶體類似的重複分子結構,但又經過某種調整,在重複單位之間有不同的區間或周期(因此稱為「非周期」),或是重複單位本身具有不同的結構——更像是花紋複雜的掛毯而非壁紙。薛定諤認為,這些經過調整的重複結構編碼了遺傳信息,而且像晶體一樣,它們的秩序也應該處於量子級別。注意,薛定諤提出這些主張時,比沃森和克里克的發現還要早十年:基因的結構,甚至基因的組成,多年之後才逐漸為人所知曉。
那麼,薛定諤是對的嗎?很顯然,DNA密碼確實是由重複的結構—— DNA 鹼基——組成的。DNA 鹼基非周期性地出現,每個重複單位中一定包含四種不同鹼基中的一種。正如薛定諤的預言,基因確實是非周期性晶體。但是非周期性晶體並不一定在量子級別編碼信息,比如,照片底版上不規則的顆粒是由銀鹽造成的,而非量子現象。為了檢驗薛定諤關於基因是量子主體的預測是否同樣正確,我們需要更深入地觀察DNA 鹼基的結構,特別是 A 與 T、C 與 G 之間互補的鹼基配對。
攜帶遺傳密碼的 DNA配對靠的是將互補的鹼基結合在一起的化學鍵。我們之前已經提到,這些鍵叫作氫鍵,是由兩個原子共用一個質子(也就 是氫原子核)形成的,兩個原子分別屬於在對應的兩條單鏈上互補的鹼基: 正是這些氫鍵讓鹼基配對結合。鹼基 A 與鹼基 T 配對, 因為每一個 A上的質子都恰好處於正確的位置,可以與T 形成氫鍵。鹼基 A 無法與鹼基 C 配對,因為質子的位置不對,無法形成氫鍵。
以質子為媒介進行配對的核苷酸鹼基就是在一代又一代生命之間複製和傳遞的遺傳密碼。而且,這可不是一次性的信息轉移,不是用一次性密碼本加密的信息,用後便要銷毀。遺傳密碼的可讀性必須要能夠貫穿細胞的一生,以便指揮細胞完成蛋白質的生產過程,製造出生命的引擎——酶, 並通過酶來編排細胞所有其他的活動。這個過程由一種叫作 RNA聚合酶的酶來完成。像 DNA聚合酶一樣,RNA 聚合酶會讀取沿著 DNA 鏈進行 編碼的質子的位置。就像一條信息要表達的意思或是一本書的謀篇布局是 由書頁上字的位置所決定的一樣,雙螺旋結構中質子的位置決定了生命的 「故事」。
RhesusBase
我就說一個 R,一個頂一群
UCSC cancer browser
主要提供TCGA相關腫瘤多組學(包括臨床信息)的數據可視化和分析
只知道cbio portal 是TCGA數據visualization,查某個基因amplification mutation 還蠻方便的
Cellminer 是NCI60cell line的數據 新出的一個rcellminer 一個r package 能quick visualization of gene mutation,drug response z score,find similar drug based on structure挺簡單實用
推薦閱讀:
※動力學模擬蛋白質摺疊的研究,現在還存在什麼問題?
※在 MD 安德森癌症中心學習是一種怎樣的體驗?
※網上的生物信息學資源都有哪些?
※如何快速掌握TCGA資料庫?
※與生物有關的交叉學科有哪些,他們的發展情況如何?