標籤:

生信分析平台搭建(十七):伺服器配置

本文首發於微信公眾號「基因學苑」,未經授權,不得轉載,搜索「genecollege」。

熟悉完虛擬機配置伺服器之後,就可以嘗試上手搭建實體伺服器了,如果要選購伺服器,應該考慮哪些因素呢?如果不差錢,那就好辦了,直接選最貴的就好了。在預算有限的條件下。CPU,內存,硬碟如何取捨,達到最佳性能,是否需要購買UPS,顯卡是否有必要?這些問題,我們一文解決這些疑問。

二十二:伺服器配置

1、CPU

CPU是計算機的大腦,計算機的計算主要就是靠CPU來完成,所以,CPU非常重要,CPU的計算速度決定了計算機的計算能力。也就是水桶效應中最上面的那塊木板。比如序列拼接這個工作,需要將測序的reads切成更小

的片段,然後將這些小片段根據序列間的關係,連成更長的片段,那麼這些片段有數百萬至數千萬,需要非常大的計算量。如果數據複雜,計算量就更大了。

另外,CPU還需要支持多核心,CPU是大腦,一個核心是一個心眼兒,所以,我們知道心眼越多的人越聰明。多核心就可以進行並行計算,在生物信息分析中,有些工作,可以進行並行計算。相當於原來一個人的工作,現在由100個同樣的人來做,理論上速度快了100倍。因此,在硬體配置中,選擇CPU是非常重要的。

2、內存

內存是CPU和硬碟之間數據交流的媒介,計算機需要將存儲在硬碟上的數據讀取到內存中,CPU才能用來計算,而CPU不能直接讀取硬碟上的數據,必須通過內存這個緩衝區,舉個例子,CPU是大腦,內存是脖子,脖子以下是硬碟。內存往往就是「瓶頸」。

假設一個人的全基因組測序數據,採用二代測序的方法,人的基因組3G,10被數據30G,那麼這30G的鹼基,在切成更小的kmer,假設數據增加到了100G,還不算存儲序列的一些其他信息,序列拼接的時候必須一次將所有數據同時存入內存,如果內存達不到100G,拼接根本無法完成。

3、硬碟

硬碟其實是計算機硬體配置中非常重要的一環,但是硬碟往往容易被大家忽略掉,認為硬碟用來存儲數據,只要需要足夠大就行了,這是不對的。

首先大存儲量是必須的,因為生物數據往往都稱為生物大數據,非常消耗存儲空間,包括原始的數據存儲,中間分析結果,最終結果,數據備份等,尤其是在樣品量大的時候,就會非常佔據存儲空間,一般都是以T為單位的。

其次,硬碟的讀寫速度,這個也是非常重要的因素,因為目前CPU計算速度和內存已經足夠大了,這樣的條件下,硬碟成為限制計算機整體性能的因素。因此使用SSD硬碟會明顯改善計算機性能。由於目前SSD過於昂貴,可以選擇SSD+機械硬碟的方案,硬碟要做成RAID提高讀寫速度和數據安全性。

4、顯卡

可以選配顯卡,這個並不是必須的,因為很多分析工作都是文本操作,顯卡適合於圖形計算,例如計算蛋白質空間結構,構建系統網路等,可以選擇配置顯卡。

5、不間斷電源UPS

UPS相當於一個大的移動電源,為了防止突然斷電,導致數據丟失。UPS還是非常重要的。有些生物計算需要持續很長時間,例如拼接一個大的基因組,構建一個大的系統發育樹等可能數十天時間,一旦斷電,損失非常大,不要心存僥倖心理,災難往往就發生在那些心存僥倖心理的人身上。

6、其他

冷卻系統,如果是大型計算系統,設備會產生大量熱量,需要建設冷卻系統。


推薦閱讀:

初識GATK
生信分析平台搭建(九):Aspera
【工具】IPA分析RNA-seq數據
生物信息實用R語言筆記1-軟體安裝與設置
基因差異表達之一 - RPKM, FPKM, TPM, 傻傻分不清楚

TAG:生物信息學 |