生物信息需要雲計算提供什麼樣的功能?
01-12
生物信息應用上雲,你碰到了哪些問題?
現有的阿里雲、亞馬遜AWS雲計算基礎設施需要做哪些改進,為什麼?目前你用的最多的雲產品和Web Service API是哪些?
生信數據處理的特點是,第一階段,在預處理階段,比如測序數據比對至基因組序列時,需要較大的內存容量(以人為例,需要100~200G內存),目前的雲計算服務,幾乎都沒有提供100G內存以上的套餐。第二階段,在預處理以後(reads數已經轉變為表達值、peak區間之類了),絕大部分的分析需要的算力很小,目前絕大部分雲平台提供的服務都滿足條件,甚至個人筆記本都可以搞定。所以,目前比較尷尬,對硬體有門檻,需要雲平台解決的步驟,國內沒有適合的雲服務套餐。這部分目前做的比較好,甚至已有壟斷趨勢的,是illumina自身的BaseSpace雲平台(硬體綁定啊,window綁ie牛不牛),但BaseSpace國內普及度不高。而後續的分析部分,則又對雲沒太大剛性需求,比較雞肋。
我假設你說的服務是IAAS,提供一個虛擬機給我使。首先,你得弄個好網路,最好弄條專線接到我們實驗室。我可不想傳20G的數據用幾百k的速度往上傳,會慢死人的……
然後,存儲要便宜。我們raw data 20G,處理一下十幾G,再處理一下又十幾G……
系統最好能自己裝debian,那玩意包多。不要固定用CentOS,那貨的包實在是太太太太老了。基本同意這個說法
生信數據處理的特點是,第一階段,在預處理階段,比如測序數據比對至基因組序列時,需要較大的內存容量(以人為例,需要100~200G內存),目前的雲
計算服務,幾乎都沒有提供100G內存以上的套餐。第二階段,在預處理以後(reads數已經轉變為表達值、peak區間之類了),絕大部分的分析需要的
算力很小,目前絕大部分雲平台提供的服務都滿足條件,甚至個人筆記本都可以搞定。
如果研究的方向是細菌或真菌的群落結構,測序的是某個biomarker,比如真菌的ITS,一台筆記本完全可以解決所有的問題。因為不需要組裝基因組,所以不需要大量的計算力。
之前OTU clustering可能需要用到大型計算機,現在演算法改進了,也不需要了。
目前需要的雲計算的主要功能就是存儲了吧,測序中心把數據存在學校的超算上,我們登錄了去取回來。不過因為數據比較大(~10G),我還是習慣在伺服器上做數據過濾(quality control)。但是所有的事情個人電腦目前都可以完成。個人意見,現在限速步驟依然在獲取數據,生物獲取數據的成本遠高於傳統互聯網行業,所以生物現在的數據量對雲計算需求還不凸顯。因為有能力持續的大規模生產『有價值』的生物學數據的,全世界也沒有幾家。建議你直接到知因去問,上面有不少BGI的專家。
數據傳輸慢,可以郵遞硬碟;
內存不夠,阿里雲有128G的,大部分需求滿足了,偶爾不夠,自己配個私有伺服器,十來萬。
最大的問題是貴,以下是我整理的加個:
我們做培訓,為了配套伺服器給學員練習,剛開始用的阿里雲,但實在太貴扛不住啊。配置低到每當有學員問咱們的練習伺服器什麼配置,我都不好意思說。後來還是只能自己買了伺服器,但是自己配的伺服器,要保證網路穩定又是很大一筆開支
不用上雲,自己搭個伺服器就行
樣本對比,也就是說,要有足夠全面的數據,當然這不可能,都在搞,沒有流出來的
1個樣品做個比對用16核cpu,耗時約20小時。數據量大概20G(包括中間結果)。十個樣品呢?光算就要200小時,傷不起!查了下,目前的雲計算還真沒多少提供32核,內存64G+的。有的請推薦下啊!
推薦閱讀:
※目前基因測序體檢的風險是什麼?為什麼會被兩部委叫停?
※如何看待 Science 雜誌評論文章專門介紹了中國的測序公司華大基因?
※全基因組測序數據獲取後應該怎麼分析?
※OneSeq二代測序報價平台的推出,對國內NGS測序與生信數據分析市場會造成怎樣的影響?
※當前computational biology發展如何?會有怎樣的突破?