生物信息需要雲計算提供什麼樣的功能？

01-12

生物信息應用上雲，你碰到了哪些問題？
現有的阿里雲、亞馬遜AWS雲計算基礎設施需要做哪些改進，為什麼？
目前你用的最多的雲產品和Web Service API是哪些？

生信數據處理的特點是，第一階段，在預處理階段，比如測序數據比對至基因組序列時，需要較大的內存容量（以人為例，需要100～200G內存），目前的雲計算服務，幾乎都沒有提供100G內存以上的套餐。第二階段，在預處理以後（reads數已經轉變為表達值、peak區間之類了），絕大部分的分析需要的算力很小，目前絕大部分雲平台提供的服務都滿足條件，甚至個人筆記本都可以搞定。

所以，目前比較尷尬，對硬體有門檻，需要雲平台解決的步驟，國內沒有適合的雲服務套餐。這部分目前做的比較好，甚至已有壟斷趨勢的，是illumina自身的BaseSpace雲平台（硬體綁定啊，window綁ie牛不牛），但BaseSpace國內普及度不高。而後續的分析部分，則又對雲沒太大剛性需求，比較雞肋。

我假設你說的服務是IAAS，提供一個虛擬機給我使。

首先，你得弄個好網路，最好弄條專線接到我們實驗室。我可不想傳20G的數據用幾百k的速度往上傳，會慢死人的……

然後，存儲要便宜。我們raw data 20G，處理一下十幾G，再處理一下又十幾G……

系統最好能自己裝debian，那玩意包多。不要固定用CentOS，那貨的包實在是太太太太老了。

基本同意這個說法

生信數據處理的特點是，第一階段，在預處理階段，比如測序數據比對至基因組序列時，需要較大的內存容量（以人為例，需要100～200G內存），目前的雲
計算服務，幾乎都沒有提供100G內存以上的套餐。第二階段，在預處理以後（reads數已經轉變為表達值、peak區間之類了），絕大部分的分析需要的
算力很小，目前絕大部分雲平台提供的服務都滿足條件，甚至個人筆記本都可以搞定。

如果研究的方向是細菌或真菌的群落結構，測序的是某個biomarker，比如真菌的ITS，一台筆記本完全可以解決所有的問題。因為不需要組裝基因組，所以不需要大量的計算力。

之前OTU clustering可能需要用到大型計算機，現在演算法改進了，也不需要了。

目前需要的雲計算的主要功能就是存儲了吧，測序中心把數據存在學校的超算上，我們登錄了去取回來。不過因為數據比較大（~10G），我還是習慣在伺服器上做數據過濾（quality control）。但是所有的事情個人電腦目前都可以完成。

個人意見，現在限速步驟依然在獲取數據，生物獲取數據的成本遠高於傳統互聯網行業，所以生物現在的數據量對雲計算需求還不凸顯。因為有能力持續的大規模生產『有價值』的生物學數據的，全世界也沒有幾家。建議你直接到知因去問，上面有不少BGI的專家。

數據傳輸慢，可以郵遞硬碟；

內存不夠，阿里雲有128G的，大部分需求滿足了，偶爾不夠，自己配個私有伺服器，十來萬。

最大的問題是貴，以下是我整理的加個：

我們做培訓，為了配套伺服器給學員練習，剛開始用的阿里雲，但實在太貴扛不住啊。配置低到每當有學員問咱們的練習伺服器什麼配置，我都不好意思說。後來還是只能自己買了伺服器，但是自己配的伺服器，要保證網路穩定又是很大一筆開支

不用上雲，自己搭個伺服器就行

樣本對比，也就是說，要有足夠全面的數據，當然這不可能，都在搞，沒有流出來的

1個樣品做個比對用16核cpu，耗時約20小時。數據量大概20G（包括中間結果）。

十個樣品呢？光算就要200小時，傷不起！

查了下，目前的雲計算還真沒多少提供32核，內存64G+的。有的請推薦下啊！