基因測序提速46倍 諾禾致源借阿里雲繪製基因科學藍圖

 十萬人基因組計劃邂逅雲計算 阿里雲助力諾禾致源打造雲上基因平台

  2017年的最後一周,我國啟動了「中國十萬人基因組計劃」, 繪製中國人的精細基因組圖譜,這是我國在人類基因組研究領域實施的首個重大國家計劃,需要在四年內完成全部的基因測序與分析任務。

  作為六家單位之一,北京諾禾致源參與了此次十萬人基因組計劃,藉助阿里雲的計算和存儲能力,諾禾致源能在17分鐘內就載入完1萬個人類全基因組數據,僅用1.5小時就可完成單個基因測序pipeline,比此前快了46倍之多,極大縮短了測序的時間。

  在雲計算快速發展的這幾年中,諾禾致源一直在努力推進基因測序上雲建設。目前,諾禾致源已將基因測序業務陸續遷移到阿里雲,為基因行業全面雲化實現雲上數據採集、基因測序、結果交付的夢想,邁出堅實且重要的一步。

  基因業務快速增長 本地IT資源遇難題

  諾禾致源成立於2011年,彼時之雲計算還處於起步階段,諾禾選擇了自建本地IT資源來承載業務。然而隨著近年業務的增長,以及本地IT資源面臨升級改造的時間節點,問題逐漸暴露:

  ?伺服器配置不足,運行性能不理想

  ?·系統運行速度慢

  ?·業務卡頓不流暢

  ?·數據上傳速度慢,非常耗時

  ?傳統存儲無法滿足業務快速增長

  ?·物理存儲介質有安全隱患,老化、意外丟失、損壞

  ?·存儲容量有限,無法應對突發業務

  ?·需要專人運維保管,增加人力成本

  ?·售後服務差,溝通成本

  ?定製化分析較困難

  ?·業務與IT資源匹配溝通成本高

  ?·IT資源無法定製化,技術不匹配

  ?·本地資源排隊,數據分析延誤長達1個月

  CPFS+FPGA 存儲+計算的雲上基因平台

  日前,阿里雲推出了基於NAS的並行文件系統——CPFS,可提供高達1億的IOPS和1TB/s的吞吐能力,支持大型並行數據處理能力,可大幅提升基因測序、科學計算等高性能計算的工作效率。

  具體來說,CPFS可將數據條帶化後均勻分布在整個存儲集群上,允許client並行訪問,吞吐和IOPS隨存儲節點的數量實現線性增長,整個存儲集群對外提供超高的聚合帶寬和IOPS。同時,採用融合乙太網的 RDMA 協議 (RoCE) 網路縮短IO訪問的網路時延,進一步提高了IO訪問速度。

  此外,基於Paxos ring的仲裁調度,CPFS可自動檢測服務節點異常,快速切換到備用節點,保障服務的可用性。

  諾禾致源第一時間在雲端構建了基於阿里雲CPFS的基因測序解決方案。如下圖所示,通過專線連接阿里雲,人基因數據從測序儀下機後,樣本數據通過專線上傳到雲端的OSS對象存儲中,再通過CPFS並行文件系統配合ECS計算集群完成基因測序任務。

  業務系統上雲後,數據分析過程都在雲端完成,除了常規的ECS彈性計算外,諾禾致源還創新引入了阿里雲推出的FPGA雲伺服器,這是一款現場可編程門陣列(FPGA)的計算實例,這類異構計算實例支持並行計算,計算能力、吞吐量、能耗比比傳統CPU或GPU要強上十倍。

  由於FPGA硬體的可重配特性,用戶可以對已創建的FPGA硬體加速應用,進行快速擦寫和重配,達到低時延硬體與彈性伸縮最好的結合。基於FPGA+CPFS的黃金組合,諾禾致源將單個基因測序pipeline從傳統模式下的70個小時縮短為僅用1.5個小時即可完成。同時,僅需17分鐘即可載入完1萬個人類全基因組數據,這些原始數據多達300GB。這一速度對臨床醫學的快速診斷、科研成果的快速轉換具有重大意義。

  雲計算助力精準醫學 基因科學如虎添翼

  藉助於阿里雲提供的海量雲存儲和批量彈性計算,諾禾致源能夠以更大的吞吐、更快的速度、更低的成本分析人類基因組數據,助力精準醫學。

  截至目前,諾禾致源運營有25台Novaseq和三套Hiseq X Ten,每年可完成28萬人的全基因組測序,是全球最大的基因測序平台,業務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,極大地提升了國人遺傳疾病分析和診斷的效率。

  雲帶來的不僅是效率的提升,還有成本的下降,目前機構的檢測成本已低至數百美元。這一價格還將持續下降。今後,人類做一次檢測,或將和用體溫計量一次體溫一樣便捷。

  或許在數年之內,每個新生兒都會被繪製基因組圖,每個成年人都通曉生命出路。


推薦閱讀:

轉基因作物能增產能抗蟲是騙人的嗎?
基因突變是錯誤還是目的?
對自私的基因有疑問 有性生殖不是會改變原來的基因嗎?
WeGene微基因:原來我們不是北京猿人和元謀人的後代。(第一次做WeGene基因檢測,有優惠碼)
遺傳的不僅是基因!新研究發現表觀遺傳的代傳證據

TAG:科學 | 基因 | 阿里雲 | 測序 | 基因科學 |