立足基因大數據,人和未來要將技術解決方案商業化
調研 | 凱文 青川 關蕾
撰寫 | 關蕾
在大數據領域,人和未來是一家跨界於BT(Biotechnology生物技術)與IT的公司,歸類為基因大數據公司。
近幾年,受基因測序的需求推動,基因大數據行業蓬勃發展。然而,與激增的基因數據量對應的是效率低下的數據處理技術。
據行業數據,人全基因組數據約佔100-200GB的存儲空間,單個樣本數據量巨大。目前,分析一個人基因組200GB的Fastq.gz數據的單機計算耗時為30小時。高性能的壓縮、傳輸、計算等數據處理技術是行業普遍面臨的技術瓶頸。
人和未來由為了解決數據處理效率低下的問題,結合在BT+IT領域裡的跨界優勢,在IT信息技術方向提早布局、重點投入,目前已處於業內領先水平。去年以絕對優勢刷新世界紀錄,將全基因組分析時間從30小時縮短至18分鐘,只用了1/5的次優時間。
人和未來成立於2014年,團隊來自多個領域,如遺傳學、生物信息學、計算機及醫學等,奠定了其融合發展路線。
目前,人和未來布局有三條業務線,包括IVD(體外診斷)、大健康、大數據三個業務板塊。其中,IVD與大健康業務以基因檢測為基礎,服務於醫院、體檢機構、保險公司等客群;此外,新拓展的大數據業務,為數據產業鏈上下游的基因測序中心、精準醫學中心、測序客戶、雲廠商等提供高性能的數據壓縮、傳輸、計算等信息技術解決方案。
人和未來CTO宋卓表示,人和未來面向基因大數據行業提供一系列的信息技術解決方案,數據的壓縮、傳輸、計算技術解決方案將首先進入商業化階段,而數據的解讀和發現方案則會擇機發布。
企業客戶,是其主要目標,目前以直銷為主。根據大B類企業特點,客戶對供應商更換頻次較低,在一定程度上具有客戶粘性。人和未來的信息技術解決方案,以自身的基因行業背景為主要競爭力,是否能拓展到其他行業,如醫療影像數據處理等,需等待市場驗證。
近日,愛分析對人和未來聯合創始人兼CTO宋卓進行專訪,現將精彩內容分享如下。
布局基因大數據,數據技術正商業化
愛分析:出於怎樣的原因新開拓了大數據業務板塊?為客戶提供哪些服務?
宋卓:第一,基因的數據總量在劇增,今年全國預計超過100 PB量級,而且將保持100%的增長。第二,基因大數據的高性能處理分析,目前還沒有合適的工具,因此決定自己開發。基於已取得的優秀成果,我們計劃將最好的技術解決方案提供給整個行業,做跟基因相關的大數據技術產品。
愛分析:基因領域的大數據技術由哪些組成?
宋卓:包括五個部分:壓縮、傳輸、計算、解讀、發現。我們先關注前三個,通過數據的壓縮、傳輸和高性能計算而節省的資源、提升的效率都可以量化對比,商業化路徑相對清晰。解讀和發現,涉及到機器學習、生物信息、文本挖掘等技術,商業化道路仍需探索。
愛分析:壓縮、傳輸的IT屬性很強,計算帶有行業屬性?
宋卓:壓縮和計算處理的是生物基因數據,數據格式、特點都需要專業知識的特殊處理,對最終效果都有影響,具有很強的行業屬性。數據解讀和發現的生物屬性則最強。而存儲、傳輸的行業屬性則相對淡一些。
愛分析:解讀包括哪些?
宋卓:臨床上,解讀包括腫瘤精準用藥指南、遺傳疾病診斷諮詢;大健康方面,包括基因相關科普教育、腫瘤早期篩查、遺傳健康風險等內容。
愛分析:大數據業務,除了生信數據以外,還有哪些共性較高的行業數據?
宋卓:在醫療健康行業,除開基因的大數據,醫療影像領域同樣也在產生海量數據,單人數據超過5GB,因此對於高性能壓縮和傳輸也有剛性需求。我們的技術方案架構適用於多個領域,但首先會在基因數據領域中推廣和打磨。
愛分析:大數據業務做商業化,服務哪些2B客戶?
宋卓:客戶有兩類,一,大型基因測序公司,是基因數據生產、匯聚的機構,全國有二十餘家。二,擁有基因數據中心的醫院、高校、研究機構,它們是基因數據的使用方、應用方。
愛分析:現在合作的基因測序公司有哪些?
宋卓:目前大部分都還在測試和合作洽談中,我們一方面用社區版推廣先進技術,另一方面發布企業版為B端客戶推出專業安全的貼身技術服務。
愛分析:商業化會採用怎樣的模式?
宋卓:仍在探討,主要成本在於研發成本和計算硬體。定價層面,計劃按數據量收費,參考為客戶節省的成本。我們提供伺服器租用,減低客戶的啟動成本。
愛分析:如何服務雲上的客群?
宋卓:越來越多的基因測序公司開始使用雲服務,生成的數據一部分放在本地,一部分傳到雲端,這兩種方式我們都支持。從雲的角度,我們支持邊壓縮邊傳輸,我們在AWS Market Place中提供工具,幫助客戶節省存儲和傳輸成本。現在1 PB的存儲成本是100多萬,我們可以節約到1/3,節省了2/3的費用和空間。
愛分析:在AWS market place中收費模式是怎樣的?
宋卓:收費模式靈活,按用戶實際需求,可以按帶寬,也可以按數據量收費。
愛分析:企業版的數據會有哪些競爭力?
宋卓:企業版的競爭力源於其高性能和安全性。以最新的NovaSeq數據為例,企業版已破紀錄的將原始數據壓縮至3%以下,具有巨大的性能優勢。更重要的是,企業版會通過技術手段保證壓縮和傳輸的數據100%的與原始數據保持一致,在數據安全性上具有極高保障。
愛分析:壓縮效率這麼高是因為基因信息解析出來有很多冗餘?
宋卓:對,是的。人的一條基因組有3 Billon個,在測試時,需要把基因組測30遍,約100G的數據量。受現在高通量測序方法的限制,數據必須是冗餘的,否則將無法均勻覆蓋整個基因組。好比打斷一條的長長的鏈子,小片段容易丟失,所以得把30條鏈子都打斷了,揉在一起,才能還原成的原來的樣子,再通過比對尋找突變。
IVD與大健康共同發展,IVD獲取認證是關鍵
愛分析:基因檢測屬於哪條業務線?商業化程度如何?
宋卓:基因檢測作為一項重要的基礎技術,同時支撐IVD和大健康兩條業務線。其中IVD聚焦臨床的體外診斷檢測,大健康則關注基因相關的健康管理,目前多條產品線都已商業化。
愛分析:IVD業務有哪些特點?
宋卓:IVD是體外診斷。與基因相關的IVD,按檢測內容可以大致分為三類,遺傳病、腫瘤、感染。IVD的主要客戶是各級醫院和第三方醫學檢驗所。IVD特點是,它必須是一個CFDA(國家食品藥品監督管理總局)認證的醫療器械或試劑盒,供醫院或醫學檢驗所採購後提供檢測服務。
愛分析:目前,基因檢測獲取的CFDA的認證集中在哪些病種?
宋卓:與高通量測序相關的不多,現在發的認證主要集中在產前唐氏篩查領域。與PCR相關的不少,主要集中在遺傳、腫瘤、感染相關方向。
愛分析:通常情況下,報證周期會有多久?
宋卓:最短18個月,一般3年。
愛分析:腫瘤篩查屬於哪條業務線?
宋卓:我們做一些腫瘤的篩查性項目,像結直腸癌篩查,屬於大健康業務線。
愛分析:大健康相關有哪些應用?
宋卓:基因檢測作為一項新技術,相當於用一個全新維度觀察健康問題。大健康相關的應用可以分為三類,有檢測父母遺傳基因的疾病易感基因;也有檢測人後天累積突變的腫瘤早期篩查;除開人自身的基因,由於腸道菌群跟人體多種健康狀態息息相關,還有檢測人體腸道菌群基因的精準健康管理和干預項目。
愛分析:客群層面,除了機構客群,2C客群是否會考慮?
宋卓:最終的檢測者都是個人用戶,但我們是B2B2C。我們的判斷是2C市場還處於早期,需要若干年的市場教育才能成形。
愛分析:您剛才提到的大健康業務中後天積累的基因突變,與IVD業務的腫瘤應用,兩者有公用部分,只是在呈現方式上不同?
宋卓:是的,我們公用同一個技術平台,這個高精度多熱點的低頻突變檢測技術平台可以同時支撐大健康和臨床的基因檢測需求。在臨床上是輔助診斷,我們不涉及干預;在健康領域我們要負責提供干預方案和產品,以滿足客戶健康訴求。
愛分析:您認為現階段,基因數據量與演算法哪個更重要?
宋卓:在不同的階段,重要性不一樣。如果探索初期,合適的演算法尚未形成,數據最重要。一旦演算法成形,開始關注計算效率,演算法變得重要。計算同一個內容,有很多種實現演算法,在比較如何更快、更低成本的計算時,高性能的演算法更重要。
愛分析:對於腫瘤早期篩查,基因檢測需要定期測?
宋卓:是的。腫瘤早期篩查檢測的是在人在成長發育變老過程中累積的突變,這些突變以一定的概念時刻在發生。除了極少數的家族遺傳性腫瘤,大多數腫瘤多是後天致病突變累積而來。因此,腫瘤早篩需要定期檢測,相信以後該類型的基因檢測會成為人們熟悉的眾多體檢項目之一。
多學科融合的團隊構成,大數據業務或將獨立運營
愛分析:首先商業化的是哪個業務板塊?
宋卓: IVD和大健康是最先商業化的業務板塊。雖然大數據團隊一直都有,但前期一直處於技術開發階段,現在大數據技術方案已經成形,開始商業化。
愛分析:人員方面,這三塊業務是怎樣的分布?
宋卓:公司目前250多人,技術中心佔90多人.。實驗、生信、大數據三個研發團隊人數較均勻,各佔1/3。
愛分析:在項目執行時,定製化程度佔比有多少?
宋卓:企業客戶往往有自己的特殊需求,需要定製化服務,這些定製化內容同時也是產品的一個衍生。通常定製化部分佔整個工作量的1/5-1/4。解決一個企業的需求,也是解決一類企業的需求。
愛分析:和醫院合作是按照樣本量收費?
宋卓:對,按樣本數量計算。
愛分析:一般樣本費用是什麼量級?
宋卓:從幾百到幾千都有,看檢測項目,以及產生的基因數據量。大健康業務中,除檢測以外,管理和干預方案也是價格因素之一。
愛分析:大數據的商業化預期?
宋卓:預計今年產生幾百萬營收。
愛分析:為保險公司提供哪些服務?您看到,基因檢測是否有影響保費的趨勢?
宋卓:我們為保險公司提供樣本基因檢測和數據分析服務。保險公司則將基因檢測視為為客戶提供的健康福利。基因檢測結果並不影響保費計算,實際上由於這裡涉及很多政策和倫理問題,離現實還很遠。美國也還沒起步,中國樂觀估計也得5-10年時間。
愛分析:大健康業務每年是怎樣的增速?
宋卓:增速100%,我們希望能建立一個智能化的精準健康方案服務平台,為健康產業上下游企業服務。
愛分析:如何用個性化的基因數據做通用平台?
宋卓:個體數據都是個性化的,但數據分析的邏輯是通用的。
愛分析:人和未來向基因測序公司輸出大數據技術,會不會因為業務衝突降低自身競爭力?
宋卓:不會的。可以分幾個層面看,第一,我們提供的是底層的IT技術解決方案,對所有應用方來說是透明的,通過提高效率為企業省錢是受歡迎的。第二,基因檢測種類繁多,屬於新興市場,各家公司各有所長各有所重,我們的業務很難與一家具體公司形成競爭,更多的是合作。第三,長遠來看,我們會把大數據業務獨立成公司,獨立運營。
愛分析:對標公司有哪些?
宋卓:大數據業務中,高性能雲計算對標的是Seven Bridges,FPGA計算加速對標的是Edical Genomics。IVD和大健康業務,雖然基因檢測公司眾多,但因為市場足夠大,且各有側重和優勢,我們並沒有設置具體的對標公司。
推薦閱讀: