零氪科技創始人張天澤:醫療大數據難點重重,高質量數據就是壁壘 | 愛分析訪談

指導 | 凱文

撰寫 | 李喆

摘要:醫療行業信息化程度高,但存在大量非結構化數據,如何以低成本方式獲得高質量臨床數據是關鍵壁壘;醫療數據自成體系,外部數據只能作為交叉驗證的手段,很難產生決定性影響,因此,醫療大數據是個進入門檻極高的領域。

今年是大數據與行業應用深度融合的一年,金融、公安等領域已經出現相對成熟的行業大數據應用案例,競爭格局正趨於明朗。但在醫療、工業等領域,大數據對行業的改變才剛剛開始,這些領域的公司更加值得關注。

醫療大數據一直是大數據應用領域的重要細分賽道,大數據與醫療結合,不僅僅會提升臨床診療效果,還會對保險、藥品研發等多個醫療健康領域產生深遠影響,因此醫療大數據想像空間巨大。。

根據國務院40號文件,到2020年,全國醫療及健康行業市場規模會達到8萬億人民幣,整個醫療行業信息化投入佔比在1%左右,當硬體、基礎軟體完成採購後,預算會向大數據傾斜,因此未來醫療大數據領域至少是個千億級市場。

醫療領域主要分為三類數據,生活數據、健康數據和臨床數據。這其中臨床數據最為關鍵,數據維度最多、質量最高,其他兩類數據存在兩大問題:數據採集質量難以保障,數據維度單一,只能作為交叉驗證的輔助。

因此,外部數據源很難對醫療大數據產生正向推動作用,獲取臨床數據成為關鍵,而臨床數據基本都掌握在各大醫院手中,這就使得醫療大數據成為一個進入門檻很高的領域,所有大數據公司必須通過服務醫院來獲取數據。

由於中國醫療資源極其不平衡,頂級三甲醫院掌握著絕大多數優質患者數據,特別是在一些癌症病例,一個醫院很可能掌握全國90%的某種肺癌患者數據。這就使得服務中小醫院價值非常有限,只有服務頂級醫院才能獲取優質數據。

獲取醫院客戶只是剛剛開始。醫療行業是信息化程度很高,但數據化程度很低的領域,絕大多數醫院已經實現了HIS系統全覆蓋,通過HIS系統可以採集到不少患者數據。但由於患者信息的底層邏輯不清晰,使得這類患者數據多數為非結構化的文檔數據,沒辦法直接做數據分析與應用,因此數據清洗是醫療大數據的另一個難點。

傳統做法是由CRO(臨床研究機構)派人到現場採集臨床數據,這類數據的獲取成本極高,單個患者的病例數據成本超過1000美金。

在深度學習等AI技術興起後,不少創業公司嘗試利用自然語言理解、圖像識別等技術降低臨床數據清洗的成本。但臨床數據非常不規範,對同一癥狀存在大量不同描述,僅僅依靠機器學習技術很難獲得優質數據,目前常見的做法是人工標註加機器學習技術,降低數據清洗中人力成本是關鍵。

綜上所述,愛分析認為,醫療大數據處於極為早期階段,幫助行業客戶打好數據基礎是第一步,整個行業還處於數據化階段,高質量數據目前還是非常重要的競爭壁壘。

因此,對醫療大數據公司而言,獲取標杆客戶和降低數據清洗成本是兩個關鍵因素,能夠擁有或接觸大量優質臨床數據是目前最重要壁壘。

目前,國外已經跑出不少醫療大數據公司。Inovalon於2015年登陸納斯達克,市值20億美金;電子病歷Flatiron去年完成1.75億美金C輪融資。

國內市場儘管處於早期階段,但仍然出現了碳雲智能、零氪科技、醫渡雲、推想科技等多家醫療大數據公司,其中2014年成立的零氪科技發展勢頭兇猛。

儘管成立不到三年,零氪科技的團隊規模已經超過800人,服務於包括北京協和、四川華西、中南湘雅等全國頂尖醫院在內的400家醫院,建立結構化電子病歷,輔助醫生進行臨床科研和診療,同時建立一支200人的患者隨訪團隊,幫助醫院了解患者離院狀況。

零氪科技將大量人力投入到數據採集和清洗工作,100人研發團隊主要利用機器學習技術實現醫療數據的結構化,300人的臨床團隊主要在客戶現場進行數據標註和收集HIS系統外的數據。

再加上患者隨訪團隊,零氪科技實現臨床數據的閉環,建立起患者的多維度數據,為下一步應用奠定基礎。

零氪科技為大醫院和中小醫院提供不同服務,大型醫院的科研需求旺盛,零氪科技主要通過HUBBLE和EDC系統輔助醫生做臨床研究。同時,將部分研究成果沉澱在產品中,這些研究成果可以為中小醫院提供輔助診療支持,這部分業務多數以SaaS形式實現。

就目前而言,零氪科技的主要業務仍然是幫助大型醫院做數據採集、數據結構化等,輔助管理、輔助科研、輔助診療的HUBBLE系統剛剛上線,輔助診療的產品同樣剛剛起步。不過,通過三年積累,零氪科技已經獲取不少腫瘤醫院客戶,建立腫瘤患者資料庫,數據基礎已經打牢,業務即將進入爆發階段。

近期,愛分析對零氪科技創始人張天澤進行調研訪談,他對零氪科技的業務模式、醫療大數據的行業現狀與趨勢進行闡述,現將精彩內容分享如下。

醫療是高信息化、低數據化的行業

愛分析:大數據、AI技術發展對醫療行業將起到哪些作用?

張天澤: 需求是牽引方,技術是驅動方。如果團隊只有技術基因,往往不知道產業需求是什麼,做產業轉化很困難。因此,醫療行業是個強業務導向行業,業務佔六七,技術佔三四。

互聯網經常講「試錯」,但醫學底層邏輯是不能證明對,就不能做,不能拿患者來「試錯」,非常強調需求牽引。

愛分析:醫療行業有大量數據,為什麼這些數據沒有被使用起來?

張天澤:醫療和金融有很相似的地方,每次決策都圍繞數據開展。尤其是西醫分科治學後,醫學已經完全被數據驅動。

例如,CFDA審查藥品完全靠數據評價藥品有效性,人社部用HUR(藥物經濟效率)來評價藥品該不該報銷,衛計委用臨床路徑來評價這種治療路徑對患者受益是不是最多和普適性是否足夠高。

不同在於,金融行業每個動作所產生的數據都是結構化的,而醫療行業產生的都是非結構化數據,只能算是電子化信息。患者產生的信息都是「黑盒」,底層邏輯不清楚,沒辦法用幾個指標「刻畫」一次治療,醫生只能用開放式方法記錄這次治療情況。

所以,醫療行業產生的都是大量文檔,而且很多以圖片形式存在,比如影像、病理資料。有些看似結構化而實際以非結構化存儲的數據,如藥品使用情況。

因此,HIS系統已經很普遍的情況下,產生的仍然是大量非結構化的業務數據。

數據質量、密度和獲取成本是重要指標,其他領域數據價值有限

愛分析:既然數據這麼重要,什麼樣才算有價值數據?

張天澤:有三個存在先後順序的指標,依次滿足才是高質量數據。

第一,數據質量。數據質量就是數據的真實性、準確性、顆粒度是否夠細。真正能做臨床研究、藥品評價的才是最高級別的數據。

不同質量級別的數據能滿足需求是不同的,並非只唯數據量論,100倍低質量等級的數據也無法滿足高級別數據的需求。

數據質量決定了所能提供的業務範圍,決定能否做諮詢、解決方案。

數據質量如何評價呢?用GCP(藥物臨床實驗質量管理規範)就能評價,一致率、準確率、顆粒度是否夠細,有沒有原件,這些都是GCP對好數據定的標準。

第二,數據的密度。比如說,十萬例數據如果是包含有門診、挂號,體檢等多個類別的數據,這樣意義不大,但如果這10萬例數據全部是肺癌,更或是非小細胞肺癌,那這個體量的數據基本就可以回答人類對非小細胞肺癌的近乎全部問題了,價值巨大。

數據密度背後的邏輯是分科治學。單點突破能夠提供巨大的醫學、社會和商業價值。

第三,獲取這類高質量數據的成本。過去主要是CRO用數據,受葯企委託採集數據,獲得患者的用藥數據。

以前獲取一例病曆數據的成本在1000-10000美金,因此,需要考慮採集成本,能否提升效率。如果是百倍效率提升,那這個模式就有顛覆性。

愛分析:單個醫院在某種病例上的數據密度高么?

張天澤:假設我們跟協和合作,因為協和是頂級醫院,看起來如果幫助協和把數據都處理好,就能把人類醫學問題解決了,因為相當於可以洗出來所有數據。但實際情況是,不同醫院在篩選病人時都有自己的特點,在肺癌領域,協和面對的可能只是一類病人,所以單個醫院的疾病譜是不全的。

所以,一直做醫療大數據有兩類觀點。第一類是做大醫院,與單個大醫院合作,幫助他們把所有數據都處理了;第二類是做單病,同一種病跟全國的醫院合作,重點解決同一類問題。

第一種做法效率很低,因為不研究這類病的業務,就沒辦法把這類病需要的結果都找出來,所以,一個醫院的數據很難清洗完全。同時,攢的數據不夠多,密度不夠大。一個大醫院能擁有幾千萬病例,但真正到一個垂類時數據不多,而且這類數據即使匯聚十年數據,他的疾病譜也不完整。

愛分析:醫療這個行業是不是不需要外部數據,只需要依賴客戶自身的數據?

張天澤:對,醫療數據就分三類,最淺的是生活數據,第二類是健康數據,第三類是醫學數據。這裡面數據顆粒度和可信度是完全不同的,醫院數據是最可信的,每一個檢查檢驗都通過了CFDA設備檢測。

用腕錶、血糖監護等移動設備收集的是院外健康數據,這些數據可信度存疑,往往是比較鬆散,交叉數據不夠多,數據種類比較單一。醫療數據的特點是必須多個維度,只看到一個側面的數據是遠遠不夠的。

生活數據如飲食量、走路步數等,可以用於交叉匹配,單獨使用價值很低。

因此,這個行業的特點是,帶著場外資源進場很難會比現有公司做的更好。

機器學習+人工標註是主流數據清洗方式

愛分析:目前主要有哪幾種採集數據的形式?

張天澤:其實就是清洗數據方式不同。第一類是用機器洗數據,搜索引擎方式做分詞;第二類是用人工洗數據,派人到現場錄,跟以前CRO類似。第三類是人工做標註,然後再用機器做機器學習,兩項結合,才能產生有質量數據。

機器洗數據,最大挑戰是病曆書寫太不規範,不能遍歷所有醫生的表達方式和習慣。就連在數據規範做的最好的美國,Google都承認演算法是永遠寫不出醫學數據背後的業務特徵。所以Google投資了第三類公司Flatiron Health。做法是先做標註,標註後用機器學習繼承人對病歷的書寫,始終保持人來標註數據,而不會全部交給機器。

第二類方式,一方面,採集數據的成本會隨著團隊規模越大而越來越高,主要是因為管理成本增加;另一方面,最初是與頭部醫院合作,數據密度大,當與腰部醫院合作時,數據密度小,效率會降低。

我們現在用第三類方式,隨著規模擴大,每份病歷的成本在不斷減低,而且數據質量最高。

愛分析:做數據清洗時,人工標註工作會不會考慮外包出去?

張天澤:不會,人工標註是強業務導向,這些人需要能看懂病理報告,市場上都找不到像這樣的一百人團隊做業務標註的。

輔助頭部醫院科研,輔助腰部醫院診療

愛分析:零氪科技(LinkDoc)有哪些核心技術,能夠解決什麼問題?

張天澤:第一個問題是臨床醫生做科研的時候,有大量患者和病歷,怎麼把非結構化的HIS數據,變成充分結構化、質量高、成本低的數據。LinkDoc自主研發的結構化引擎DRESS,關於其核心演算法,我們和北美最好的腫瘤醫學院Fred Hutchinson已經共同發文——用AI技術驅動把非結構化數據變成結構化,配套一些做標註、質量控制的系統。主要解決臨床科研問題,只有這個數據才能做後續業務。

如何分析、洞察、洞見以及科研假設,是下一個問題。以前醫生通過感性認識得到假設,做醫學研究。這樣特別依賴醫生的感性積累和專家假設,數據可以告訴我們更多假設相關性。因此,我們開發了HUBBLE系統,管理全樣本數據,找出其中的規律。

形成假設後,需要用小樣本數據來驗證假設,做項目制數據管理。這時候,是我們的EDC系統專門做數據採集和數據分析,就是按項目分析小樣本數據。圍繞具體項目,用醫學統計方式解決問題。

產生大量學術觀點後,學術觀點的博弈就變成了指南,指導醫生治療。所以,在臨床階段,我們的AI系統會變成輔助診斷的模塊和插件。在患者治療時,這種相應的提示和預警會彈出來。

臨床AI一直有兩種方式,一種是主動式的,主動去問,系統才會反饋,另一種是被動式,持續在後台工作,遇到問題自動彈出。

愛分析:頭部醫院和腰部醫院的需求應該有差異,LinkDoc主要服務哪類醫院?

張天澤:頂級醫院是數據來源的核心供給,因為他們在科研上有需求,同時掌握大量數據。醫療領域有些疾病是「一九原則」,10%醫生治療了90%的重大疾病患者。因為醫療專業壁壘太強,越是知名醫院,患者越多,醫生成長就越快。

真正數據合作夥伴是頭部效應非常顯著的,但是被數據惠及的是整個行業,有些醫療機構會是數據應用場景,但不是數據來源。

愛分析:從頭部醫院獲取的數據價值是如何提供給其他醫院的?

張天澤:誰的數據歸誰用,這是底層邏輯。每家醫院加工自己的數據、管理數據、使用數據,整體數據背後的認知和解決方案是可以回歸到臨床,讓其他醫院的醫生去使用,包括併發症預測、肺癌手術方案預測等。

愛分析:給其他醫院提供的是SaaS產品還是本地軟體?

張天澤:是SaaS產品,這裡面的輔助決策和診斷,不是穩定模型。最大難度在於顆粒度不細,只有通過SaaS才能非常精細化解決個人問題。實時不斷刷新、使顆粒度變細,還能個性化針對性解決問題,這是只有SaaS能做。

先發優勢明顯,數據採集和清洗需要大量人力

愛分析:如果醫院選擇LinkDoc產品後,很難會去選擇第二家公司的產品么?

張天澤:很難,這個行業不是可以被補貼出來,不會被營銷所打動。醫生和患者不會被低補貼所打動,高補貼又很難持續,這個行業完全是價值驅動的。

愛分析:目前LinkDoc團隊規模大體是什麼樣?

張天澤:我們總部有300人,客戶現場臨床有300人,還有200人做患者隨訪。

愛分析:臨床那個團隊現在主要工作是什麼?

張天澤:HIS系統對接後仍然有很大挑戰,大量工作是為了確保臨床採集質量高、合規。首先是數據合規性,包含現場脫敏、患者知情告知的簽署等;其次是數據完整性,HIS系統能採集到的數據是不完全的,我們還需要做一些採集工作,紙質文件的拍照上傳等。

愛分析:組建200人團隊做患者隨訪是處於哪些考慮?

張天澤:到患者出院時,只是完成了上半場,沒有後面患者康復情況、有沒有繼續治療等結果。臨床的操作數據是只有輸入沒有輸出的,這樣無法指導後續決策的。

沒有隨訪是整個行業問題,所以,我們建立了隨訪中心,幫助各個醫院把隨訪結果收集上來,醫生可以藉此來寫論文。

關注愛分析訂閱號(ifenxicom),回復「 零氪科技 」即可獲得完整版報告。

愛分析是一家專註創新領域的獨立投研機構,研究領域包括新金融、企業服務、人工智慧、教育科技、汽車出行和新零售等。關注愛分析公眾號ifenxicom,及時獲取重要信息。

添加愛分析群小秘微信(ID:ifenxi502)即刻加入愛分析行業討論群。


推薦閱讀:

TAG:人工智能 | 医疗 | 医疗数据 |