視角觀察:四個話題讀懂大數據醫療

回顧歷史,「大數據」這個時髦的辭彙,在物理學、生物學、環境生態學等領域,以及軍事、金融、通訊等行業存在已有時日。但是真正引起人們高度關注的,還是因為近年來互聯網和信息行業的迅速發展所致。

一、 大數據的前世今生

且讓我們來看看「大數據」在互聯網行業的表現。首先,它源於互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於人們將不能再用G或T來衡量,所以,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。  那麼,大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們:一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜誌770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……

  截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。

  一系列的數據無不向我們傳達著一個概念,那就是「大」,以幾何倍數增長的大,而且越來越大。但是,如果就此顧名思義,定義了「大數據」,那還是有失偏頗。

  最早提出「大數據」時代到來的,是全球知名諮詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」

  牛津大學互聯網研究所維克托·邁爾·舍恩伯格教授指出,「大數據」所代表的是當今社會所獨有的一種新型的能力——一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品、服務和見解。

 「大數據」會給整個社會帶來從生活到思維上革命性的變化:企業和政府的管理人員在進行決策的時候,會出現從「經驗即決策」到「數據輔助決策」再到「數據即決策」的變化;人們所接受的服務,將以數字化和個性化的方式呈現,藉助3D列印技術和生物基金工程,零售業和醫療業亦將實現數字化和個性化的服務;以小規模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將以向大規模定量化數據分析轉型;將會出現數據運營商和數據市場,以數據和數據產品為對象,通過加工和交易數據獲取商業價值;人類將在哲學層面上重新思考諸如「物質和信息誰更基礎」、「生命的本質是什麼」、「生命存在的最終形態是什麼」等本體論問題。

  綜上所訴,我們對「大數據」概念基本能有個全方面的認識。「大數據」不是數據量的簡單刻畫,也不是特定演算法、技術或商業模式上的發展,而是從數據量、數據形態和數據分析處理方式,到理念和形態上重大變革的總和。所謂「大數據」,是基於多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學範式、生活方式和觀念形態上的顛覆性變化的總和。

二、 對傳統醫療的挑戰

搭上「互聯網+」的列車,醫療機構便開始行進在醫療信息數字化的路上。

  醫療數據是醫生對患者診療和治療過程總產生的數據,包括患者基本數據、電子病歷、診療數據、醫學影像數據、醫學管理、經濟數據、醫療設備和儀器數據等,以患者為中心,成為醫療信息的主要來源。而不斷數據化的信息,在使醫院資料庫信息容量不斷膨脹的同時,也對疾病及病人的管理、控制和醫療研究起到了積極的作用,價值不菲。

  但是,發展了那麼多年的傳統醫療行業,現在要跨入「互聯網+」的頻道,其固有的複雜性和特殊性致使轉型難度不容小覷。就拿一個初具規模的醫院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息彙集在一起,那將是一個非常龐大的數據。

  據初步統計,上海市區域醫療信息平台(上海市「醫聯工程」及區縣衛生數據中心)已經積累了覆蓋3900萬人群、1400 TB數據量的電子診療與健康檔案等醫療衛生數據(涵蓋了全市38家三級醫院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫學影像圖像文件、住院相關病歷、醫保結算等醫療衛生數據,涉及就診記錄2.1億條,處方記錄9.1億條)。

日積月累,這個數據量將會持續快速增長,為醫院的數據存儲、集成、調用等應用帶來巨大壓力。除了數據規模巨大之外,醫療行業的數據類型和結構極其複雜,如PACS影像、B超、病理分析等業務產生的非結構化數據,這些數據存儲複雜,並且對傳統的處理方法和技術帶來巨大挑戰。

三、 醫療數據來源

隨著醫療衛生信息化建設進程的不斷加快,醫療數據的類型和規模也在以前所未有的速度迅猛增長,甚至到了在很大程度上無法利用目前主流軟體工具,在合理的時間內達到擷取、管理並整合成為能夠幫助醫院進行更積極目的經營決策的有用信息的地步。而且,如此具有特殊性、複雜性的龐大的醫療大數據,其搜集如果僅靠個人甚至個別機構,那基本是不可能完成的任務。那麼,這些數據到底是怎麼產生的,又都來自於哪裡呢?經過簡單的梳理,我們大致可以把他們歸檔在以下4個框架里:

(1)病人就醫過程中產生的信息。 從患者進入醫院開始,挂號環節便將個人姓名、年齡、住址、電話等信息輸入完全了;隨後在醫生就醫環節,病患的身體狀況、醫療影像等信息也將被錄入資料庫;看病結束以後,患者買單結算的過程中,又將有費用信息、報銷信息、醫保使用情況等信息被添加到醫院的大資料庫裡面。這將形成醫療大數據最基礎卻也是最龐大的原始資源。

  (2)臨床醫療研究和實驗室數據。 臨床和實驗室數據整合在一起,使得醫療機構面臨的數據增長非常快,一張普通CT圖像含有大約150 MB的數據,一個標準的病理圖則接近5 GB。如果將這些數據量乘以人口數量和平均壽命,僅一個社區醫院累積的數據量就可達數萬億位元組甚至數千萬億位元組(PB)之多。

  (3)製藥企業和生命科學。 藥物研發所產生的數據是相當密集的,對於中小型的企業也在百億位元組(TB)以上的。在生命科學領域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。

  (4)智能穿戴設備帶來的健康管理。 隨著移動設備和移動互聯網的飛速發展,攜帶型的可穿戴醫療設備正在普及,個體健康信息都將可以直接連入互聯網,由此將實現對個人健康數據隨時隨地的採集,而帶來的數據信息量將更是不可估量的。

四、醫療大數據特性

如此規模巨大的臨床實驗數據、疾病診斷數據以及居民行為健康數據等匯聚在一起所形成的醫療大數據,已然呈現出其作為大數據的特性,即:

  (1)數據規模大(volume)。例如一個CT圖像含有大約150MB的數據,而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。

  (2)數據結構多樣(variety)。醫療數據通常會包含各種結構化表、非(半)結構化文本文檔(XML和敘述文本)、醫療影像等多種多樣的數據存儲形式。

  (3)數據增長快速(velocity)。一方面,醫療信息服務中包含大量在線或實時數據分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預警等;另一方面,得益於信息技術的發展,越來越多的醫療信息被數字化,因此在很長一段時間裡,醫療衛生領域數據的增長速度將依然會很快。

  (4)數據價值巨大(value)。毋庸置疑,數據是石油,是資源,是資產,醫療大數據不僅與每個人的個人生活息息相關,對這些數據的有效利用更關係到國家乃至全球的疾病防控、新藥品研發和頑疾攻克的能力。

總結:互聯網加與醫療結合具有很大的潛力,最重要的還是對每天產生的海量醫療業務數據的廣泛支持。醫療業務數據包括機器產生的和人為產生的,包括文本數據也包括影像數據,我們需要有效存儲、分析這些數據,剔除無關信息、冗餘信息,保留那些有用的信息,發現規律與知識。一方面我們可以獲得患者的行為規律信息,進行更有效的服務調度與安排;另一方面,我們也可以挖掘出新的醫療知識,以醫院的一手業務數據來彌補實驗室的生化試驗數據,促進醫療事業的科研發展。
推薦閱讀:

數據挖掘和網路爬蟲有什麼關聯區別?

TAG:互聯網 | 醫療 | 數據挖掘 |