醫療大數據的分析和挖掘發展現狀如何?未來會有什麼樣的應用前景?


醫療大數據直到今天為止還多多少少是一個偽命題,尤其是醫院層面,哪怕在美國都是如此。其中一個重要的原因就是即便是「不大」的醫療數據,很多都沒整明白呢。下面說幾個在美國相對已經比較成熟的應用領域吧。

首先是pharmacovigilance,中文似乎譯作藥物警戒學,或者藥物安全。從大數據角度簡單來說其實就是從海量EHR數據中識別adverse drug reaction和drug-drug interaction,來彌補因為樣本局限在臨床試驗中未能發現的問題。這算是醫療數據secondary use目前相對比較成功的應用,一個重要的原因就是商業化的路徑比較明顯,是藥廠所關心的問題。美國的藥廠幾乎各個都有海量的人在做這個事情,而且也各個都擁有巨量的EHR數據。pharmacovigilance相關的應用不但學術界做,藥廠做,像IBM這種技術解決方案提供者也做。

然後就是跟臨床試驗相關的數據挖掘,比如eligibility criteria,也就是通過EHR數據來招收、管理、追蹤臨床試驗被試者。

另外還有一些比較成功的數據挖掘應用比如insurance fraud detection(自動識別騙保行為)等。此外就是炒的火熱的personalized medicine,因為基因信息的高維度、高稀疏性帶來的一系列數據挖掘挑戰。這個領域不是特別了解,但知道很多公司在做。

其實能看出來,目前做的比較好的大數據應用多數都是面向藥廠和保險公司。在美國醫療大數據應用(zocdoc這種不是大數據應用)中TO C業務通常都難,很難找到合適的切入點,無論這個C是醫生還是病人。TO B相對要容易,尤其這個B是保險公司和藥廠的時候。醫院相對要難一些。打個不恰當的比方來解釋,因為大數據模型往往精度有限,因此對於安全第一的醫院和醫生的應用通常非常難,一個95%準確度的模型(通常還遠遠達不到這個精度),對醫生來說可能仍然非常雞肋。但對保險公司和藥廠來說,不必要追求完美的模型準確率,對他們來說,模型精度每高一個percent,幫他們節約的都是一大筆人力和dollar。

從這個角度來看,醫療大數據更明確的商業前景可能還是在藥廠、保險公司、以及大的醫院集團。就中國的情況而言,可能一切根本還談不上,先把EHR的數據規模和質量弄上來再說吧,雖然已經有不少公司在這方面布局了


醫療行業的數據從量來說,還夠不到大數據的級別(例如PB)。

醫療數據的問題是在於複雜性,而不是數量。

醫療大數據,或者說醫療信息,主要的發展目標是功能性作用(例如監管、質控等),部分應用型作用(例如知識庫),從本身的數據分析與研究的角度來說(例如對疾病的診斷、治療等),短時間看不到前途。

未來的發展:

1. 數據的應用決定一切,無論是不是大數據;

2. 大數據相關技術(例如nosql),在短時間不可能進入到醫院的主流技術中;

3. 公衛與健康的數據量會增長很大,但是由於缺乏醫療健康信息合理介面,必將導致採集與應用脫離,作用極小;

4. 醫療大數據在體感、基因等領域會有較大的應用前途;

5. 院內醫療大數據有賴於如何把 TB 級資料庫從商業上擴展為 PB乃至EB級數據,同時還能製造出應用。

6. 絕大部分大數據分析技術,對於醫院都不是最合適。

我4月27日可能去北京講課,題目為「醫療健康大數據——萬億行業」,歡迎各位同仁指導。


美國阿肯薩斯州有個地方,這塊土地曾經是一個鑽石礦場,但後來因為鑽石密度太少而被放棄。如今這塊地變成了鑽石公園,遊人可以去這裡手工淘取鑽石,萬一真的找到鑽石是可以自己帶走的。新聞上有時會爆出有遊客隨意在裡面摸了一塊石頭,結果是十幾克拉的鑽石的故事。然而,當我驅車幾千公里,在太陽底下曬了整整兩天,淘了幾十公斤泥然而依舊一無所獲的時候,我開始蹲在這好幾英畝的被翻了好幾層的土丘上思考人生。就在這時,我頓悟了醫療大數據的本質…

土。

而現在做醫療大數據應用的人,都是吃土的人。

所以國內現在產生了一種尷尬的局面:多年前有人(雖然大家都記不得是誰了)大聲在村口喊了一聲「咱村後山泥地里有鑽石!」,然後但凡有點精力的年輕人都扛起鏟子推起車去後山采土去。如今幾年過去了,大家院子里都堆滿了黃土,佔滿了豬圈、壓垮了雞窩,然而也沒見有人來高價收。自己下地早早回來搗飭土堆,篩了一簍又一簍,也沒見到寶光閃閃。可是大家誰也不死心,依舊天天守著自己院里的土堆,對鄰居說的時候還禁不住自誇一番說自己的土又多又好,然後徜徉而去,而內心惘然。

讓我們先說說醫療數據這些「土」。

首先說一下這篇文字不說什麼。由於個人經歷有限,接觸到的醫療數據主要是來自醫院方面的臨床數據。本文中所指的醫療數據主要指這一類,而對於基因組數據、移動醫療的健康監測數據,這邊不敢妄加評論。

最近接觸了醫療行內不少「大數據」數據集,一些還是整合了數個地市或省份的醫院HIS全數據,頗有感觸。一個詞說說我對醫療大數據的感受,那就是雞肋。面試海量的醫療數據,不存吧覺得可能錯過了一千萬,存著吧又不知道怎麼挖掘。看著負荷頗重的伺服器只能徒增煩惱。

數據本身也分很多類,有的是無心或有意隨手記錄的(比如各種日誌、瀏覽記錄等),還有一些是刻意收集的(比如問卷等等)。縱觀現在的臨床數據集,除了一些特定的帶有某些研究目的的前瞻性數據集外,大多數還是日常記錄的的流程數據(his,lis,pacs等院內信息系統)。

往往,不帶有目的性收集的數據質量要差於主動收集的數據集。原因主要是,當收集數據時沒有明確的目的,那對於記錄數據的完整度、準確度、顆粒度都無法形成系統的體系,造成數據的缺失、不規範與不結構化。而絕大多數醫院信息系統是服務於醫院診療流程的,對於數據的收集是能存則存,並不會有細緻的質控與標準。因而,大部分的真實世界數據是「垃圾」數據,而極多「垃圾」數據放在一起就叫做大數據。

另一方面,刻意收集的數據也並不是盡善盡美。首先,這些數據的收集需要極多的時間精力輸入(所以很少有高質量的數據達到「大數據」量級)。其次,但凡明確了特定的目的,也就同時產生了局限。這一類數據放到另外一個場景中去卻發現缺胳膊少腿不能應用的情況不可勝數。

說得絕對點,不是小而美,就是大而丑。

而當數據集很大很醜時,即便其中有鑽石,也會造成開掘的極大障礙。甚至極端情況下,一些人會像文首的那個故事一樣,放棄這個不富的「礦山」(土丘),轉而去花精力去做那些醫療「小數據」。

鑒於我們這邊說的是「大…數據」,所以後面我們主要說大而丑的,說說這坨「土」。

========

題外話,因為最近一直在為國家統一收集的醫療大數據集做數據治理(這個整合、質控、標準化的過程極其考驗水平),這裡總結幾條收集數據時的想法以期為今後的數據採集方提供新的視角(一家之言,僅供參考):

1.盡量存儲完整的信息

醫學的任何領域都極其複雜,診療流程中有極多的信息點可以幫助後期的臨床質量提升或新治療方案的產生。這也是為何製藥公司會花如此高昂的費用去臨床採集變數為臨床試驗形成病例報告表(CRF)的原因。雖然在日常工作中無法像做臨床實驗時那樣用心的對待數據,但至少本病種或專科領域的病人需要存儲的信息需要保存完全。要知道後期有很多技術(比如我們做的病歷自然語言信息抽取)是可以從中將信息抽取並結構化的。但一旦原始信息就缺失了,那再強的人工智慧也巧婦難為無米之炊。

2.儘可能帶著目的存數據(這個目的最好比較普適)

嚴格來說,現在醫院中的數據集幾乎沒有達到「科研數據集」或「臨床試驗數據集」的標準。一個很重要的原因是收集時的盲目性。如果對某個特定病種或一類人群沒有相對明確的醫學體系梳理,那花再多時間抄病人信息到excel里去也是片面的。後面真正做統計的時候才發現各種數據缺失,甚至換個醫院要做多中心了才發現彼此「精心」收集的病人信息根本匹配不上。這一點的優化可以參考不少好的臨床數據模型,以保證變數的有序組織。這點要引申說又是一篇大作,這裡不予展開。

3.形成數據語義級別標準以及良好的收集習慣

簡單來說,若研究者有心存儲了完整的信息,同時也有好的機制保證信息點直接可共享和復用,那剩下來的就是如何用一些細節保證數據質量的進一步提升了。這邊強調的語義級別標準指的是當信息點有各種表述方式時的相互統一。例如最經典的例子,對於二型糖尿病的說法可能有數十種(醫生應該有所體會),但要讓計算機知道他們說的是一件事。這一點很多行內人提出要用知識庫來規範醫生怎麼想、怎麼寫,但我們更傾向於訓練我們的人工智慧模型讓他學會去「理解」(注意不是關鍵詞匹配)語言的信息。這樣我們的AI再遇到幾乎無限種描述可能時,就不會像別的方案那樣因為知識庫辭彙的局限性而受到限制。至少現在看下來,二型糖尿病這類任務對我們已經不是個問題了。

========

剛剛描述了下醫學數據的本質,現在再說說用這些土裡有什麼(醫療數據應用)。

正是因為前幾年有其他一些領域的一些人創造地從「垃圾」大數據中挖出了商業應用(例如從歷史瀏覽或購買記錄中做精準的廣告推薦,如從社交網路中挖掘時事熱點等),因而大眾才對「大數據」產生了莫名的期待。因此其他領域中的大數據應用就是那個在村口喊地里有鑽石的人。

因此,一直以來,對於醫療行業的大數據大家一直視若珍寶。一個信念讓大家相信這些數據中一定有著極高的價值。然而事實上,除了一些臨床回顧性分析以及各種炫酷的BI可視化界面外,我們並沒有看到太多讓人眼前一亮的大數據應用。即便到現在,醫療大數據到現在為止應該都很難逃出「to領導」的商業模式,前幾年還可以用數據畫出些好看的圖(幸好大數據行業圖是確實好看),做一些統計數據給領導看。現在慢慢的,領導看這些圖也有點審美疲勞,於是乎各大擁有大數據的人紛紛感覺前路渺茫,有心無力。

那究竟是什麼原因造成這個困局呢?

其實很簡單,兩個字:隱私。

試想,其他領域中大數據最賺錢的應用就是精準營銷,而這一點在醫療行業真的不可行么?如果病人就診信息能像你的瀏覽記錄一樣被(幾乎)所有人抓取,那麼你第一天去醫院看了男科,第二天所有網頁上的廣告欄就都推薦給你羞羞的藥物和手術方案,那醫療大數據的路早就走通了!

可惜(抑或是幸好)這件事還沒有發生。病人隱私重於天!(所以也別吐槽醫院多封閉多麻煩,他要是真方便了,沒準你要遭更大的罪)。哐鐺,醫療大數據變現最富麗堂皇的一扇門關了。

沒事,明的不行咱來暗的!一些聰明人把目光看向了另外一個方面:醫生。雖然葯是病人買的,但卻是醫生開的啊!我要是掌握了醫生開藥的信息,去刻意部署我的葯代豈不是也很「精準營銷」!於是乎,醫療大數據變現的第二條明路出現了:找一些人簡單統計下醫生每個月開了多少葯,根據這個數據精準的給醫生一些好處。這樣,醫生也有動力也有壓力開你家的葯了,大家豈不是都開心?

還真不是,這一次國家不開心了。

你們私下這些小把戲,豈不是助長了醫療的不正之風,況且,一些我不想讓外界知道的信息反而被你們抖出去了,這還了得?!於是乎,這條商業路徑有了個新名字:「統方」。後面的故事大家應該知道了,不知道的百度下也就知道了。

總之,再一次的,醫療大數據的應用變現之門再一次無情的關上,並且還被貼了封條。

到了這一步,大多數人都無奈了。簡單能走通的路被堵上了,低垂的果實也不敢拿,怕觸了高壓線。之後剩下的可都是迂迴曲折的高難度動作了。

這,就是醫療大數據變現的現狀。

而就在最近,一些新的變化開始悄然發生。國家正在緊鑼密鼓地收集、規範醫療數據的整個實用規範,開始從頭構建新的醫療數據應用生態。希望在規範醫學數據使用規則的前提下扶起這個現今萎靡不振但是體量千億的市場。

我們,恰好身處變革之中,有幸參與著最核心的變化。我們正用積累已久的技術實現醫療大數據提煉的全過程,將小土堆匯總(ETL),從土中去掉雜質(數據治理),進一步精鍊(數據挖掘)以及最後的價值產生(數據變現)。我們正首次合法地利用海量醫療數據為各種藥廠、保險、醫生等提供來自數據本身的高價值視角。這裡做個小廣告,我們現在能接觸到國家層面收集的數個省市的醫院全數據,如果想從這些數據中找點結論的大家可以聯繫我私聊。

讓我們期待,在不遠的未來,能有更多的數據被彙集、提煉,能有更多有能力的人能在保證醫療數據隱私的前提下披荊斬棘開出一條鐵軌,把源源不斷的鑽石輸送給行業的各個參與者。


提這個問題的時候貌似我還在這個行業。當時我負責一個類似數據倉庫的項目,想把一些數據挖掘的東西做上去,結果以失敗告終,原因這個行業實在是太複雜了。

醫療是個奇葩的行業,一幫外行指揮內行。真正有權力決定醫院IT走向的不是專業人士,而是院長、院領導、科室主任,而這群人對IT的理解絕對還停留在90年代;還有醫院畢竟是事業單位,能進去拿項目的公司大多數都是後台很硬的公司而不是技術很牛的公司。最後造成了一個結果,比如A公司的大股東是院長的兒子,則核心的EMRS系統就被A公司包攬了,而B公司可能通過科室主任關係拿到了檢驗科的項目,C公司賄賂副院長拿到了財務的項目。各家公司各自為政,數據不能互通。如果老院長退休了,新上來的院長可能會再選一家公司替換前面的公司,沒有之前公司配合,後面進去的公司要把產品集成進這麼個紛繁複雜的體系里簡直是做夢。而這群利益集團強大的什麼程度呢,比如你想去推一個財務系統,把財務統計報表自動化準確化,很可能會遭到財務室的抵觸。很多大醫院專門養一幫閑人,每周做份財務報表給院長看,如果能自動導出了,他們就失業了,而這群人很可能後台強硬,他們一抵觸,系統保證上不上去。

舉個例子,有個客戶系統響應速度很慢,我同事去看了下,分分鐘找出原因,系統有語句沒用綁定變數,導致oracle硬解析。解決辦法照理很簡單,改下代碼就好了。結果那家開發系統的公司死活不改,估計後台比較硬,醫院居然讓我同事另想辦法。我同事沒法,說改cursor_sharing參數吧,醫院也不讓改,說出問題擔當不起(信息科最需要穩定)。一個綁定變數的問題都那麼難搞,其他可想而知了。

我當時參與了一個省內最大醫院的項目,有幾十個系統。醫院和之前合作了十年的一家公司鬧僵,選我們公司替換掉他們的系統。你知道我們怎麼把自己的系統集成進去不?寫了一大堆觸發器把我們庫的數據觸發到他們庫,他們庫的觸發到我們庫。剛上線那會兒天天出問題,醫生暴跳如雷。甚至還出現過隱藏的BUG導致醫生開的葯和實際發的葯不一樣的情況,差點嚇死。而下面醫生的需求更是奇葩,一定要把我們的系統界面,功能,流程做到和之前系統一樣,不然不用。就這個項目,2年下來只做了一件事,把對方公司的系統換成我們的系統。

兩年時間,阿里都去掉IOE了,但從我的例子看來,整個行業技術沒有絲毫進步,大量優秀的人才被浪費在這種地方。玩大數據起碼先把數據理順,但在這個行業做數據倉庫難度可想而知,100多個系統相互獨立,要取點數據難上加難,要把各個不同的系統集成到一起更是不可能的任務。

其實我們最後還是在小範圍做成了一點事,因為核心數據還是比較集中的。不過做到數據挖掘這層,幾乎沒什麼可搞了。比如當時想做一些疾病預測等,但出來的結果發現遠遠沒有醫生的經驗可靠,因為醫療這塊實在太專業了,數據挖掘還是以業務為導向的,絕大多數東西你都不懂,就不知道該怎麼做。可做的有一塊,監測醫生騙保的行為。不過這裡面涉及的東西又太多了,比如醫院可能並不想查這種行為,因為很多老醫生得罪不起。倒是聽說社保局有想查騙保的。


本文從商業和政策的角度看待,歡迎交流

1.
醫療大數據的四個礦產地

a)
醫藥公司、學術機構的研發數據,例如,臨床試驗和高通量篩選庫

b)
醫療服務提供商的臨床數據,例如,電子病歷,醫學影響

c)
支付方和服務提供商的活動和收支記錄,例如,醫療參與率,成本預算

d)
病人的行為和情感記錄,比如,病人的偏好,康復恢復訓練

取決於服務的場景,麥肯錫估計,在美國有高達30%的臨床文字或者數字信息,包括電子病歷、賬單、實驗室和手術室報告沒有電子化。發達國家尚且如此,我們國家姑且不提。就算已經有了電子版本記錄,它們通常也被個體服務商持有,鮮有信息分享。事實上,大多數的臨床數據都蘊藏在影像當中,而這些是一次性的並沒有被保存起來

2.
醫療大數據的影響

我認為撬動未來的槓桿主要分為五個方面

  • a)
    臨床運營。

這是藏金最多的領域,因為它直接關係到醫療服務商、支付方和醫療產品生產商提供臨床護理的方式。


i.
精準治療。目前英國的NICE,德國的IQWIG,加拿大的Common
Drug Review,澳大利亞的Pharmaceutical Benefits Scheme都已經開始了療效比較研究,取得了一些成功。美國也在2009年頒布了American Recovery and Reinvestment
Act,向減少過度治療和治療不足邁進一大步。


ii.
決策輔助。通過將醫師的藥方和就診指南進行比對,提示可能的錯誤,比如,藥物不良反應。雖然目前已經有了這套系統,但遠未完善。麥肯錫的調查顯示,進一步的臨床決策輔助優化還能在短短兩個月內減少40%的藥物不良反應。


iii.
運營透明。對整個醫療過程的數據化,有利於創造可視化的流程圖和儀錶盤。醫療服務商能夠通過改進減少病人就診等待時間,這意味著在單位時間內就診數量的上升,還能夠比對同行業競爭者的數據選擇不同的戰略,知彼知己方能百戰不殆。如今,美國The Centers for Medicare and Medicaid Services正測試信息圖,作為政府開放、公眾參與、鼓勵合作計劃的一部分。同時,the Centers for Disease Control and Prevention也已經發布可互動的健康數據。病人無疑會從更透明的環境中獲益,選擇價值最高的醫療服務。


iv.
遠程監控。對患有慢性疾病的人群長期、實時監控將增大未來藥物和治療的選擇空間。僅僅在美國,2010年就有估計1.5億患有慢性疾病,例如肥胖、充血性心衰、高血壓,加起來一共佔到了超過80%的醫療總花銷,脫離了場景的束縛,真正將醫院裝在了口袋裡。


v.
持續了解。人性化的醫療會慢慢深入到病人的日常生話中,包括主動式服務和對生活方式的關注,建立和諧的醫患關係。

  • b)
    支付/定價


i.
提高對假藥和醫療保險欺詐的自動識別


ii.
精準劃分醫療保險、經濟補償支付額度

對於政府的公共基金來說,什麼時候預算超支,什麼採購策略有效,什麼支付比例合適,在大數據中都能一斑窺豹。PMP公司顯然利用數據資源,也能及時調整定價。

  • c)
    研究開發


i.
新葯是否超過預算,療效是否不及預期,市場期待值是否不及以往,大數據通通告訴你。


ii.
全部可量化意味著連研究的流程都是可量化的,臨床試驗設計是否有問題,志願者招募是否符合要求,大數據也能告訴你


iii.
藥物的副作用有多少,有多強,藥物警戒中對很難觀察到現象,也能夠記錄下來


iv.
私人藥物。由於個體的基因差異、對疾病的癖性、特殊藥物過敏,疾病的早期診斷、有效治療和藥物用法用量也不盡相同,大數據賦予了解決私人定製藥物的可能。


v.
幫助PMP公司預測疾病爆發周期和趨勢,調整生產能力,減少庫存積壓,降低職工流轉

  • d)
    新的商業模式


i.
可能出現專業聚合、綜合病人臨床記錄的公司


ii.
在線醫療平台和互動社區http://PatientsLikeMe.com,http://Sermo.com,http://Participatorymedicine.org

  • e)
    公共健康

對國家來說,控制傳染病流行、快速反應應急在數據的面前都不是事兒

------------------------------------------------------------------------------------------------------------------

本文是從學術界的角度看待,歡迎討論

1.
醫療大數據有什麼用?

大數據是「形容詞+名詞」構詞,表明新事物區別於舊事物,但彼此仍有聯繫。因此從構詞法的角度看,大數據是新的科學知識,就像牛頓第一定律、阿基米德定律。既然是新的科學知識,一旦被合理利用,就能改變世界。像人類利用牛頓第二定律,造出火箭進入太空;利用萬有引力定律,生產人造衛星環繞地球;利用麥克斯韋方程組,造出手機開始通訊。簡單地說,數學運算出數字結果,有已知得出未知,大數據分析出行為決策,有已知預測未知。也許幾百年後,大數據和數學一樣成為九年義務教育基礎課程。

我認為,醫療大數據主要有兩方面的應用

  • 其一,更好地建立健康描述。

如今醫藥的主要限制是對疾病的生物學理解。大數據扮演的角色,就像一個優秀的編輯一樣,從所有能想得到的來源整合信息,比如DNA, 蛋白質,細胞代謝產物,組織,器官,有機物和生態系統,出色的描述什麼才是疾病

  • 其二,更好地建立預測模型。

數據既然「大」,就不是一朝一夕能積攢下來的,沒有人知道在醫藥行業,什麼量級的數據才發揮效用,才能夠從量變到質變,才能成為第64方格的麥粒。可以把醫療大數據建立的模型當成一個處男,一個青年人,一直聽說過愛情,一直在聽說性愛,成長發育進化,你準確的知道他哪天性成熟了嗎?

從目前有限的實踐經驗來看,模型進化到一定水準,望聞問切會變得更簡單回答,新葯研發能變得更加快捷有效,不令人滿意的成分能儘早停止開發,滿足需要的新成分會更安全可靠

2.
對病人、支付方、醫藥公司有什麼影響?

病人的數據收集絕大多數是被動的,不需要每天主動記錄,但他們必須同意接受這種無間斷的信息採集。

支付方,通常包括政府,可能是最大的獲益方,生產力提升帶來的消費者剩餘是科技改變生活的最好例證。每一顆便士都將花在刀刃上,每一粒納稅人的公糧都被壓榨到最後一滴油,總而言之,他們會省下更多的錢。

即使積極擁抱變化並且成功轉型升級的醫藥公司還將迎接下一波浪潮,宇宙永無止境。


大數據在醫療行業的應用可在以下幾個方面發揮積極作用:

(1)服務居民。居民健康指導服務系統,提供精準醫療、個性化健康保健指導,使居民能在醫院、社區及線上的服務保持連續性。例如,提供心血管、癌症、高血壓、糖尿病等慢性病干預、管理、健康預警及健康宣教(保健方案訂閱、推送);同時減少患者住院時間,減少急診量,提高家庭護理比例和門診醫生預約量。

(2)服務醫生。臨床決策支持,如用藥分析、藥品不良反應、疾病併發症、治療效果相關性分析、抗生素應用分析;或是制定個性化治療方案。

(3)服務科研。包括疾病診斷與預測、提高臨床試驗設計的統計工具和演算法、臨床實驗數據的分析與處理等方面,如針對重大疾病識別疾病易感基因、極端表現人群;提供最佳治療途徑。

(4)服務管理機構。規範性用藥評價、管理績效分析;流行病、急病等預防干預及措施評價;公眾健康監測,付款(或定價)、臨床路徑的優化等。

(5)公眾健康服務。包括危及健康因素的監控與預警、網路平台、社區服務等方面。


可以參考下該ppt,大數據在醫療行業的應用。

大數據在醫療行業的應用


除了較早前就開始利用大數據的互聯網公司,醫療行業可能是讓大數據分析最先發揚光大的傳統行業之一。醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療信息化發展,這使得很多醫療機構有資金來做大數據分析。因此,醫療行業將和銀行、電信、保險等行業一起首先邁入大數據時代。下面列出了醫療服務業5大領域(臨床業務、付款/定價、研發、新的商業模式、公眾健康)的15項應用,這些場景下,大數據的分析和應用都將發揮巨大的作用,提高醫療效率和醫療效果。

臨床操作

在臨床操作方面,有5個主要場景的大數據應用。麥肯錫估計,如果這些應用被充分採用,光是美國,國家醫療健康開支一年就將減少165億美元。

1、比較效果研究

通過全面分析病人特徵數據和療效數據,然後比較多種干預措施的有效性,可以找到針對特定病人的最佳治療途徑。

基於療效的研究包括比較效果研究(ComparativeEffectivenessResearch,CER)。研究表明,對同一病人來說,醫療 服務提供方不同,醫療護理方法和效果不同,成本上也存在著很大的差異。精準分析包括病人體征數據、費用數據和療效數據在內的大型數據集,可以幫助醫生確定 臨床上最有效和最具有成本效益的治療方法。醫療護理系統實現CER,將有可能減少過度治療(比如避免那些副作用比療效明顯的治療方式),以及治療不足。從 長遠來看,不管是過度治療還是治療不足都將給病人身體帶來負面影響,以及產生更高的醫療費用。

世界各地的很多醫療機構(如英國的NICE,德國IQWIG,加拿大普通藥品檢查機構等)已經開始了CER項目並取得了初步成功。2009年,美國 通過的復甦與再投資法案,就是向這個方向邁出的第一步。在這一法案下,設立的比較效果研究聯邦協調委員會協調整個聯邦政府的比較效果的研究,並對4億美元 投入資金進行分配。這一投入想要獲得成功,還有大量潛在問題需要解決,比如,臨床數據和保險數據的一致性問題,當前在缺少EHR(電子健康檔案)標準和互 操作性的前提下,大範圍倉促部署EHR可能造成不同數據集難以整合。再如,病人隱私問題,想要在保護病人隱私的前提下,又要提供足夠詳細的數據以便保證分 析結果的有效性不是一件容易的事情。還有一些體制問題,比如目前美國法律禁止醫療保險機構和醫療補助服務中心 (CentersforMedicareandMedicaidServices)(醫療服務支付方)使用成本/效益比例來制定報銷決策,因此即便他們通 過大數據分析找到更好的方法也很難落實。

2、臨床決策支持系統

臨床決策支持系統可以提高工作效率和診療質量。目前的臨床決策支持系統分析醫生輸入的條目,比較其與醫學指引不同的地方,從而提醒醫生防止潛在的錯 誤,如藥物不良反應。通過部署這些系統,醫療服務提供方可以降低醫療事故率和索賠數,尤其是那些臨床錯誤引起的醫療事故。在美國Metropolitan 兒科重症病房的研究中,兩個月內,臨床決策支持系統就削減了40%的藥品不良反應事件數量。

大數據分析技術將使臨床決策支持系統更智能,這得益於對非結構化數據的分析能力的日益加強。比如可以使用圖像分析和識別技術,識別醫療影像(X光、 CT、MRI)數據,或者挖掘醫療文獻數據建立醫療專家資料庫(就像IBMWatson做的),從而給醫生提出診療建議。此外,臨床決策支持系統還可以使 醫療流程中大部分的工作流流向護理人員和助理醫生,使醫生從耗時過長的簡單諮詢工作中解脫出來,從而提高治療效率。

3、醫療數據透明度

提高醫療過程數據的透明度,可以使醫療從業者、醫療機構的績效更透明,間接促進醫療服務質量的提高。

根據醫療服務提供方設置的操作和績效數據集,可以進行數據分析並創建可視化的流程圖和儀錶盤,促進信息透明。流程圖的目標是識別和分析臨床變異和醫 療廢物的來源,然後優化流程。僅僅發布成本、質量和績效數據,即使沒有與之相應的物質上的獎勵,也往往可以促進績效的提高,使醫療服務機構提供更好的服 務,從而更有競爭力。

數據分析可以帶來業務流程的精簡,通過精益生產降低成本,找到符合需求的工作更高效的員工,從而提高護理質量並給病人帶來更好的體驗,也給醫療服務 機構帶來額外的業績增長潛力。美國醫療保險和醫療補助服務中心正在測試儀錶盤,將其作為建設主動、透明、開放、協作型政府的一部分。本著同樣的精神,美國 疾病控制和預防中心(CentersforDiseaseControlandPrevention)已經公開發布醫療數據,包括業務數據。

公開發布醫療質量和績效數據還可以幫助病人做出更明智的健康護理決定,這也將幫助醫療服務提供方提高總體績效,從而更具競爭力。

4、遠程病人監控

從對慢性病人的遠程監控系統收集數據,並將分析結果反饋給監控設備(查看病人是否正在遵從醫囑),從而確定今後的用藥和治療方案。

2010年,美國有1.5億慢性病患者,如糖尿病、充血性心臟衰竭、高血壓患者,他們的醫療費用佔到了醫療衛生系統醫療成本的80%。遠程病人監護 系統對治療慢性病患者是非常有用的。遠程病人監護系統包括家用心臟監測設備、血糖儀,甚至還包括晶元藥片,晶元藥片被患者攝入後,實時傳送數據到電子病歷 資料庫。舉個例子,遠程監控可以提醒醫生對充血性心臟衰竭病人採取及時治療措施,防止緊急狀況發生,因為充血性心臟衰竭的標誌之一是由於保水產生的體重增 加現象,這可以通過遠程監控實現預防。更多的好處是,通過對遠程監控系統產生的數據的分析,可以減少病人住院時間,減少急診量,實現提高家庭護理比例和門 診醫生預約量的目標。

5、對病人檔案的先進分析

在病人檔案方面應用高級分析可以確定哪些人是某類疾病的易感人群。舉例說,應用高級分析可以幫助識別哪些病人有患糖尿病的高風險,使他們儘早接受預防性保健方案。這些方法也可以幫患者從已經存在的疾病管理方案中找到最好的治療方案。

付款/定價

對醫療支付方來說,通過大數據分析可以更好地對醫療服務進行定價。以美國為例,這將有潛力創造每年500億美元的價值,其中一半來源於國家醫療開支的降低。

1、自動化系統

自動化系統(例如機器學習技術)檢測欺詐行為。業內人士評估,每年有2%~4%的醫療索賠是欺詐性的或不合理的,因此檢測索賠欺詐具有巨大的經濟意 義。通過一個全面的一致的索賠資料庫和相應的演算法,可以檢測索賠準確性,查出欺詐行為。這種欺詐檢測可以是追溯性的,也可以是實時的。在實時檢測中,自動 化系統可以在支付發生前就識別出欺詐,避免重大的損失。

2、基於衛生經濟學和療效研究的定價計劃

在藥品定價方面,製藥公司可以參與分擔治療風險,比如基於治療效果制定定價策略。這對醫療支付方的好處顯而易見,有利於控制醫療保健成本支出。對患 者來說,好處更加直接。他們能夠以合理的價格獲得創新的藥物,並且這些藥物經過基於療效的研究。而對醫藥產品公司來說,更好的定價策略也是好處多多。他們 可以獲得更高的市場准入可能性,也可以通過創新的定價方案,更有針對性療效藥品的推出,獲得更高的收入。

在歐洲,現在有一些基於衛生經濟學和療效的藥品定價試點項目。

一些醫療支付方正在利用數據分析衡量醫療服務提供方的服務,並依據服務水平進行定價。醫療服務支付方可以基於醫療效果進行支付,他們可以與醫療服務提供方進行談判,看醫療服務提供方提供的服務是否達到特定的基準。

研發

醫療產品公司可以利用大數據提高研發效率。拿美國為例,這將創造每年超過1000億美元的價值。

1、預測建模

醫藥公司在新藥物的研發階段,可以通過數據建模和分析,確定最有效率的投入產出比,從而配備最佳資源組合。模型基於藥物臨床試驗階段之前的數據集及 早期臨床階段的數據集,儘可能及時地預測臨床結果。評價因素包括產品的安全性、有效性、潛在的副作用和整體的試驗結果。通過預測建模可以降低醫藥產品公司 的研發成本,在通過數據建模和分析預測藥物臨床結果後,可以暫緩研究次優的藥物,或者停止在次優藥物上的昂貴的臨床試驗。

除了研發成本,醫藥公司還可以更快地得到回報。通過數據建模和分析,醫藥公司可以將藥物更快推向市場,生產更有針對性的藥物,有更高潛在市場回報和 治療成功率的藥物。原來一般新葯從研發到推向市場的時間大約為13年,使用預測模型可以幫助醫藥企業提早3~5年將新葯推向市場。

2、提高臨床試驗設計的統計工具和演算法

使用統計工具和演算法,可以提高臨床試驗設計水平,並在臨床試驗階段更容易地招募到患者。通過挖掘病人數據,評估招募患者是否符合試驗條件,從而加快 臨床試驗進程,提出更有效的臨床試驗設計建議,並能找出最合適的臨床試驗基地。比如那些擁有大量潛在符合條件的臨床試驗患者的試驗基地可能是更理想的,或 者在試驗患者群體的規模和特徵二者之間找到平衡。

3、臨床實驗數據的分析

分析臨床試驗數據和病人記錄可以確定藥品更多的適應症和發現副作用。在對臨床試驗數據和病人記錄進行分析後,可以對藥物進行重新定位,或者實現針對 其他適應症的營銷。實時或者近乎實時地收集不良反應報告可以促進藥物警戒(藥物警戒是上市藥品的安全保障體系,對藥物不良反應進行監測、評價和預防)。或 者在一些情況下,臨床實驗暗示出了一些情況但沒有足夠的統計數據去證明,現在基於臨床試驗大數據的分析可以給出證據。

這些分析項目是非常重要的。可以看到最近幾年藥品撤市數量屢創新高,藥品撤市可能給醫藥公司帶來毀滅性的打擊。2004年從市場上撤下的止痛藥Vioxx,給默克公司造成70億美元的損失,短短几天內就造成股東價值33%的損失。

4、個性化治療

另一種在研發領域有前途的大數據創新,是通過對大型數據集(例如基因組數據)的分析發展個性化治療。這一應用考察遺傳變異、對特定疾病的易感性和對特殊藥物的反應的關係,然後在藥物研發和用藥過程中考慮個人的遺傳變異因素。

個性化醫學可以改善醫療保健效果,比如在患者發生疾病癥狀前,就提供早期的檢測和診斷。很多情況下,病人用同樣的診療方案但是療效卻不一樣,部分原因是遺傳變異。針對不同的患者採取不同的診療方案,或者根據患者的實際情況調整藥物劑量,可以減少副作用。

個性化醫療目前還處在初期階段。麥肯錫估計,在某些案例中,通過減少處方藥量可以減少30%~70%的醫療成本。比如,早期發現和治療可以顯著降低肺癌給衛生系統造成的負擔,因為早期的手術費用是後期治療費用的一半。

5、疾病模式的分析

通過分析疾病的模式和趨勢,可以幫助醫療產品企業制定戰略性的研發投資決策,幫助其優化研發重點,優化配備資源。

新的商業模式

大數據分析可以給醫療服務行業帶來新的商業模式。

1、匯總患者的臨床記錄和醫療保險數據集

匯總患者的臨床記錄和醫療保險數據集,並進行高級分析,將提高醫療支付方、醫療服務提供方和醫藥企業的決策能力。比如,對醫藥企業來說,他們不僅可 以生產出具有更佳療效的藥品,而且能保證藥品適銷對路。臨床記錄和醫療保險數據集的市場剛剛開始發展,擴張的速度將取決於醫療保健行業完成EMR和循證醫 學發展的速度。

2、網路平台和社區

另一個潛在的大數據啟動的商業模型是網路平台和大數據,這些平台已經產生了大量有價值的數據。比如http://PatientsLikeMe.com網站,病人 可以這個網站上分享治療經驗:http://Sermo.com網站,醫生可以在這個網站上分享醫療見解:http://Participatorymedicine.org網站,這 家非營利性組織運營的網站鼓勵病人積極進行治療。這些平台可以成為寶貴的數據來源。例如,http://Sermo.com向醫藥公司收費,允許他們訪問會員信息和網上 互動信息。

公眾健康

大數據的使用可以改善公眾健康監控。公共衛生部門可以通過覆蓋全國的患者電子病歷資料庫,快速檢測傳染病,進行全面的疫情監測,並通過集成疾病監測 和響應程序,快速進行響應。這將帶來很多好處,包括醫療索賠支出減少、傳染病感染率降低,衛生部門可以更快地檢測出新的傳染病和疫情。通過提供準確和及時 的公眾健康諮詢,將會大幅提高公眾健康風險意識,同時也將降低傳染病感染風險。所有的這些都將幫助人們創造更好的生活。


請謹慎看待大數據,目前還是玩營銷喊口號的多,然後再賣給你重新包裝過的老資料庫產品或分析系統。

醫療行業牽扯的方方面面的利益更多,連EMR標準化都還沒做到呢,就想大躍進到大數據,無益於痴人說夢。


這題必須邀請我。

我認為醫療大數據的分析和發掘市場,像浩瀚的宇宙一樣無限大,沒有終點。

我們現在做醫療大數據,還僅僅是停留在給醫院做個his系統或者lis系統上,醫療上的突破,我認為首先是在中醫上:

中醫講究「望、聞、問、切」。

「望」就是觀察,基於大數據技術的圖像識別能力已經很成熟,通過觀察患者的眼睛、舌苔等特徵可以作為病症的判斷依據。

「聞」不是嗅覺識別,是聽覺識別,基於大數據技術的音頻識別能力也相對成熟,通過聽取患者的心跳、呼吸等聲音也可以作為診斷病症的依據。

「問」指的是人機交互,這是一個基於大數據的機器學習的過程,現在國內的智能語義識別還有待提高,目前還需要人工輔助來完成。

「切」,指的觸診,通過綁在手臂上的脈搏檢測儀器,可以自動生成脈搏跳動圖譜,以此來跟大資料庫內的圖譜進行比對,進而做出最終診斷。

從技術角度上講,目前的大數據發展技術已經完全可以滿足現代中醫的需求,只不過由於部分中醫的守舊思想,再加上大數據企業的不重視,所以導致大數據技術在中醫領域的真空期。

我認為,在不遠的將來,隨著人們的意識的提高,技術的不斷成熟,基於大數據技術的無人醫療診斷將不再是夢想。

這將徹底改變醫療資源短缺的格局,真是一個改變世界的壯舉!


大數據的應用還是要看基礎數據的搜集程度。如果還是按照目前的

生病--&>檢查--&>診斷--&>治療方案--&>複查

的節奏來說,大數據只能挖掘到病該怎麼治,而不能分析到病的誘因、病的傳染特性和病人受體的影響。歸根揭底也只是對經驗的進一步提升罷了。

如果基礎數據能夠抓到什麼氣候、什麼體質、什麼環境。。。。。對病情的發展產生什麼樣的影響和群體性的病況趨勢分析,這樣的大數據才真真具有預測的能力。

我認為:與其關注大數據能做什麼,不如關注大數據還缺什麼


以前是在醫療大數據外面看,現在算是半隻腳踏進來了,本人學的是醫學信息專業,畢業後多數同學要麼轉專業去臨床,或者去醫學院的圖書館,醫院的科研處,幫醫生們查文獻,寫小綜述,或者輔助臨床醫生們用meta分析法寫論文。 醫療大數據還是比較難商用的,第一沒有數據,第二數據難以標準化,都是數據孤島。

2016年07月26日修改:

根據現在的工作經驗有了新的認知與體會:

1)目前醫療大數據分析和挖掘現狀,重點不在於如何分析和挖掘,因為沒有處理好,梳理好數據標準,任何數據分析都是耍流氓,cabbage in cabbage out的描述方式。


《火熱的醫療人工智慧和大數據的泡沫正在襲來!》

作者Dr.2,珍立拍股份公司董事長

人工智慧和大數據是今年最熱的話題,在國內投資界和產業界都如火如荼,特別是在AlphaGO橫掃圍棋界後更是呈現一片欣欣向榮的勢態。大數據與人工智慧目前在醫學類的應用也是層出不窮,尤其是在圖像識別、影像診斷上都顯示了很好的前景。

但是在比較複雜的系統中,大數據挖掘和人工智慧可能會受挫,大數據技術本身不是泡沫,但是利用大數據和人工智慧名頭的相關產業的泡沫正在襲來……

醫藥人工智慧研究受挫,IBM沃森機器人遭遇冷板凳

沃森是IBM的傑出計算系統,自從參加了2011年的智力節目《危險邊緣》,在一場與兩名最受矚目的選手對決中勝出後,就成功博得了世人的矚目。在2013年10月的新聞發布會中,IBM宣稱安德森癌症中心,德克薩斯大學系統之一,正在使用沃森機器人系統用於研究根治癌症。

但是近期,據福布斯的報道指出,IBM與該世界頂尖癌症研究機構的合作關係正趨於破裂。此前安德森癌症中心證實:此項目從去年開始就已經暫停。安德森癌症中心也正在積極尋求其他合作方的競價,未來這些合作方有可能取代IBM。來自德克薩斯大學審計機構的一份報告指出,安德森癌症中心已經花費了6200萬美金用於此項目,但尚未實現目標。審計記錄顯示項目重點更換了數次,第一次重點研究白血病、然後是另一個、接下來又是肺癌。最後毫無進展。

雖然安德森癌症中心與IBM的沃森機器人確立合作的出發點確實是積極的,但是最終項目卻沒有完成,而且還花費了巨額資金。與安德森癌症中心合作的結果並不令人滿意。即使雙方合作破裂是安德森方面的一個錯誤決策,這仍然從側面說明了IBM的人工智慧和大數據目前在醫藥領域尚未取得重大建樹。

大數據醫療的應用方向有哪些?

目前大數據主要應用於以下五大方向的15個應用:

從以上應用範疇中我們發現,為什麼在複雜疾病的數據挖掘中,大數據並沒有深入發展呢?

因為複雜疾病是非標類的產品,無論是在學術界還是在臨床治療上都有非常大的爭議,有時候是向正有時候是向反,對於一些疾病甚至很多的研究報告會出現截然相反的結果,而且學術爭議是一直都存在的,因此複雜疾病是非常難以判斷的。

醫療與下圍棋大不相同,圍棋的下法有一個最優概率的計算,但是在醫學中,哪怕是51%的概率你也不能說就一定比49%更好,而且醫學中小概率事件發生是很普遍的。

非結構化病曆數據的挑戰

目前我國各醫院系統並不相連,因此沒有一個統一規範的臨床結構化病歷模型標準,不同醫院的病曆書寫也存在很大的差異化,非結構化的數據使得大數據在我國的醫療環境下很難做到高效率的數據挖掘。

還有一個很現實的問題那就是——中國的絕大部分臨床病歷實際價值非常的小。因為醫生的臨床工作很忙,所以基層醫院的病歷寫作不規範,而上級三甲醫院的病歷基本上都靠複製黏貼,因此想要從病歷的結構化和自然語言中是很難做到任何有效的分析的。

除此之外,目前中國普遍的臨床用藥和檢查都有很多的問題,臨床中的實際治療是千變萬化的,但是你在患者病歷中是看不出來的,因為中國的醫生很多都是以完成實際工作和不要扣錢為主,因此就會做一些套式的病歷,以及靠複製黏貼來隨意應付paperwork,患者的細微診斷細節很多時候從病歷上根本無法體現,所以每個病歷的治療效果可能都千差萬別。

大數據很多是從既有數據中進行挖掘,但是中國的患者離開醫院後失訪率非常高,這與美國的醫療情況不同,美國的患者離院之後的診後延續性比較好。數據如果不能持續向前發展,那大數據就會變成死數據,併產生很大的泡沫。但這還不是泡沫的根本!

醫療大數據泡沫的根本在於無法轉動商業模式

大數據泡沫的根本在於商業模式無法轉動,或者無法轉動到比較大的規模就出現了各種各樣的問題。產業界都是一輪泡沫向另一輪泡沫不斷轉移的。在醫療大數據產業中,不管是數據臨床診斷還是腫瘤數據分析,目前只有兩個比較主要的商業模式:

1. 臨床應用通過醫院向患者收費,每一個醫院和科室相當於一個代理,這樣進行層層轉移,但是收費並且市場教育成本會非常的高,反之再有地推各種成本情況下,毛利率會很低。

2. 向葯企做藥物研發、臨床觀察的數據輔助分析。

但是在國內,原研葯的研發實際上的市場份額並不是很高,國內企業對於新葯的研發投入並不大,而跨國企業的研發主要在國外總部,所以雖然這一商業模式有向後延續的趨勢,但是發展優勢並不明顯。

同時還有一個很現實的問題,大數據企業可能需要每年花費上億的成本去做臨床數據輔助分析系統,但是葯企可能只願意花費幾百萬來支付你提供的服務,這就會導致比較嚴重的入不敷出,而且這不是一個短期的狀態而是常態化的。在現階段,想要讓葯企大規模的去支付改善藥物研發的費用比較難,反而現在單純做臨床觀察系統、患者招募的需求更廣闊一些。

最後,無論在中國還是美國,醫療大數據產業很難適合創業公司去做,就像很多創新藥物只能由禮來、輝瑞等的大型跨國葯企來宣布和承受失敗……創業公司即使短期內融到巨資來做這個事情,目前也看不到任何規模化收入的可能性。也許2、3 年後情況會有好轉,但是資本情況又會有不斷的變化,可謂是路漫漫而修遠兮……

(歡迎轉載,註明作者和出處即可,願意與Dr.2交流的請加微信號:medicool3)


目前聊醫療大數據裡面分成兩堆人,一派 CS 碼農認為大數據和演算法可以解決所有問題,一派傳統醫生覺得大數據就是個樣子貨。真是非常微博風範。我認同數據分析的價值,收集數據絕對是有價值的,但是用於輔助診斷,比如醫學影像,用藥監督。 然而任何一個業內的人都知道數據分析從來都不是什麼大問題,數據採集和測量,study design才是。PS: 國內醫療大數據這麼熱,基本都是大家盯上了收集的患者信息可以轉化為商業價值罷了。。。看看國內現在連個中文的 uptodate 隨訪系統,和醫療百科webmd之流都沒有,就知道現在國內醫療的現狀就是:走都不會走就想要飛天了。國內現在一片紅火的人工智慧。。深度學習神經網路。。。精準醫療 我呵呵呵呵。


個人認為這個概念跟雲概念一樣是被「妖魔化」的,本來一件很正常的發展必然方向被說成是改變世界了一樣。

醫療數據,歐美的發展方向肯定是向著數據統計和優化分析方向進步(我國不像有這個趨勢,大多的醫院和企業在做的都是重複重複)。

  • 首選從數據的收集上來說,移動終端(如手機)雖然是很好的方式,但缺點就是很難普及,你不能強迫每個人都在手機上安裝這種隨時統計的軟體,還要考慮使用者的受教育水平。

    可行的辦法是僅對患者,使用手錶等形式作跟蹤統計,這樣才有針對性。
  • 分析大數據的方向,應該是將某地區病人的數據同該地區環境,教育,活動等情況聯繫起來進行分析(在TED活動上可以看到很多成品,可以說IBM一直走在此領域的前端),從而得出政府或相關行業的政策應該如何優化改進。這裡的應用是一個整體解決方案,至少會面對一個區域或一個城市。
  • 如何反饋?個人認為更多地會作用於政策,而不是個人。比如政策向環境改進,或某些癌症領域的方向調整等等,再間接影響到個人。這裡的應用也是整體解決方案。

    既然是大數據的發展方向,就不會僅針對於個人製作個性化的治療,這個工作醫生是自古以來都一直在做的。


對於醫療行業,我更加關注醫療的入口頁··· ···

landing page "s big data

2013-4-25補充(1)

由入口頁引起的解決方案··· ···

1.場景: 當感冒來臨或者頭痛腦熱,不想出門看醫生,我會看下丁香園關於癥狀的說明,也會百 度搜索下相關的信息(百度知道,但是百度搜索頁更多的是虛假信息的推廣,我現在選用360搜索)。

2.對於搜索:

由癥狀作為主導的,由癥狀匹配疾病,根據疾病推薦醫院,甚至推薦藥品。

通過瀏覽行為的記錄(Cookies),對人群進行定向。

從癥狀匹配→線上問診→線上推薦醫院藥品→線上挂號→線下治療→線上反饋→形成知識庫

(顆粒度不高,逐步完善)


大數據目前還停留在技術階段,更多人討論的是技術問題,其實真正的應用到商業的路還沒多少人走,都在摸索。


利益相關,強答。

個人互聯網行業轉行死磕醫療大數據。平時接觸到的,有診療數據,病理數據,基因數據,病房數據。幾點感覺:

1 醫療大數據幾乎是偽命題。單個醫院或單個病種的數據幾十年積累的可能只有幾十萬行。互聯網行業的日誌系統,每天輕鬆過百億行。

2 國內醫院一直沒有統一的標準,用於指導數據生成。每個醫院,每個大夫,每個病種書寫習慣差異很大,導致數據項目前期需要預研大量領域知識,不管是自動的,還是人工的。

3 醫療大數據的產出到底是面向科研,還是面向臨床,關係到業務範圍。國內大醫院的大夫每年都有科研任務和科研經費,給這批人做科研項目很有可能是要基因數據的,而除了生死的剛需之外,國內基因數據是很不足的。如果面向臨床,基本上是通過醫療圖文給出患病結論。曾經接觸到一些臨床大夫,是非常反感人工智慧的。只能提輔助決策,不要提取代他們。

4 醫療大數據處理並不簡單。一張病理圖片有時有1G大,一個人全基因組測序數據200G。這些都需要高性能計算和演算法優化。大夫們的需求有時是不講理的。兩天給結果,你就得想辦法。

5 國內醫療大數據的變現模式很長時間是toB的,例如醫院,藥廠。毫無疑問。從這個意義上講,伺候好各家單位領導也是不可避免的。所以數據挖掘崗和數據分析崗的日常大量是需求響應式的。不像互聯網那麼自由。

這個行業,除了需要數據,也必然需要情懷。可悲的是,這兩點都滿足的不好。國內醫院數據大概率是封閉的。如果醫院不願意上雲,工程人員就必須駐場。而不是生物,醫學領域出身,或自己沒有深刻體驗,很難講情懷。好在一切都在變好。


醫療健康數據來自不同的數據系統,如EMR(Electronic Medical Record,電子醫療記錄)或HR軟體,或者不同的醫療機構,如放射科或藥學中心。講這些數據集合成一個中央系統,如企業數據倉庫 (enterprise data warehouse,EDW),可以使得數據更容易挖掘和操作。

醫療大數據以多種形式出現,如文本、數字、紙質文件、數碼、圖片、影像或多媒體資料等。放射學利用圖像,傳統的醫學病歷是以紙為載體記錄的,而今天的電子醫學病歷可以承載成百上千的文本和數字數據。有時相同數據以不同的形勢存儲於不同的系統。比如一個病人摔斷了胳膊,醫學數據是以圖片記錄下病人的病情及傷情,而在資料庫是以 ICD-9 code 813.8編碼記錄的。

未來會有更多醫學數據的來源,比如可以追蹤病人的健康監控app或血壓感測器導出的數據,以達到採集醫療數據的目的。

電子醫療病例軟體為統一的醫療數據收集提供了絕佳平台,但是要達到數據收集的一致性並不容易。多少年來,醫生都是用紙質為載體記錄病歷,醫生很少去考慮病曆數據是不是容易收集和分析(前提是醫生的外星文字能被看懂)。電子醫療病歷試圖將數據採集程序標準化,但是主要障礙在於醫生不喜歡採用這種統一格式的方法記錄病人情況。因此,非結構化的數據採集應運而生,它可以避免醫生對統一格式記錄病歷方式的抗拒心理。 不過以這種方式採集的數據很難集中分析。隨著電子醫療病歷產品的改進,醫生等用戶將會不斷適應這種標準化的工作流程,從而願意在結構化的系統中輸入病人的數據,我們就可以更好的分析這些數據。

另外,醫療健康數據具有一定程度的主觀性,比如一組醫師對哮喘病人的診斷和另一組醫師的診斷肯定不完全一致。如果你問兩個醫師對於確診糖尿病患者有沒有一套統一的標準,你可能會得到三種不同的答案,所以沒有絕對一致的診斷方案。

即使達成一致,專家學者們也在不斷更新自己的知識儲備,對於檢測疾病的手段也在不斷改善中。比如,今年大多數醫生認為Hg A1c值高於7就可以診斷為糖尿病,但明年可能這個標準就不一樣了。在這個行業里沒有永恆不變的一套模式,你要從混亂中探索和創造新的「秩序」,最終達到一個他人無法預測的目標。

醫療透明化和價格信息公開化是醫療機構改革的趨勢,大數據將逐漸跟上政府醫療制度改革的腳步。不過目前中國的醫院能做到信息透明化嗎?裡面有很多利益糾結吧,數據處理之類的工作都外包給關係戶在做了,真正技術過硬的企業往往也進不去這大網。

國外的醫療大數據發展還是比較正常的,Merck、GE等大公司都在積極發展,畢竟醫療體系比我們成熟,大數據的發展前景比我們國家要好得多。

StartUp Health互聯網醫療投融資報告2015Q3:互聯網醫療進入成熟期?


其實我想說,聯通就可以做這個,我們自有的116117挂號系統,可以有效的篩選出這些用戶。而且在其他系統里,運用各種演算法可以找到這些用戶


推薦閱讀:

機器學習模型中的分類變數最多可以有多少個值?
你遇到過什麼,讓你一瞬間覺得數據如此有趣美妙,又有價值?
標準化和歸一化什麼區別?
決策樹演算法中,CART與ID3、C4.5特徵選擇之間的區別會對實際應用有哪些影響?哪種的結果會更好些?
什麼是數據挖掘?

TAG:數據挖掘 | 數據分析 | 醫療 | 大數據 | 醫療數據 |