論一個醫學信息學領域業餘觀測狗的自我修養
開張感言:這個專業在國內仍不是一個很成熟的學科,尤其是某些客觀因素影響下我們的培養項目充滿不確定,這一方面意味著有很多渾水撈魚的機會,另一方面也意味著我們在逐漸奠基。我的老師時常說,有很多很有意思的機會值得去做,我們的狀態代表著鄙中心學科培養的水平。在校招季對職業狀態及求職與僱傭的博弈有了很多思考和感受,讓我覺得嚴謹的研究依然是最有意思的工作。然而,本狗實在感覺自己太弱,雙腿跨在懸崖兩旁都沒能把韌帶拉開的那種,所以覺得自己就像看星星的人,斗轉星移的瑰麗和神奇讓我無比沉醉,既然科研能力還跟不上空想能力,那麼就先做一個認真的業餘觀測者。最開始這裡的文章會是學習JAMIA的paper筆記,下面是九月刊(Volume 23, Issue 5)的上部分。實話講,看思路出彩的文章真是刺激!
0. Is the problem list in the eye of the beholder? An exploration of consistency across physicians
問題:對於一個病例,不同醫生的problemlist的長度、類型、順序區別多大?診斷項排序的標準是什麼?
方法:32名醫生分別分析3份複雜病歷,使用自然語言列出problem list,把研究者和受試者一致同意的項目轉換成SNOMED和ICD9標準項目,剩餘保持自然語言。然後要求醫生對問題列表進行排序。最後詢問醫生排序的標準依據。使用R(RColorBrewer)分析數據。
結果:包括四個問題,一是列表長度,並用對數線性模型分析病歷和醫生對長度的影響;二是用直方圖描述選出的診斷項目的頻數和排序,並延伸了rank-biased overlap的概念加入長度變數形成LDRBO說明兩個列表的重合關係;三是對每個病歷取所有診斷項並集,對其每個子集與每個醫生的列表計算LDRBO以得出所有醫生交集最大的列表;四是醫生排序標準的定性總結。
小評:problem list對臨床工作的重要性有很多支持,不過這篇文章沒有單純地在大量樣本基礎上做描述性分析,結果的第三點遍歷子集的方法太驚艷了,並且使用量化指標非常有說服力。不過最終並沒有一個很普遍的結論,如果收集的環境、病種、醫生特徵等足夠的話,也許可以進一步探索影響因素。
1. A method for modeling co-occurrence propensity of clinical codes with application to ICD-10-PCS auto-coding
問題:病歷術語到醫保編碼的轉碼應用很廣泛,某些編碼不能單純從語言描述獲得,需要綜合考慮病歷內各種信息的聯繫,這部分很容易發生錯誤。
方案:在已有的自動轉碼程序的基礎上,一方面分析代碼內部結構建立特徵函數,另一方面建立模型估計代碼同時出現的規律。
1.訓練數據:利用logistic回歸構建二分模型(該代碼是否出現),選擇自動轉碼出的似然得分高的代碼和人工轉碼的合集作為訓練集,根據特徵函數計算P,根據人工轉碼結果反饋。
W是權重,F是具體轉碼任務中的K個特徵的函數
2. 貪心運行演算法:利用訓練模型P調整自動轉碼結果GEM。考慮到作為判定基準,每次迭代將GEM中似然得分最高的彈出序列,作為確定結果,對其他代碼通過計算P更新得分,迭代次數d。
小評:NLP是MI的大金礦,中英文又有很多不同的情況。這篇文章的想法很有意思,充分利用原始文本信息,這個思想可能可以擴展到很多方向,比如決策支持的校準等。總的看下來,這篇文章比較像是指南,對整個工作有完整的介紹,細節上的統計模型選擇、迭代中的誤差放大等在具體工程中還有很多值得延伸的地方。
P.S. 這篇文章是3M公司發的,跪一下嗯orz。。。
2. Automated identification and predictive tools to help identify high-risk heart failure patients: pilot evaluation
問題:通過病歷資料自動識別心衰並預測30天再入院率和死亡率。
方法:基於歷史數據的統計分析,輸入為5個變數,輸出為危險得分,按性別劃分危險等級,根據危險等級建立不同的care process pathway。最後用統計檢驗比較心衰識別和路徑應用的效果。
結果:該系統的使用顯著提高陽性預測率,縮短診斷時間,30天再入院率無顯著差異,30天死亡率顯著降低,轉移到家庭護理的患者比例顯著增加,住院費用無顯著差異。
小評:這篇算是個casestudy,感覺思路方法都比較簡單,不過也是目前比較熱捧的醫學決策支持研究,這類研究熱點應該還有很多可以挖掘,與循證研究結合,最基礎的規則路徑也能做出有意思的成果。另外,文章中提到的care process pathway,個人理解是護理路徑吧,國內這方面可能做得少一點,可能還是需要更系統的體系支持。
3. Development and validation of a predictive model for detection of colorectal cancer in primary care by analysis of complete blood counts: a binational retrospective study
問題:利用電子病歷的大量數據,通過血細胞計數、年齡和性別預測結直腸癌。
方法:基於60萬餘條病例數據訓練模型。模型的基本演算法是分類和回歸樹,然後利用回歸森林和梯度上升模型聚集多個預測結果,分別用於不同得分樣本上。模型訓練時利用交叉驗證調整參數,抽取90%數據用於訓練,10%用於驗證,重複交叉訓練十輪,輸出預測得分。工具是R(RF、C 、Gradient Boosting Model)。
結果:評估模型生成的預測得分效果,一是利用ROC曲線下面積評價總體表現,二是假陽性率定為0.5%時,利用OR比較患病率,以評價篩查高患病幾率人群的效果,三是計算靈敏度50%時的特異度,以評價大規模人群篩查的效果。
小評:這個研究太厲害了,在隊列研究的基礎上,充分發揮數據量的優勢,直接從很基礎的數據給出疾病預測概率,這應該是傳統流行病學無法達成的,當然也可能是無法被接受應用的。當然,這個模型可能是可以更加改進的,不同的feature效果也有差異,但這種方法應該會被越來越多地用在公共衛生研究里。
4. Effects of an e-Prescribing interface redesign on rates of generic drug prescribing: exploiting default options
問題:為了鼓勵開通用名葯,要克服醫囑系統的干擾、警告倦怠等問題,如何通過界面設計解決這個問題?
方法:改進系統方案是:搜索商品名同時出現商品名藥物和通用名藥物,選擇商品名藥物時,自動替換為通用名藥物,括弧里寫商品名,點擊按鈕才會忽略推薦;劑量里直接顯示一個指定劑量。
結果:搜集後台開處方情況,與前一年的基線比較。檢驗指標包括通用名葯處方量、不同類型人群間處方量差異,基於檢驗結果使用廣義估計方程GEE描述通用名處方開出的機會,不同功能按鈕使用率變化,
小評:為了達到最佳可用性的目的而設計不同的交互界面比較,在這篇文章研究前也可以作為一個研究,貌似在心理學和消費者商業洞察中有廣泛體現。從後台使用數據的統計可以得到很多用戶使用習慣的結論,反過來又可以作為假設去反饋界面交互和系統設計的討論。以及個人覺得用戶研究還是應該有訪談更好。
5. Describing the evolution of mobile technology usage for Latino patients and comparing findings to national mHealth estimates
問題:考慮對存在知識語言等障礙的拉美裔人群實施移動健康,他們的手機使用情況如何?
方法:在醫院內開展兩千餘人的橫斷面調查,問卷為以前一篇文章對拉美裔人群的一般調查,主要內容為手機使用比例、手機功能使用能力。結果包括調查數據描述性統計、與之前報告的對比、卡方檢驗判斷不同慢性病、年齡、語言、教育組間是否存在差異。
小評:這篇文章的切入點很有價值,樣本量也不少,少數族裔的衛生問題可能讓衛生部門比較頭大,這是他們關心的。不過話說這個研究思路和內容都好簡單,看完顯著提振發文章信心。既然提到移動健康,人群健康素養、mHealth的接納度等都可以順便調查一下。
6. SMART on FHIR: a standards-based, interoperable apps platform for electronic health records
問題:SMART是2010年提出的Substitutable Medical Applications andReusable Technologies,將EHR作為平台接入其他第三方應用。FHIR是Fast Healthcare Interoperability Resources,在HL7基礎上創建的標準框架。在FHIR服務上實施SMART能更大擴展SMART覆蓋領域。
方案:系統組件包括進一步配置的FHIR、OAuth2(安全授權標準)、OpenID Connect(安全訪問標準),基於這些第三方App可安全連接EHR。在FHIR配置中,採用Meaningful use stage 2標準要求,藥物採用RxNorm,癥狀採用LONIC,問題採用SNOMEDCT,另外繼承SMART中使用的一些協議。使用HTML5開發用戶界面,實現跨平台。文章提供了一個reference implementaion,包含API服務、授權服務和應用服務三部分,類似地vendor可以開發各類App。
小評:這篇文章細讀還挺不容易的,有很多開發層面的內容。不過覺得這種建立醫療服務基礎平台的思路非常珍貴,這篇文章解決了很多具體實施中的困難問題,比如採用規範標準連接多種數據服務,從最基礎的EHR建立數據出入的底層服務,這樣即便在醫院環境下多個系統也可共享用戶服務和數據,開發成本大減。目前國內流行的CDR感覺也是同樣的思路,但沒有國家層面的標準和模型支持。
7. Data interchange using i2b2
問題:醫療數據有很大臨床研究價值,但每個網路位置的數據抽取、轉換和載入成本很大,Informatics for Integrating Biology andthe Bedside (i2b2)是一個數據倉庫平台,數據模型類似實體-屬性-值,如何利用i2b2為中間件快速處理形成研究數據?
方案:以Patient-CenteredOutcomes Research InstituteNetwork的數據為目標,首先在i2b2中建立PCORnet-CDM(common data model)的實體,包括人口學、診斷、處置、體征等。對數據項在實體的concept基礎上,補充基本的數據類型。在i2b2站點內,通過實體路徑識別數據,再通過實體路徑轉換為資料庫的表,實現快速提取。
小評:數據在不同位置取用時的轉換本質還是數據結構的不同,使用標準是好的途徑,但也可能新的結構適用於特定應用更不便於利用。這篇文章並沒有提出普適的數據轉換的方法,依然是面向具體對象的,但使用實體可以自上而下歸類數據,具體系統中一定結構的數據最後轉換為關係資料庫就非常普適了。另外,這個成功的一點還在於PCORN擁有廣泛地使用,要轉換數據站點也需同時支持i2b2,所以術語標準非常重要啊。
推薦閱讀:
※呼吸性酸中毒有哪些特徵?
※為什麼醫院總讓人輸液,輸液對人體有哪些壞處?
※阿奇黴素的發展?
※產後出血
※吃什麼水果治感冒?