論一個醫學信息學領域業餘觀測狗的自我修養

05-02

開張感言：這個專業在國內仍不是一個很成熟的學科，尤其是某些客觀因素影響下我們的培養項目充滿不確定，這一方面意味著有很多渾水撈魚的機會，另一方面也意味著我們在逐漸奠基。我的老師時常說，有很多很有意思的機會值得去做，我們的狀態代表著鄙中心學科培養的水平。在校招季對職業狀態及求職與僱傭的博弈有了很多思考和感受，讓我覺得嚴謹的研究依然是最有意思的工作。然而，本狗實在感覺自己太弱，雙腿跨在懸崖兩旁都沒能把韌帶拉開的那種，所以覺得自己就像看星星的人，斗轉星移的瑰麗和神奇讓我無比沉醉，既然科研能力還跟不上空想能力，那麼就先做一個認真的業餘觀測者。最開始這裡的文章會是學習JAMIA的paper筆記，下面是九月刊（Volume 23, Issue 5）的上部分。實話講，看思路出彩的文章真是刺激！

0. Is the problem list in the eye of the beholder? An exploration of consistency across physicians

問題：對於一個病例，不同醫生的problemlist的長度、類型、順序區別多大？診斷項排序的標準是什麼？

方法：32名醫生分別分析3份複雜病歷，使用自然語言列出problem list，把研究者和受試者一致同意的項目轉換成SNOMED和ICD9標準項目，剩餘保持自然語言。然後要求醫生對問題列表進行排序。最後詢問醫生排序的標準依據。使用R(RColorBrewer)分析數據。

結果：包括四個問題，一是列表長度，並用對數線性模型分析病歷和醫生對長度的影響；二是用直方圖描述選出的診斷項目的頻數和排序，並延伸了rank-biased overlap的概念加入長度變數形成LDRBO說明兩個列表的重合關係；三是對每個病歷取所有診斷項並集，對其每個子集與每個醫生的列表計算LDRBO以得出所有醫生交集最大的列表；四是醫生排序標準的定性總結。

小評：problem list對臨床工作的重要性有很多支持，不過這篇文章沒有單純地在大量樣本基礎上做描述性分析，結果的第三點遍歷子集的方法太驚艷了，並且使用量化指標非常有說服力。不過最終並沒有一個很普遍的結論，如果收集的環境、病種、醫生特徵等足夠的話，也許可以進一步探索影響因素。

1. A method for modeling co-occurrence propensity of clinical codes with application to ICD-10-PCS auto-coding

問題：病歷術語到醫保編碼的轉碼應用很廣泛，某些編碼不能單純從語言描述獲得，需要綜合考慮病歷內各種信息的聯繫，這部分很容易發生錯誤。

方案：在已有的自動轉碼程序的基礎上，一方面分析代碼內部結構建立特徵函數，另一方面建立模型估計代碼同時出現的規律。

1.訓練數據：利用logistic回歸構建二分模型（該代碼是否出現），選擇自動轉碼出的似然得分高的代碼和人工轉碼的合集作為訓練集，根據特徵函數計算P，根據人工轉碼結果反饋。

W是權重，F是具體轉碼任務中的K個特徵的函數

2. 貪心運行演算法：利用訓練模型P調整自動轉碼結果GEM。考慮到作為判定基準，每次迭代將GEM中似然得分最高的彈出序列，作為確定結果，對其他代碼通過計算P更新得分，迭代次數d。

小評：NLP是MI的大金礦，中英文又有很多不同的情況。這篇文章的想法很有意思，充分利用原始文本信息，這個思想可能可以擴展到很多方向，比如決策支持的校準等。總的看下來，這篇文章比較像是指南，對整個工作有完整的介紹，細節上的統計模型選擇、迭代中的誤差放大等在具體工程中還有很多值得延伸的地方。

P.S. 這篇文章是3M公司發的，跪一下嗯orz。。。

2. Automated identification and predictive tools to help identify high-risk heart failure patients: pilot evaluation

問題：通過病歷資料自動識別心衰並預測30天再入院率和死亡率。

方法：基於歷史數據的統計分析，輸入為5個變數，輸出為危險得分，按性別劃分危險等級，根據危險等級建立不同的care process pathway。最後用統計檢驗比較心衰識別和路徑應用的效果。

結果：該系統的使用顯著提高陽性預測率，縮短診斷時間，30天再入院率無顯著差異，30天死亡率顯著降低，轉移到家庭護理的患者比例顯著增加，住院費用無顯著差異。

小評：這篇算是個casestudy，感覺思路方法都比較簡單，不過也是目前比較熱捧的醫學決策支持研究，這類研究熱點應該還有很多可以挖掘，與循證研究結合，最基礎的規則路徑也能做出有意思的成果。另外，文章中提到的care process pathway，個人理解是護理路徑吧，國內這方面可能做得少一點，可能還是需要更系統的體系支持。

3. Development and validation of a predictive model for detection of colorectal cancer in primary care by analysis of complete blood counts: a binational retrospective study

問題：利用電子病歷的大量數據，通過血細胞計數、年齡和性別預測結直腸癌。

方法：基於60萬餘條病例數據訓練模型。模型的基本演算法是分類和回歸樹，然後利用回歸森林和梯度上升模型聚集多個預測結果，分別用於不同得分樣本上。模型訓練時利用交叉驗證調整參數，抽取90%數據用於訓練，10%用於驗證，重複交叉訓練十輪，輸出預測得分。工具是R（RF、C 、Gradient Boosting Model）。

結果：評估模型生成的預測得分效果，一是利用ROC曲線下面積評價總體表現，二是假陽性率定為0.5%時，利用OR比較患病率，以評價篩查高患病幾率人群的效果，三是計算靈敏度50%時的特異度，以評價大規模人群篩查的效果。

小評：這個研究太厲害了，在隊列研究的基礎上，充分發揮數據量的優勢，直接從很基礎的數據給出疾病預測概率，這應該是傳統流行病學無法達成的，當然也可能是無法被接受應用的。當然，這個模型可能是可以更加改進的，不同的feature效果也有差異，但這種方法應該會被越來越多地用在公共衛生研究里。

4. Effects of an e-Prescribing interface redesign on rates of generic drug prescribing: exploiting default options

問題：為了鼓勵開通用名葯，要克服醫囑系統的干擾、警告倦怠等問題，如何通過界面設計解決這個問題？

方法：改進系統方案是：搜索商品名同時出現商品名藥物和通用名藥物，選擇商品名藥物時，自動替換為通用名藥物，括弧里寫商品名，點擊按鈕才會忽略推薦；劑量里直接顯示一個指定劑量。

結果：搜集後台開處方情況，與前一年的基線比較。檢驗指標包括通用名葯處方量、不同類型人群間處方量差異，基於檢驗結果使用廣義估計方程GEE描述通用名處方開出的機會，不同功能按鈕使用率變化，

小評：為了達到最佳可用性的目的而設計不同的交互界面比較，在這篇文章研究前也可以作為一個研究，貌似在心理學和消費者商業洞察中有廣泛體現。從後台使用數據的統計可以得到很多用戶使用習慣的結論，反過來又可以作為假設去反饋界面交互和系統設計的討論。以及個人覺得用戶研究還是應該有訪談更好。

5. Describing the evolution of mobile technology usage for Latino patients and comparing findings to national mHealth estimates

問題：考慮對存在知識語言等障礙的拉美裔人群實施移動健康，他們的手機使用情況如何？

方法：在醫院內開展兩千餘人的橫斷面調查，問卷為以前一篇文章對拉美裔人群的一般調查，主要內容為手機使用比例、手機功能使用能力。結果包括調查數據描述性統計、與之前報告的對比、卡方檢驗判斷不同慢性病、年齡、語言、教育組間是否存在差異。

小評：這篇文章的切入點很有價值，樣本量也不少，少數族裔的衛生問題可能讓衛生部門比較頭大，這是他們關心的。不過話說這個研究思路和內容都好簡單，看完顯著提振發文章信心。既然提到移動健康，人群健康素養、mHealth的接納度等都可以順便調查一下。

6. SMART on FHIR: a standards-based, interoperable apps platform for electronic health records

問題：SMART是2010年提出的Substitutable Medical Applications andReusable Technologies，將EHR作為平台接入其他第三方應用。FHIR是Fast Healthcare Interoperability Resources，在HL7基礎上創建的標準框架。在FHIR服務上實施SMART能更大擴展SMART覆蓋領域。

方案：系統組件包括進一步配置的FHIR、OAuth2（安全授權標準）、OpenID Connect（安全訪問標準），基於這些第三方App可安全連接EHR。在FHIR配置中，採用Meaningful use stage 2標準要求，藥物採用RxNorm，癥狀採用LONIC，問題採用SNOMEDCT，另外繼承SMART中使用的一些協議。使用HTML5開發用戶界面，實現跨平台。文章提供了一個reference implementaion，包含API服務、授權服務和應用服務三部分，類似地vendor可以開發各類App。

小評：這篇文章細讀還挺不容易的，有很多開發層面的內容。不過覺得這種建立醫療服務基礎平台的思路非常珍貴，這篇文章解決了很多具體實施中的困難問題，比如採用規範標準連接多種數據服務，從最基礎的EHR建立數據出入的底層服務，這樣即便在醫院環境下多個系統也可共享用戶服務和數據，開發成本大減。目前國內流行的CDR感覺也是同樣的思路，但沒有國家層面的標準和模型支持。

7. Data interchange using i2b2

問題：醫療數據有很大臨床研究價值，但每個網路位置的數據抽取、轉換和載入成本很大，Informatics for Integrating Biology andthe Bedside (i2b2)是一個數據倉庫平台，數據模型類似實體-屬性-值，如何利用i2b2為中間件快速處理形成研究數據？

方案：以Patient-CenteredOutcomes Research InstituteNetwork的數據為目標，首先在i2b2中建立PCORnet-CDM（common data model）的實體，包括人口學、診斷、處置、體征等。對數據項在實體的concept基礎上，補充基本的數據類型。在i2b2站點內，通過實體路徑識別數據，再通過實體路徑轉換為資料庫的表，實現快速提取。

小評：數據在不同位置取用時的轉換本質還是數據結構的不同，使用標準是好的途徑，但也可能新的結構適用於特定應用更不便於利用。這篇文章並沒有提出普適的數據轉換的方法，依然是面向具體對象的，但使用實體可以自上而下歸類數據，具體系統中一定結構的數據最後轉換為關係資料庫就非常普適了。另外，這個成功的一點還在於PCORN擁有廣泛地使用，要轉換數據站點也需同時支持i2b2，所以術語標準非常重要啊。