好好養生才是王道

05-08

Cue: To do list上經常有很多事情需要並行進行，時間管理是很重要的，那麼首先要有精力去做時間管理，那麼首先要有精力去有精力地做時間管理，那麼首先要有精力有精力地有精力地做時間管理……所以說，對自己的身體負責任總是最重要的，好好養生才是人生第一要務 XD！以下是JAMIA九月刊（Volume 23, Issue 5）的下部分。

0. Managing research and surveillance projects in real-time with a novel open-source eManagement tool designed for under-resourced countries

問題：紙質研究記錄在經濟和數據處理等方面存在不足，通過軟體可以更好地管理數據和研究進程，在實時查看數據、用戶友好、資料庫共享、自動報告數據進程、數據安全方面有需求。

方案：基於之前開發的OpenData Kit數據收集和整合能力，系統架構如下，藍色的是ODK已經實現的，綠色的是這個研究拓展的工具，主要亮點是整合多種數據格式、自動傳送其他系統數據、實時查看和自動通知推送、用戶界面優化，後台和前端分別用Python和PHP開發，文章中用了一個肺結核病例說明的確在數據管理和計劃方面很方便。

小評：這個研究是關於信息化科研管理，這是國內醫療信息化市場上熱門的產品，其價值當然不言而喻，尤其是多中心研究，個人經驗是在數據獲取和系統性能上有比較大優化需求，這個研究沒有過多涉及到這個問題，用的是開源平台，保證底層性能，其主要工作是實際使用效率和流程成本的貢獻，這也是這類研究開展的啟發。

1. The frequency of inappropriate nonformulary medication alert overrides in the inpatient setting

問題：nonformularymedications (NFMs)是指不在醫院常用藥物名單上的葯，通常沒有庫存且在開醫囑路徑上會有差別，這會造成人力成本增加、用藥延遲和錯誤等，所以有提出在開NFM時彈出警告並提示常用藥，不過通常有很高忽略(override)率，不合理的override頻率怎樣？如何更好改善警告方式？

方法：這個醫院原本的彈出警告有3種方式，soft stop是要求輸入用藥原因，intermediate stop要求輸入用藥原因並核對開藥許可權，hard stop是直接解釋不合理原因並要求換藥。從系統記錄中提取NFM開藥數據和費用數據作分析。判斷合理性由兩個藥師主要從用藥專業角度8個問題的一個演算法通過chartreview歸類合理性判斷。

結果：11種最常用NFM不合理率達17.2%，兩個藥師一致性kappa為0.95，最常見開藥原因是疾病狀況，39.6%的沒有填寫原因。方差分析結果顯示不同類別藥物的不合理率有顯著差異。不合理用藥的最大原因是未首先嘗試使用常用藥。

小評：首先感覺權衡效率和安全為alert配置多種形式就做得功夫很深了，國內系統里針對業務的alert應該不多，主要在合理用藥系統里體現比較集中，這個可是決策支持的途徑之一。所以系統開發中包含了不少研究機會，包括偏技術和偏臨床，這個研究的方向很新，其實如果有實際應用環境條件可以抓住領先機會。

2. A high-precision rule-based extraction system for expanding geospatial metadata in GenBank records

問題：LOIH是location of the infected host，包含在Genbank的基因序列元數據中，其對病原體傳播研究是很重要的，但Genbank里的數據很多缺失或不全，需要從PMC的具體文獻里找到原文確定具體位置，這個研究是構建一個NLP框架自動抽取文獻文本里目標基因的LOIH的經緯度。

方案：對甲型流感從PMC下載60篇文章，做文本處理，按文章分層隨機從Genbank抽10%的記錄，共5728條，從Genbank里抽取3個欄位結合判斷位置，利用GeoNames和Socrata資料庫映射具體經緯度，檢索位置時根據預先定好的具體程度規則判斷是否需要進一步從文獻抽取位置，如果需要繼續，從PMC的html格式文章的表格中尋找表頭為位置的信息，對文本內容使用GATA平台的ANNIE模塊分句，用之前開發的工具監測位置詞語，並通過驗證位置詞語前後的pattern確認是正確位置信息，排除矛盾情況後整合識別出的位置信息。另外進行準確度驗證時，對6種病毒各隨機選2篇文章，每篇文章隨機選10個Genbank的記錄，人工標註後驗證這個框架的準確度。最終準確率0.832，召回率0.967，f-measure為0.894。

小評：從論文資料庫自動抽取研究結果支持醫療決策的方法太酷了，當然挑戰也是非常大，讓機器讀懂文獻還是不容易，所以目前研究還是集中在關鍵數據的抽取，這個研究的細節很多，每個環節的異常情況和信息準確性的校驗對結果都有影響，個人覺得還有個錦上添花的地方，在位置信息獲得後做不同感染傾向不同位置統計數據可視化，結果一定很漂亮。

3. Potential benefit of electronic pharmacy claims data to prevent medication history errors and resultant inpatient order errors

問題：藥物不良事件ADE一直都是棘手的問題，電子病歷對此有一些改善，具體到葯歷錯誤，electronic pharmacy claims data會起到多大作用？

方法：在一個RCT研究基礎上，取得受試者的入院用藥史admission medication history，然後由藥師根據既定流程獲得的標準AMH，比對記錄其中存在的錯誤。ElectronicPharmacy Claims Data是保險公司的用藥理賠數據，包含藥名、劑量、途徑、時間等數據，取得EPCD的數據後，與AMH的錯誤率和住院醫囑錯誤進行對比，兩名藥師聯繫各種用藥史將發現的錯誤分為與EPCD不相關、可能相關、已經被EPCD避免、可能被避免四類。

結果：包括兩名評估藥師一致性的kappa值，各類AMH錯誤的比例，利用卡方檢驗和logistic模型檢驗比較各類錯誤率。比較AMH和住院醫囑錯誤發現顯著差異，說明可以預防更嚴重錯誤；比較各種類型錯誤（疏忽、劑量等）發現顯著差異，說明對不同類錯誤的預防效果不同，但未發現EPCD預防錯誤的優勢；比較不同開藥者的錯誤率存在顯著差異，說明EPCD有助於助理藥師減少錯誤。

小評：這篇文獻裡頭好多美國衛生體制的專業名詞所以看得好辛苦，實際上降低醫療服務各個環節的ADE一直是重要的研究內容，電子病歷記錄能提供原始臨床環境數據分析問題的嚴峻性，和措施干預下的差異數據分析HIT的干預優勢，主要面向醫院安全和衛生經濟（公衛預防和保險控制），國內的醫保模式和保險模式既有特色，又有很多值得向國外學習，如果可以保證中立的話可以參考進行本土相關問題的研究。

4. Patients learning to read their doctors』 notes: the importance of reminders

問題：鼓勵患者參與治療過程是有益的，患者對查看個人醫生的備註也表現出充分的熱情，但看過一次後的興趣會消減嗎？給患者郵件提醒查看醫生備註能提高查看頻率嗎？

方法：納入兩個查看醫生備註的網站，就醫第一年，患者會在醫生簽署注意事項後一天內和計劃回訪日前幾天分別獲得兩封提醒郵件，其中一個網站第二年不再提醒，並獲得患者的人口學信息和疾病信息。

結果：觀察發出提醒後30天內查看備註的比例，比較查看備註的多因素模型調整RR值，比較兩個網站每3個月查看備註的情況以判斷郵件提醒的作用。

小評：這篇文章是典型的信息化提升醫療服務的實證研究，可以預料到的是類似的IT解決方案可能催生很多產業和研究機會。就這個研究的問題，除了給患者提供可選的機會，是否可以採用更多手段按照合理應有的樣子給更多信息暴露給患者，郵件提醒比較初級了，那麼又是新的學科和知識交叉了。

5. An exploratory study using an openEHR 2-level modeling approach to represent common data elements

問題：common dataelement是在不同機構間使用同一的數據採集和存儲格式，一般缺乏定義標準和具體結構化，openEHR是一個開放的電子病歷標準體系，這個研究探索利用OpenEHR建立CDE概念的模型。

方案：本研究使用NIH CDE，包含data element details, data element concept details, value domains, permissible values和property，每個部分包含一定的屬性和值。OpenEHR包含referrencemodel和archetype model兩部分，參考模型定義了檢查結果等信息的結構和語義，原型模型整合某醫學概念的各種信息，不同原型可以映射在一個CRF表中。這個研究映射流程如下，先將納入研究的CDE分為7個領域以匹配原型，以openEHR Clinical KnowledgeManager為原型庫，先抽出描述和關鍵詞並索引，然後逐個檢索CDE匹配原型，將CDE自帶的屬性補充到openEHR原型的項目里。利用NCIs CDE browser將粗分類的CDE進一步細分為具體元素。

小評：這個研究中使用了很多開放的數據和程序，包括上面沒有具體解釋的數據處理工具，覺得為了解決現實中的信息標準等問題可以有很多類似的模型研究問題，開放的工具能增加研究問題的廣泛化和公信價值。這個研究有一點比較取巧，使用的CDE是資源是NIH支持的格式，雖然缺乏相互間的結構但包含了豐富的屬性，所以在建立原型階段就少了很多工作量。

6. Cheminformatics-aided pharmacovigilance: application to Stevens-Johnson Syndrome

問題：QuantitativeStructure-Activity Relationships是將藥品分子式與化學性質關聯，進而可通過機器學習預測藥物不良反應ADR，準確率在69%-73%。對於Stevens-Johnson Syndrome有關的藥物，基於全球公開上報的病例報告，使用QSAR模型預測各種藥物對該病是否active。

方案：通過WHO的ADR監測平台提供的364種藥物與相應的化學結構建立QSAR模型，通過模型檢測需要警惕的化學結構，然後對DrugBank中4122種藥物進行預測篩檢，最後對篩檢結果利用已有知識庫進行驗證。建模方法是隨機森林和SVM進行5層交叉驗證，隨機森林使用R自帶包未經調參即表現良好，SVM額外使用最小平均誤迭代5層調整參數，對分子結構做Fisher檢驗判斷同時出現概率以篩檢可能起作用的基團。

小評：這個研究的方法應該是用的已經比較多了，之前有好基友想做類似的蛋白質基團功能研究，這篇的亮點是在罕見病藥物篩檢，豐富的結構化病例報告和知識庫是必需的，肯定有很多公開知識庫可能因為研究不到位或缺乏結構化還沒有充分利用。這個研究中沒花大功夫調參可能提示選擇化學結構的feature是很有道理的，也提示化學基團可能確實與性質存在原始的相關性。

7. Using the electronic health record for assessment of health insurance in community health centers

問題：美國平價醫療法案推動了健康險的覆蓋率，但保險狀態監測仍主要依靠個人上報，如何使用個人健康檔案EHR監測保險覆蓋率和相關原因分析？

方法：選擇7個州122個community health centers的2年間有就醫記錄的患者進行回顧性隊列研究，在EHR中獲取人口學信息和保險狀態和類型。使用廣義估計方程logistic回歸比較不同人口學特徵的人群的參保率，用robust sandwichestimator調整相關和協變數的可能誤差。

小評：這篇文章其實是比較正統的流行病學研究，現在的機會點是利用大規模連鎖的EHR很容易獲得大量數據，更激進一些還有在流行病研究中加入數據挖掘。個人覺得這個研究還可以比較一下總醫療費用、病種什麼的判斷一下疾病相關的原因和結果。

8. A rational approach to legacy data validation when transitioning between electronic health record systems

問題：EHR數據在新舊系統間的遷移過程中需要注意完整性和準確性，一般驗證方法是取一定的數據子集進行驗證以節省時間和成本。此外其他領域新的數據驗證方法可以借鑒，這個研究通過統計方法判斷數據遷移錯誤率。

方法：數據驗證的原則是完整、準確和高效，數據驗證過程第一部分是映射記錄測試，以判斷準確性，測試新系統里每個屬性的數據類型是否被正確配置，第二部分是每種數據類型根據統計可信度隨機抽取一定規模的樣本數據進行人工核查，以判斷完整性。根據經驗系統中任何數據選擇錯誤可能影響5%以上的人，所以把5%定為限制錯誤率，考慮到人工校驗誤差會增加3%左右，另外如果發現錯誤會重複測試，為保證可信度，最終將抽樣比例定為15%。

結果：每類病曆數據的總量及相應的選擇錯誤率和準確度錯誤率，統計每類病曆數據的統計樣本量和傳統方法用的人力時間和花費減少。

小評：這個研究很簡單，就是參考統計抽樣的樣本量計算，利用經驗和可信度根據總數據量的不同按比例設定人工檢驗量，並沒有涉及過多數據校驗實質工作的創新。不過對於通用的工作流程有批判思考也是非常難得。