貝葉斯理論在醫學數據分析中的應用
在玩轉貝葉斯分析 - 混沌巡洋艦 - 知乎專欄中我們了解了貝葉斯網路的基本概念,即一種基於概率推理的數學模型。現在,我們來聊聊它在醫學數據分析中的應用。
貝葉斯理論用於醫學數據分析時,一個經典且對菜鳥容易上手的,就是基於貝葉斯網路的網路meta分析。那麼,首先,何為meta分析?
meta分析,又稱paper灌水神器。(咳咳,嚴肅,嚴肅)meta分析通過比較同一研究主題下多個獨立實驗研究結果,用於探究臨床藥物在治療某一疾病的有效性和安全性,或計算某一危險因素與某一疾病的相關性,或發現某一基因與某一疾病之間的關聯程度,或評價某一診斷方法的敏感性和特異性,或分析某一藥物的治療某一疾病的費用與療效。
森林圖,meta分析常見的結果,長這樣。具體方法詳見News from the IKMD但是!單一的meta分析通常只能評價一種藥物,一個基因啊?如果要比較幾種藥物治療同一種疾病的療效怎麼辦?另外,很多疾病可能是多基因相關,或者存在多個危險因素啊~這個時候怎麼算?
這時候,就需要網路meta分析了。
那麼在網路meta分析中,怎麼比較同一主題的多個因素啊?
在傳統meta 分析用,我們通過計算統計量(效應量effect sizes,置信區間confidence intervals, standard errors標準誤, Z and P values Z值和P值)來分析不同研究中同一藥物的療效,此時輸入的變數是藥物組和安慰劑組的臨床療效值和兩個組的樣本量大小。而在比較多個藥物的療效時,變數成了藥物A組的療效值及樣本量,藥物B組的療效值及樣本量……以及安慰劑組組的療效值及樣本量。如果用圖來表示,就是從兩點一線變成了多點連網的關係。此時,頻率統計只能通過兩兩比較的統計量及置信95%區間來排序,而貝葉斯統計則可利用後驗概率對所有參與比較的藥物進行排序。
也就是說,在基於貝葉斯方法的網路meta分析中,會構造一個共同的對照基線,以實現對所有研究的共同分析。
就像這篇比較不同抗抑鬱治療青少年抑鬱的療效的研究,構建了一個共同的安慰劑對照基線。
此時,我們要想起一句話——「不談分布的概率計算都是耍流氓」。
更何況,貝葉斯網路存在先驗概率啊!
在貝葉斯分析中,模型中的觀測變數和參數都視為隨機變數。此時樣本x和參數Θ的聯合分布可表示為:
然而在網路meta分析時,從先驗分布中抽樣非常困難。此時,就需要使用馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)方法對先驗分布進行計算。(關於馬爾科夫鏈和蒙特卡洛方法的基本概念可見隨機過程筆記 - 混沌巡洋艦 - 知乎專欄)
MCMC方法通過穩態的 馬爾科夫鏈進行轉移計算,等效於從 P(x) 分布採樣,從而實現對先驗分布的計算。最哈皮的是,使用MCMC方法時,問題維度的增加並不會降低其收斂速度或使其複雜。
回到基於貝葉斯理論的網路meta分析,搞定了先驗概率,便可進一步計算各個研究的相對處理效應,根據需要計算的效應值變數的特徵和各研究間的異質性情況選擇相應的模型代入分析。而對於網路meta分析的多節點變數,不同藥物之間的比較通常存在較大的異質性,此時使用隨機效應模型計算來自不同總體的納入研究則更為可靠。(相應軟體其實很傻瓜啦~認真閱讀WinBUGS軟體說明書吧)
在這個網路meta分析中,研究者比較了多種非類固醇抗炎葯治療膝、 髖關節骨性關節炎疼痛的療效,那兩個大點就是樣本量最大的兩個不同的藥物組(變數)。
當然,偉大的貝葉斯統計怎麼會僅僅局限於對文獻數據的網路meta分析?
教科書上說,貝葉斯網路,既形式上,一個貝葉斯網路就是一個有向無環圖,結點表示隨機變數,可以是可觀測量、隱含變數、未知參量或假設等;結點之間的郵箱邊表示條件依存關係,箭頭指向的結點依存於箭頭髮出的結點(父節點),每個結點都與一個概率函數相關。
看看!說明啥?長得多麼多麼像醫學中各個疾病與其危險因素的關係啊!多麼多麼像臨床診斷指南里一下癥狀中幾條中滿足幾條考慮診斷的診斷軸啊!
上圖為慢性咳嗽的診斷流程圖
此圖是呼吸系統疾病(肺癌、支氣管炎、肺結核)中危險因素與疾病之間相關概率的貝葉斯網路圖,當然是簡化了的。http://www.norsys.com/tutorials/netica/secA/tut_A2.htm
而形成一個可靠的以某個疾病為主題的貝葉斯網路圖,則需要輸入大量的原始數據進行計算。更進一步,當貝葉斯網路在結構上固定為標準化的輸入輸入的節點層級,變數間只能先進行線性組合,最後對一個變數進行非線性轉換,應用於估計概率模型的參數時,它便成了人工神經網路。
傳說中的診斷機器人沃森,則是這些機器學習方法組合運用在醫學數據分析中的集大成者。機器人「坐診」代替醫生為時不遠?醫療領域將迎來大變革總之,作為機器學習的統計學基礎的貝葉斯概率分析理論,其實我們的生活息息相關,不僅僅在於醫學數據分析。
參考文獻:
宗成慶《統計自然語言處理》(第二版)清華大學出版社 p106
董聖傑,冷衛東,田家祥,曾憲濤. Meta分析系列之五: 貝葉斯Meta分析與WinBUGS軟體.中國循證心血管醫學雜誌2012年10月第4卷第5期
廖煒圻 多處理因素meta分析與間接比較的模擬研究 南方醫科大學碩士學位論文2011
Madden LV, Piepho HP, Paul PA.Statistical Models and Methods for Network Meta-Analysis. Phytopathology. 2016 Aug;106(8):792-806.
da Costa BR, Reichenbach S, Keller N, Nartey L, Wandel S, Jüni P, Trelle S.Effectiveness of non-steroidal anti-inflammatory drugs for the treatment of pain in knee and hip osteoarthritis: a network meta-analysis.Lancet. 2016 May 21;387(10033):2093-105.
Cipriani A, Zhou X, Del Giovane C, Hetrick SE, Qin B, Whittington C, Coghill D, Zhang Y, Hazell P, Leucht S, Cuijpers P, Pu J, Cohen D, Ravindran AV, Liu Y, Michael KD, Yang L, Liu L, Xie P.Comparative efficacy and tolerability of antidepressants for major depressive disorder in children and adolescents: a network meta-analysis.Lancet. 2016 Aug 27;388(10047):881-90.
張偉平 馬爾科夫鏈蒙特卡洛方法
博客:從貝葉斯方法談到貝葉斯網路
博客:從隨機過程到馬爾科夫鏈蒙特卡洛方法
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
推薦閱讀:
※大數據分析-R 語言入門(一)
※R數據處理|基礎篇(二)
※R Markdown 簡介
※【乾貨收藏】Python面試指南大全