機器學習怎麼應用於流行病學研究?

想了解下機器學習的哪些理論可以用在流行病學研究, 現狀怎麼樣(文章發表情況, 應用類型, 哪些困難), 前景如何?


機器學習主要側重於prediction,流行病學主要要知道causal effects(因果關係) 需要background knowledge, 也注重estimator, 所以兩者結合起來並不簡單。不過現在前沿流行病方法學已經有很多machine learning的文章發表了,舉一些我比較熟悉的例子。

1) Westreich D, Lessler J, Funk MJ. Propensity score estimation: machine learning and classification methods as alternatives to logistic regression. J Clin Epidemiol. 2010;63(8):826-833.

URL: Propensity score estimation: neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression - ScienceDirect

可以一看,講的是一些machine learning的方法(neural networks, SVM, decision trees, boosting)可以代替傳統的logistic regression進行propensity score estimation。第一作者是我的coadvisor, 比較熟悉,yale計算機本科,在微軟工作了幾年,為了追求理想讀流行病學phd, 然後搞學術,聰明的一批。

相似的一篇文章:Lee BK, Lessler J, Stuart E a. Improved propensity score weighting using machine learning. Stat Med. 2009;29(3):337-346.

Hopkins一些老師的文章,也是用機器學習方法優化propensity score estimation。

2)Naimi AI, Platt RW, Larkin JC. Machine Learning for Fetal Growth Prediction. Epidemiology. In press.

URL: Machine Learning for Fetal Growth Prediction : Epidemiology

Epidemiology雜誌應刊中。該文將機器學習方法應用到了實際領域。主要應用了隨機森林,regression trees, boosting等方法預測fetal growth, 文章主要側重prediction。第一作者是我導師以前的學生,也是相當聰明。

3) machine learning 其實範圍很廣,流行病學現在挺流行的targeted learning (targeted maximized likelihood estimation)和名字酷炫的super learner(其實就是ensemble learning) 也是機器學習。有興趣的可以看一下。

Book: Targeted Learning - Causal Inference for Observational | Mark J. van der Laan | Springer

LASSO, ridge等statistical learning的方法在醫學研究中用的也很多。

但是最重要的是很多情況下,machine learning並不一定比傳統的generalized linear regression好用,具體問題具體分析。然後,光靠數據對流行病學並不夠,要解決因果關係問題background knowledge專業知識很重要。 Robins JM. Data, design, and background knowledge in etiologic inference. Epidemiology. 2001;12(3):313-320.這篇文章主要講的就是流行病學領域背景知識的重要性。

這也適用於更廣闊的artificial intelligence 人工智慧領域。

Copy一些我之前看到過的一張NIPS的圖。

簡單地說,只靠數據只靠機器學習方法絕對不能實現100%的人工智慧,現實和數據是不一樣的,需要更多的背景知識,更多的對這個現實世界的認識,才能使人工智慧領域研究更進一步。

不過實現真正的智能是最終目標,我老闆經常說,我們的最終目標是要發明一種function machine,在機器里input raw data, output valid results. 這樣還愁什麼哈哈


老哥,抱歉,流行病學還真的不清楚哦。我只能把我了解的一點點東西摳出來了。

1。文章發表情況:這方面只聽過Standford發布的Chexnet,CNN神經網路的一種,Chexnet網路能根據輸入的肺部X光片圖像,輸出患肺炎的概率,他在肺炎診斷中的表現超過了專業醫師。

有關Chexnet的文章Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning

谷歌還用深度學習做過癌症診斷,參考鏈接https://research.googleblog.com/2017/03/assisting-pathologists-in-detecting.html

2。應用類型:現在聽過的機器學習在病理學的應用還有脈搏診斷,心電診斷等,主要扮演的角色是Predictor.通常輸出的結果都是患某種疾病的概率。

3。哪些困難:有一個點是所有領域機器學習面臨共同的難題就是樣本問題,就像病理學,不是所有疾病都能拿到充足的樣本給你訓練,如何只用少量樣本便能完成學習,目前相關論文有Human-level concept learning through probabilistic program induction講Bayes one-shot learning的,講的是只用一個手寫樣本就能完成手寫體的模仿,雖然不是病理學領域的應用,但是也是流行統計學演算法的代表之一,相關鏈接Human-level concept learning through probabilistic program induction


異常檢測


流行病學沒怎麼研究過,不好意思


推薦閱讀:

如何評價微軟在Build 2015上發布的Project Oxford?
factorization machine和logistic regression的區別?
為什麼工業界喜歡用LR模型?
打劫對於AlphaGo來說,真的增加了難度嗎(周志華的觀點正確嗎)?
對於PCA或者SVD在降維來說,是去去除了相似性高的列?還是去掉信息量少的列?

TAG:機器學習 | 數據統計 | 現代醫學 | 流行病學 | 公共衛生 |