大數據時代的來對公共衛生和預防醫學領域會造成哪些可能的影響?

大數據時代即將或者說已經到來,做為一個非常依賴數據的領域,公共衛生預防醫學未來的發展會有哪些可能呢?教育模式會發生相應轉變么,生物統計的分量將會被加重么?


謝 @大象 邀~

這裡偷個懶,引用我之前的一篇關於大數據與流行病學相互關係的文章,不足之處請指正:

大數據與流行病學:

大數據的優勢在於大範圍尋找流行病學研究中潛在的關聯,利用專業知識對大數據挖掘的結果進行解讀形成的新知識經過機器學習演算法的大數據技術進行再次合成、轉化和管理,最終被用於促進流行病學研究的效率,幫助我們深入了解疾病的病因和結局,從而提高疾病的發生及預後的預測和預防能力,並為藥物研發人員尋找更好的藥物靶點,為臨床研究者提高診斷性檢測方法與治療方法的研發能力,提高公共衛生工作人員對疾病早期預警信號的發現能力和對傳染病疫情的追蹤和響應能力。

然而大數據最大的局限性在於包含了大量雜訊信號,因此通過大數據得出的關聯信號無法驗證是否具有意義,可能導致高估疾病的影響程度、觸發錯誤警報、造成虛假關聯和生態學謬誤。最典型的的案例是2013年美國的流感大暴發,科學家通過分析互聯網數據估計流感的影響程度,然而與傳統公共衛生監測方法相比,這種方法卻大大高估了流感的高峰期水平。因此在利用大數據進行關聯研究時,需要合理的流行病學方法儘可能控制選擇偏倚和混雜偏倚,以避免虛假關聯。

大數據的流行病學設計和方法主要分為測量準確的生物大數據關聯研究和測量不夠準確的非生物大數據關聯研究兩類。對於生物大數據而言,通常採用重複試驗的方法,在統計顯著性方面產生更強的信號,從而有效解決真實信號和噪音信號相混的問題;對於非生物大數據,如臨床大數據和健康大數據,首先要建立合理的關聯假設,然後通過大隊列研究、大型隨機對照試驗等流行病學設計驗證關聯和證實關聯的臨床實用性。最終在獲得研究結果的基礎上,利用專業知識對結果進行解讀,形成新知識,並利用機器學習演算法等大數據技術對知識內容進行合成、轉化和管理。

大隊列研究是流行病學設計和方法參與醫學大數據研究的最直接體現,其證據強度高,外推性好。回顧國際大隊列研究的發展歷史,早期人群隊列研究主要針對傳染病和職業人群。進入20世紀中葉,陸續開始建立起慢病和健康人群隊列並進行長期隨訪,如美國弗明漢心臟研究(Framingham Heart Study,FHS)、英國1958年建立的1.7萬人出生隊列等。進入20世紀末,大規模人群隊列研究開始出現,例如歐洲(European Prospective Investigation into Cancer and Nutrition,EPIC,52.1萬人)、美國的NIH-AARP Diet and Health Study(NIH-AARP,56.6萬人)、英國的Million Women Study(MWS,130.0萬)和UK Biobank(UKB,49.8萬)等,為心血管疾病、2型糖尿病、腫瘤等慢病和阿爾茨海默症等神經退行性疾病的環境和遺傳危險因素研究提供了豐富的人群資料,並且為基因-基因、基因-環境交互作用等複雜疾病病因學研究提供了足夠的樣本量支持。

精準醫療與大數據時代的流行病學:

隨著全自動高通量技術的靈敏度和可重複性不斷提升、檢測成本不斷降低、電子病歷系統的普及應用和各類公共衛生監測數據平台的開放,為今後流行病學研究提供了豐富的數據資源。同時,基因組學、蛋白組學、轉錄組學、代謝組學、表觀遺傳組學、微生物組學、暴露組學等組學分析方法的建立和成熟,為流行病學更細緻地定義疾病分類、更深入地闡釋發病原因和更準確地預測疾病風險或治療效果提供了可能,也催生出「系統流行病學」(systems epidemiology)這一流行病學新分支的產生。系統流行病學是以系統生物學(systems biology)為基礎,以數學和計算機技術為手段整合各生物組學數據,並將通路分析和觀察性研究設計相融合,從而加深對人類疾病的生物學機制的認知。傳統遺傳流行病學研究中單一地將單核苷酸多態性等生物標誌與疾病結局進行關聯研究,忽略了基因-環境的交互作用,並且難以體現該生物標記在暴露-疾病鏈中發揮的作用。系統流行病學研究採用全組學設計(globalomic design),其主要特點在於整合基因組、轉錄組、蛋白組、代謝組、表觀遺傳組和MicroRNA等多層次信息,並利用微陣列技術動態觀察與分析隊列中每個成員從基線到結局整個過程中基因表達譜的變化情況,層次更加豐富,信息更加複雜,有助於更加精準地解釋暴露-疾病鏈中的分子機制。

經過幾十年的發展,現在的隊列研究主要表現為樣本量大、隨訪時間長、隨訪率高、生物樣本易獲得以及生活方式和環境暴露因素可重複測量等特點,初步發現了大量潛在的疾病相關生物標記。未來流行病學研究將以現有的大規模高質量隊列為基礎,在系統流行病學的設計指導下,對數據、樣本的獲取和統計分析過程進行嚴格的質量控制,進一步論證生物標記的病因學作用。

機遇和挑戰

醫學大數據作為新興領域,無論是數據的挖掘、存儲、共享還是安全和倫理問題都將成為其今後發展將要面臨的挑戰。在數據挖掘方面,臨床大數據常常包含大量醫學影像學資料,目前的統計學方法尚無法分析如腦電圖或腦部核磁共振圖像等數據。另外,一個高解析度的圖像大小為幾十GB,如果需要對成千上萬個這樣的醫學圖像進行比較,普通計算機難以完成如此龐大的計算量,而並行計算方案尚存在分割效率低和數據轉移困難等問題,因此未來的發展方向將是進一步完善分割演算法並對數據進行無損壓縮。

在數據存儲方面,組學技術的發展產生了海量數據積累,例如歐洲生物信息研究所(EBI)作為世界最大生物資料庫之一,2012年存儲約2PB基因數據,且該數字以每年翻倍的驚人速度繼續增長;另一方面,醫學大數據的非結構性使得醫學數據的存儲和處理較其他領域的研究數據更為複雜。目前還沒有綜合、經濟且安全的大數據存儲解決方案,因此海量數據的快速處理和存儲就成為重要的課題。

在數據共享方面,未來的大數據研究研究依賴多個實驗室或數據平台的資源共享,而目前數據共享主要面臨如下困境:①數據間的整合與共享能夠提高數據利用價值,以便於進一步深入挖掘數據中包含的信息,而這種整合與共享需要科研機構和公司間積極尋求合作,建立互助互利的數據聯盟模式;②缺乏統一的標準,每個資料庫存儲所使用的軟體及數據格式各不相同,特別是後者可能會給數據間的比較和分析帶來困難;③TB甚至PB級海量數據已超出現有個人電腦和網路文件共享程序的能力範圍,需要建立新型共享方式。

在數據隱私安全方面,未來系統流行病學研究將涉及大量人群的暴露組學和生物組學信息,因此如何確保這些數據的隱私安全至關重要。已經有遺傳學家證明即使是匿名資料庫,個人的遺傳隱私仍然可能被泄露,個人的遺傳隱私無法得到保障可能引發倫理學糾紛。目前的解決方法主要是對資料庫使用者進行實名登記,並公開使用者的信息這樣的監督機制。

值得高興的是,雲計算的出現很大程度上解決了上述問題。雲計算系統是將海量數據分配到成千上萬個遠程伺服器「雲」上。目前,除EBI等學術雲項目,一些商業雲如Rackspace、VMware或亞馬遜、IBM和微軟公司的雲系統也可以提供研究人員使用。雲計算系統最顯著的優點是完全基於虛擬空間,有利於降低研究成本。第二,雲計算系統能夠提供免費、開源的基礎軟體,實現伺服器和網路間的基礎通信、伺服器間分派工作以及執行複雜的計算任務。第三,一些公司提供雲計算數據分析的用戶友好界面,以及提供通用軟體幫助找到雲的便捷入口,使雲的應用更加用戶友好。另外,為適應急速增長的數據量,一些機構將基因組分析的各步驟組裝成工作流程,如華大公司的Gaea,通過多個雲計算機的並行運算使得基於雲的分析更加快捷。

另外,目前全世界已建立起一些醫學大數據開發平台,例如美國的eMERGE(electronic medical records and genomics)由隸屬於美國國立衛生研究院(NIH)的國家人類基因組研究所(NHGRI)資助,將生物樣本庫與電子病歷系統(EMR)進行整合匹配,從而進行大規模、高通量的遺傳學研究。目前已涵蓋55028個隊列、進行了47個疾病表型的研究,共發表文章374篇。另外,如麻省理工學院-哈佛大學博德研究所(Broad Institute)、阿拉巴馬大學伯明翰分校臨床與轉化科學中心(CCTS)、杜克大學轉化醫學中心、梅奧轉化醫學中心、耶魯臨床研究中心等一批以高校內部或高校間聯盟合作模式建立起的轉化醫學中心,嘗試通過不同的轉化模式加快實驗室研究和大數據挖掘成果轉化為臨床實踐的效率,為今後醫學大數據開發和精準醫療的研究提供了寶貴經驗。因此,醫學大數據和精準醫療為未來流行病學學科的創新發展起到了重要的推動作用,今後有望在流行病學、信息學、臨床醫學、生命科學等學科的共同參與下,提高疾病防控技術水平,支撐醫療衛生體系建設,提升全生命周期的生活質量,促進健康發展和健康行為,實現醫療公平和減少疾病和殘疾負擔,實現隨時、隨地、隨需、個體化、人性化和高質量的全譜健康的願景。

參考文獻:

宋菁, 胡永華. 流行病學展望:醫學大數據與精準醫療[J]. 中華流行病學雜誌, 2016, 37(8):1164-1168.


在搞清楚數據準確性對分析結論的影響到底有多大之前可能還不能太過樂觀。尤其是急性傳染性疾病這塊。

大數據的一個基礎是忽略數據精度,以數據量的增加逼近事實真相。然而,與商業行為不同的是,公衛政策的制定,尤其是面對急性傳染病和安全性評價這兩個領域是不允許數據量積累到一定程度才進行反應的,對於很多疾病,一旦發現就需要重視,比如Sars。

對慢性非傳染性疾病的預防,大數據研究可能會更有意義,畢竟從目前的倫理學角度來說,由於慢性非傳染性疾病的歸因主要還被認為是遺傳背景與生活方式的交互,不及時或者錯誤的介入並不會引起公眾對整個公衛系統工作效率的影響,簡單的說,如果由於數據精讀問題導致的大數據分析的結論錯了,進而影響了相關公衛政策的決斷,公衛人員背的鍋可以甩的掉。

目前國內公衛行業,尤其是一線疾控主要關注的問題仍然是傳染病防控、婦兒及職防(由於職業病目前被調整到安監部門,職防在部分大城市疾控已經地位下降),還不能說是大數據應用的好的戰場。

至於公衛學術這塊,能快速發文章,能發高分的領域就有前途,只要解決這兩個痛點,科研口從來後不避諱新東西。


謝邀。

個人覺得,在國際大環境內,變化不會很大,但是在中國,可以預見這個領域的發展和從業人員的增加——會有大量飛流病專業人員的加入,尤其是應用數學,生物信息等。

說國際大環境變化不會很大,是因為國外的公衛領域「大數據」時代早已開始,公衛從業人員,包括博士生,很多碩士/本科原專業是應用數學或者生物信息。以我所在的法國Inserm某實驗室為例,一半以上人是以上專業的。不說他們,就連流病的碩士,概率統計是必修,掌握各種假設檢驗的數學推導是必須的。博士開始之後會有各種培訓以及講座,進一步鞏固以及擴展數學統計技能。

對於現在國內公衛領域從業人員構成不太清楚,希望有國內的同行能談一下。個人感覺應用數學等專業進入公衛領域的並不多。


推薦一本書,寫的比較好,對大數據下的醫療做出了一個詳細的分析


除了必死症和意外,大數據能給現代醫療帶來質的改變。


不怎麼看好大數據


收集數據方便了,基層疾控工作會輕鬆很多吧


推薦閱讀:

R能做哪些stata不能做的事?
如果掌握了大數據,能不能預測股市?
中國的大數據中心有哪些?為何新的中國的大數據中心選貴陽?
為什麼蘋果會選擇在貴州建立大數據中心?
沒有集群環境,怎麼學好大數據處理框架(Hadoop,Spark)的相關知識?

TAG:流行病學 | 預防醫學 | 公共衛生 | 大數據 | 生物統計學 |