深度學習（AI）在醫療領域應用、需求及未來發展概述

01-27

經歷歷史的發展，醫療已經變成一個純手工藝的職業-也就是說，它高度依賴於醫生的技能和經驗，而不是尋求建立一個診斷和治療患者的標準化過程。近年來，情況已經開始改變，因為像類似證據醫療（Evidence Based Medicine）和精準醫療（Precision Medicine）這樣的技術已經試圖往這個領域中，注入更多的嚴格和基於數據驅動的方法。然而，絕大多數醫療服務是通過傳統的希波克拉底主義哲學（Hippocratic philosophy）來提供的。

這需要改變。地球上大部分人群擁有不到他們真實醫療需求的1/10，需要數百年才能填補這個空白。誤診，晚期診斷和過度診斷會殺死數百萬人，花費數百億美元。現在正在開發這項技術來解決這個問題 - 為醫療工作者和患者提供需要的確切信息支持。這種技術可以使偏遠地區社區衛生工作者獲得經過提純的世界醫療知識。它可以使發達國家的醫生大大提高效率和準確性，同時使患者和家屬更好地控制和了解其醫療保健。

AI，特別是深度學習，已經表明它可以成為一個強大的診斷工具，例如，在醫療影像工作中展示出人意料的表現，如：

· Google的診斷性視網膜病變系統

· 斯坦福的皮膚病學演算法

· Enlitic在肺癌檢測和惡性腫瘤分類方面的工作

挑戰：標註歷史數據

人們普遍認為，深度學習演算法需要大量的數據才能有效。這並不一定是真的。例如，Enlitic的肺癌演算法可以通過一千個癌症患者的掃描圖像的學習就可以達到很高的診斷效果。重要的是要了解一點，儘管數據集（來自國家肺癌篩查試驗）相對較小，但它具有達到有效建模的關鍵特徵：

· 每個病人每年持續掃描記錄數據達3年以上; 隨著時間的推移，跟蹤疾病的變化對於創建診斷演算法至關重要

· 放射科醫生提供了癌細胞結點所在位置的大致注釋，允許演算法集中在一些重要信息上。

· 數據集包括在3年試驗後每個患者的醫療結果的信息 – 證據顯示，諸如患者生存的情況對於創建診斷系統是必要的。

看看這個項目無法提供一些東西也是有用的：治療建議。由於數據集不提供包括已經為患者採取了那些干預措施、採取措施後患者反映等縱向數據，因此開發的演算法僅用於診斷而非治療時使用。

然而，即使是這樣，也是非常強大的：目前診斷為肺癌的人的死亡率接近90％，癌細胞結點只有達到平均40毫米大小，才會被發現。Enlitic開發的系統可以準確發現5 mm，甚至更小的癌細胞。在早期發現，生存的概率提高10倍！

現在想想，這種數據集是多麼的不尋常。我們多久才可以獲得關於患者統一的醫療數據，其中包含有關患者多年期間的測試，診斷和干預的所有信息？這些信息分散在多個機構內，並且在多個部門內。

法律保守主義

即使數據在中央位置可用，或可以從多個來源拼接起來得到，但通常情況下，持有該數據的機構，一般不願意與能夠構建這些強大演算法的數據科學家共享這些數據。法律工作人員知道，一條隱私的泄露可能會結束他們的職業生涯並浪費機構數百萬的錢，而錯失機會的理論成本則難以確定。

然而，當患者被問及是否願意分享他們的醫療數據時，如果它可以在將來幫助別人，大多數人很樂意同意使用他們的數據 - 特別是當這種共享可以在未來給患者自己帶來更好的治療時。

患者的機會：患者控制的數據

這產生了一個明確的機會：讓患者控制自己的醫療數據，訪問不同的機構和部門，以及他們自己收集的信息（如可穿戴數據和自我報告的數據）。讓這些患者有機會選擇與特定數據科學家分享特定項目的數據，為他們提供一個安全的數據環境，並給予他們回報：

· 及早取得醫療突破

· 財務報酬

· 與他們的數據相關的工作的完整信息，以及如何幫助其他患者。

這可能是我們將深度學習技術用於醫療領域的唯一可行的途徑-至少在美國是（一些被中央管理的國家可能可以通過政府法令獲得所需的數據）。

還有一個非常相似的途徑，就是為患有少見或不可治癒的疾病的家庭的親人提供照顧：在同一情況下與其他病人在一起，同意彙集病人資料。可以彙集到的患者越多，獲得關鍵信息的概率就越大。

Blockchain

並非所有數據都是同等重要的。罕見疾病患者的數據對診斷和治療這些疾病至關重要。多年的數據比短時數據更有價值。另一方面，部分人甚至可能會偽造數據，通過欺騙性獲得報酬。

通過使用block chain，我們可以創建一個清晰可讀的醫療數據源記錄。基於這一記錄，數據提供者可以根據他們的數據在實踐中的有用性來獲得回報。因此，他們提供的數據越完整準確，越相關，獎勵就豐厚。

同時，也為一些機構提供了非常有趣的機會，這些機構（經過患者同意）可以為研究人員提供完整的數據，並獲得金錢回報和獲取由數據所產生的技術帶來的利益。從長遠來看，患者可以通過相同的基於block chain的方法來授權他們的機構將數據提供給數據科學家。

數據科學家的機會

大多數數據科學家表示，他們想用自己的能力來做一些有意義的事情，但很少有機會。數據科學家的大多數工作都涉及廣告技術，對沖基金交易和產品建議等領域。阻止他們做更有意義的工作的主要原因是無法獲取數據，無法了解需要解決什麼問題，沒有途徑讓他們的技術得到關注和實施。

為了將數據轉化為有用的成果，數據科學家需要能夠完成以下步驟（實際上是以不同的順序重複多次）：

1. 數據清理

2. 探索性數據分析

3. 創建驗證集

4. 建立模型

5. 分析和驗證模型

為了做這些步驟，數據科學家需要豐富的分析環境，在這一環境中，他們可以使用選擇的工具，庫和可視化解決方案。今天做這種工作的大多數數據科學家都使用R語言（通常是R Studio）或Python（通常是Jupyter Notebook）。

通過提供預先安裝的數據和清楚定義需要解決的問題，數據科學家可以快速找到有意義的問題。

甚至可以多位科學家同時獨立的處理相同的問題，根據他們的工作效果共享獎勵。

我們需要提供什麼：數據採集

我們需要讓每個病人具有收集和維護個人醫療資料的能力，包括：

· 實驗室測試和成像研究

· 診斷

· 藥物規定

· 非處方葯和補充劑

· 其他醫療干預

· 鍛煉和吃飯記錄

· 家庭史（理想情況下，通過連接家庭成員自動維護）

· 自我報告的進展，如能量水平，幸福水平等

· 基因組學和其他測試

這意味著能夠從每個患者的醫療服務提供商哪裡下載數據，既可以在設置時一次性下載，也可以在此之後定期下載數據，以及使用API進行個人健康跟蹤，通過穿戴應用程序來導入數據。

數據共享

每個病人需要能夠選擇接收或者拒絕每個獲取他們數據的請求。如果系統成功，可能會有很多請求，並且每個單獨處理可能是繁重的-在這種情況下，我們可以讓他們設置自動接受或拒絕請求的模式，以及一些需要手動干預的規則。每一條數據都需要以可審核的方式標註其來源。它不一定要存儲在病人的裝置上; 實際上某些類型的醫療數據對於設備上的存儲空間而言可能太大。

一旦患者同意訪問他們的一些數據，那麼該數據需要提供給研究人員。每個數據科學家將需要為他們的工作提供豐富的分析環境。這將向他們展示有關他們需要解決的問題的相關信息，並顯示如何獲取項目需要的數據。

未來的機會

為患者提供控制他們醫療數據的能力，為數據科學家提供解決的緊迫的醫療問題的能力，是一個強大的想法。但這只是冰山一角。更大的機會是，當模型可以不斷改進時將會發生什麼，然後所有這些模型可以組合，又將會發生什麼。每個數據科學家的特徵工程步驟可以被保存，並提供給未來的研究人員（當他們的方法被重新使用時，他們將得到回報），並且他們的預先訓練的模型可以被激活並自動引入新的模型，看看它們是否提升了預測的效果。

允許新數據不斷改進現有模型，這要求所有數據源的含義和格式是一致的。這是一個複雜的問題，但經驗豐富的數據產品項目經理應該擁有過去的經驗。需要先對數據源格式或語義進行更改，並且對常量模型測試也是至關重要。

通過重新使用預先訓練的模型，我們獲得了在所有數據集中組合數據所帶來的所有好處，沒有任何後勤或隱私問題的挑戰。

這也意味著可以有效地解決那些只有少量數據的罕見疾病和兒科疾病。使用預先訓練的模型來分析這些數據，並且可以使用具有很少參數的非常簡單的模型來組合它們。

隨著技術的進步，這種用於收集和分析數據的方法將帶來新的見解，並將為醫務工作者和患者，在他們有需要時，提供他們需要的確切信息。

本文翻譯自：https://hackernoon.com/medicine-and-the-need-for-ai-dbb3f9e2349f

往期精彩內容分享：

《純乾貨16》調整學習速率以優化神經網路訓練

《模型匯總-20》深度學習背後的秘密：初學者指南-深度學習激活函數大全

模型匯總18 強化學習（Reinforcement Learning）基礎介紹

模型匯總-14 多任務學習-Multitask Learning概述

<模型匯總-9> VAE基礎：LVM、MAP、EM、MCMC、Variational Inference（VI）

<純乾貨-4> 加州伯克利大學2017年最新深度強化學習視頻課程_part3

<深度學習優化策略-3> 深度學習網路加速器Weight Normalization_WN