登上《Cell》封面的AI醫療影像診斷系統：機器之心專訪UCSD張康教授

04-12

作者：李澤南

人工智慧（AI）有可能通過幫助人類醫療專家進行高難度分類、快速分析大量醫療圖像的方式徹底改變疾病的診斷和治療流程。近日，由加州大學聖地亞哥分校張康教授等人提出的深度學習診斷方式讓我們提前看到了未來。

2018 年 2 月 22 日出版的《Cell》封面文章介紹了由加州大學聖地亞哥分校（University of California, San Diego）張康教授主導的研究成果：一種基於遷移學習，能夠精確診斷致盲性視網膜疾病與肺炎的人工智慧工具。該方法的表現與專業醫生能力相當，並可以在 30 秒內確定患者是否應接受治療，準確度高達 95％以上；在區分病毒性肺炎和細菌性肺炎上，新方法的準確率也超過了 90％。同時，該研究也通過顯示神經網路激活區域的方法向人們提供了機器診斷的可解釋性。作為中國學者主導的又一項重要研究，該文章發表以後受到了人們的廣泛關注。

論文鏈接：http://www.cell.com/cell/fulltext/S0092-8674(18)30154-5

該研究的主要推動者張康，是加州大學聖地亞哥分校眼科教授、眼科遺傳學主任，中國第三批「千人計劃」入選者，四川大學客座教授。他曾在四川大學獲得生物化學學士學位，哈佛大學醫學博士學位（Magna Cum Laude 榮譽），麻省理工學院（MIT）聯合醫學博士學位及哈佛大學遺傳學博士學位。張康在約翰霍普金斯大學 Wilmer 眼科研究所完成了眼科住院醫生實習期，並曾在猶他大學完成視網膜手術專科訓練。

張康教授的臨床和研究重點是重大疾病的基礎和轉化研究，尋找新的基因靶標和治療方法。

他曾在許多著名學術期刊上發表或共同撰寫了超過 200 篇同行評議論文，其中涵蓋遺傳學、分子生物學、幹細胞、腫瘤液體活檢、3D 列印及組織工程、人工智慧和臨床試驗等多個領域。其中關於 HTRA1 基因是黃斑變性的主要易感基因的《Science》文章曾被這家期刊評為 2006 年世界科學十大進展之一。

在《Cell》上的文章發表之後，機器之心對張康教授進行了專訪，我們與他對遷移學習、跨學科研究、AI 在醫療領域應用等問題進行了交流。

機器之心：發表在《Cell》上的論文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》，該研究是從何時開始啟動的？

張康：我很早就有這個想法了，真正啟動是在去年（2017 年）初。

機器之心：作為眼科教授，使用計算機科學領域中也是剛剛發展起來的機器學習工具進行研究，會遇到哪些困難？

張康：生物醫療科學和計算機科學是兩個完全不同的領域。由於計算機科學的高速發展，我們面臨的首要問題就是學習並結合這些最近開發的深度學習技術，以確保我們的研究對當前和未來的計算機視覺研究及應用是相關和有用的。深度學習引入可取代之前技術的新方法而改變了計算機視覺領域。然而，這個項目的主要挑戰是獲得大量的 OCT 圖像，並組織一個龐大而結構化的視網膜專家體系，以確保儘可能準確地標記大數據，另外我們必須組織一個優秀人工智慧小組。

機器之心：新研究的圖像識別模型對計算機的算力要求有多高？

張康：該模型在 4 個 GTX 1080 8GB GPU 中進行了訓練和測試。但是，由於該模型是使用預訓練權重進行訓練的，從而使訓練時間比訓練空白神經網路要少得多。因此，還可以在合理的時間內使用更小的 GPU 甚至多個 CPU 來完成此模型的訓練和推理。

機器之心：神經網路的推理是一個「黑箱」，你們提出的新方法是如何解釋計算機作出「診斷」的依據的？

張康：我們在視網膜 OCT 圖像的研究中加入了「遮擋測試」——通過卷積一個遮擋核心到輸入圖像上，機器會通過計算預測做出正確診斷最可能的部位，並輸出含有高亮色塊的「遮擋」圖，這些色塊就是 AI「認為」的病變部位，得出直觀的為臨床醫生信任的診斷依據。

機器之心：神經網路在識別醫療圖像時相比人類醫生具有哪些優勢？

張康：首先，通過輸入大量的數據，神經網路可以獲得遠超過人類醫生的「經驗」，計算出超越人類的準確結果，在我們的系統中，我們使用超過 20 萬張醫學圖像，通過不同的疾病分類，最終使用近 11 萬張視網膜 OCT 圖像訓練機器。在眼病方面，能在 30 秒內正確鑒別脈絡膜新生血管、糖尿病黃斑水腫、玻璃膜疣以及正常視網膜的 OCT 圖像，結果的準確率、敏感度、特異度均在 95% 以上，並能得出與人類相似甚至更高的準確率。其次，計算機對比圖像像素與像素之間的差異，觀察到人類關注不到的細節，從而得出更精準的判斷，且不像人類一樣受主觀性干擾。另外，我們通過「遷移學習」這種演算法，還能診斷不同系統的疾病，比如我們的系統目前還能準確鑒別肺炎和正常胸部 X 線平片，區分肺炎的病原體為細菌還是病毒，準確率可達 90% 以上。

機器之心：從醫學學者的角度來看，人工智慧技術在醫療領域裡是否會像很多媒體報道的那樣「超越，甚至代替人類醫生」？

張康：在上一個問題已經回答了，在某些方面人工智慧的確有可能超越人類醫生。也許在不久的將來，比較單一的、流水線作業式的領域將會被取代。但是，現階段人工智慧的作用是輔助醫生而非取代醫生，發展人工智慧，對醫療科學的發展、醫療水準的提高，都是利大於弊的。

機器之心：深度學習先驅吳恩達（Andrew Ng）認為遷移學習（Transfer learning）是人工智慧未來最有希望的發展方向，而你的研究正是應用了遷移學習。相比其他機器學習方法，它具備哪些優秀之處？

張康：「遷移學習」被認為是一種高效的學習技術，尤其是面臨相對有限的訓練數據時。相較於其他大多數學習模型的「從零開始」，「遷移學習」利用卷積神經網路（Convolutional Neural Network，CNN）學習已有的已經標記好的預訓練網路系統，以醫學圖像學習為例，該系統會識別預系統中圖像的特點，我們再繼續導入含有第一層圖像相似參數和結構的網路系統，最終構建出終極層級。在我們的系統中，第一層網路就是視網膜 OCT 圖像，第二級網路系統使用第一級的圖像尋找相應的特點，通過前向傳播固定低層圖像中的權重，找到已經學習的可辨別的結構，再提取更高層的權重，在其中進行反覆的自我調整和反饋、傳遞，達到學習區分特定類型的圖像的目的。我們首次使用如此龐大的標註好的高質量視網膜 OCT 數據進行遷移學習，進行常見視網膜致盲性疾病的檢測及推薦治療手段，得到與人類醫生相似甚至更高的準確性。此人工智慧系統還可以「舉一反三」，將遷移學慣用於小兒肺炎診斷。

遷移學習是深度學習的一個自然發展方向，遷移學習能讓深度學習變得更加可靠，還能幫我們理解深度學習的模型。比如，我們能夠知曉哪部分特徵容易遷移，這些特徵所對應的是某個領域比較高層、抽象的一些結構型概念。把它們的細節區分開，就能讓我們對這個領域的知識表達形成一個更深的理解。這樣一來，機器就可以像生物的神經系統一樣終身學習，不斷地對過去的知識進行總結、歸納，讓一個系統越學越快，而且在學習過程中還能發現如何學習。

遷移學習在深度學習上面有極為廣闊的應用前景，在圖像數據資源有限的醫療領域，更高效、所需圖像數量更少的遷移學習，可以說是未來 5 年內 AI 發展的熱點以及深度學習成功應用的驅動力。

卷積神經網路示意圖，該圖描述了新研究在 ImageNet 數據集 1000 個類別上訓練的卷積神經網路在面對全新 OCT 圖像數據集時可以顯著提高準確率、降低訓練時間。區域鏈接的（卷積）層會被凍結並遷移到新網路中，而最後，在遷移層之上，全連接層會被重新創建，並被隨機初始化重新訓練。（Credit：論文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》）

機器之心：這項工作中，你們與廣州市婦女兒童醫療中心、四川大學華西醫院、同仁眼科中心、上海市第一人民醫院、大連北海醫院等機構進行了合作，這些合作是如何開展的？

張康：感謝這些醫院為我們提供了寶貴的大量原始醫療圖像數據，且由不同專科的醫生對圖像予以分類、標註，幫助訓練 AI 系統獲得更精準更穩定的診斷結果。

機器之心：我們都非常期待人工智慧可以幫助我們治療疾病，發表在《Cell》上的研究距離實際應用還有多遠？

張康：我們目前已開始在美國和拉丁美洲診所進行小規模臨床試用，進一步優化系統，在未來很快時間裡應該可以大規模使用。我們會同時增加準確標註的圖片數量和疾病種類，如初步篩查常見疾病、就醫轉診指引等功能將可能首先應用於臨床，下一步則為指導治療方案確定、隨訪等，最終的目標是應用到包括初級保健、社區醫療、家庭醫生、急診室，形成大範圍的自動化分診系統等。

機器之心：計算機科學領域的研究者們（如斯坦福大學吳恩達 Andrew Ng 團隊、李飛飛團隊）也在致力於將計算機視覺方法應用於醫療領域。作為另一個行業的學者，你是如何看待他們的研究的？

張康：他們的成果為我們的研究提供了理論基礎，我們學習了他們的技術，並在他們開發的「遷移學習」模型為基礎作出改進，組織一個龐大而有序的視網膜專家小組，加入總共約 11 萬張準確標註的視網膜 OCT 圖像以及 5000 張胸部 X 線圖像，構建出我們的 AI 疾病圖像診斷系統。可以說，我們取得今日的突破和他們的貢獻是分不開的，感謝像他們一樣的計算機學者的付出，才讓我們得以更好的結合計算機視覺科學與醫療科學，從而更好的服務於全人類。

機器之心：這種以醫生為主導的 AI+醫療研究與其他以人工智慧學者為主導的 AI+醫療研究有什麼不同？

張康：過去的人工智慧研究多以人工智慧學者為主導，也許能更快的設計出更為精妙的演算法，但由於其對臨床醫生的需求的不了解，使其真正應有於臨床受到限制。現在，我們的團隊由專業的醫生帶領人工智慧學者構成，我們更能了解醫生對形成診斷、確定治療方案的需求，在我們的研究中，我們醫生知道什麼樣的醫學圖像診斷價值更高，從而親自設定規範的圖片納入標準，對圖像進行標註，從而使機器從源頭開始就更能獲得我們想要的結果。

比如，有一些圖像特徵較為模糊的圖像，如老年黃斑變性，某些較大的玻璃膜疣和脈絡膜新生血管非常相似，我們就會偏向於採取更為嚴重的疾病診斷，因為我們研究的最終目的是幫助病人更可能的推薦給相應的專科醫生，從而更快的獲得治療。另外，我們還可以通過我們的想法設定更為貼合實際的過濾器，並按照我們臨床醫生的需求不斷調整；通過「遮擋實驗」能夠反映機器得出判斷的依據。並且，我們的研究還能指導治療方案的確定。因此我們的研究可能更能達到臨床醫生想要的效果，並且為臨床醫生所信任，也許能更快更直接的應用於臨床。

機器之心：如何減少醫學領域與計算機科學領域之間的隔閡，讓新技術能夠更好地造福人類？

張康：就我們團隊來說，我們以臨床經驗豐富的醫生、教授為主導，輔以有生物醫學知識的科學計算經驗豐富的計算機專家，還有高通和 Intel 等計算機軟硬體領域的行家作為我們的技術指導，在演算法的完善和使用上起到很大的幫助。同時，我們定期會一起進行溝通交流，讓程序員們更好的了解我們醫生的需求。只有醫學領域和計算機領域的人才之間互相幫助、互相指導、通力協作，才能使新技術真正的獲得應用，更好的造福人類。

機器之心：目前的機器學習方法需要大量醫療圖像用於模型的訓練，如何避免泄露隱私的問題？

張康：目前的機器學習方法的確需要大量醫療圖像用於模型的訓練，雖然我們使用的「遷移學習」較傳統的深度學習所需的數據量少，增加相應的優質數據確能更加高效的大幅度提升訓練效果。通過大量的數據輸入，AI 系統可以在不斷的學習過程中進行調整，不斷減少誤差，從而獲得更穩定更準確的結果輸出。

我們可以保證的是，我們用來訓練機器的醫療圖像都是僅有疾病表現而不包含病人基本信息的（如姓名、年齡、性別等）圖像，因此不存在隱私泄漏的問題。

機器之心：如何看待中國和美國在人工智慧醫療領域發展上的差距或者不同？

張康：個人認為，中國在人工智慧醫療領域其整體發展水平與發達國家相比仍存在一定差距，在前沿基礎理論的學習、人才培訓交流、關鍵性技術的強化，以及對數據收集的優化、質量的提升、檔案的系統性、增加數據調用的方便性等方面都有待完善。

目前，國內大多數醫療人工智慧仍處於實驗研發階段，其整體發展水平與發達國家相比仍存在一定差距，在前沿基礎理論、關鍵性技術、產業基礎平台、人才隊伍和監管體系等方面都有待完善。要相信，現階段人工智慧的作用是輔助醫生而非取代醫生，從而幫助患者更容易獲得治療，隨著今後醫療資源的自由流動，醫院可能更需要輔助診斷系統，未來醫療人工智慧是否能獲得更有效的應用、開發出成熟的產品，還有賴於國家對 AI 產品使用的支持、臨床醫生的信賴與合作。通過加強國際交流合作、人才培訓、構建研發中心，發揮我國疾病庫資源龐大的優勢，加強數據共享、優化數據，保持人才的長期交流與協作，才能獲得更好的發展。

機器之心：在這項成功的研究之後，能否透露一下你下一步的 AI+醫療研究方向？

張康：通過演算法系統的調整，繼續改進學習、導出結果等過程；我們的 AI 系統對於全身各系統可以進行圖像檢測的疾病都具有適用性，因此我們將進一步增加準確標註的圖片數量，加入不同的圖像類型，增加可診斷的眼部疾病，另外，加入包括腫瘤，兒童和婦產科，病理等其他系統的疾病圖片，增加其可診斷的疾病種類。同時，在疾病預測、指導治療等等方面增加系統的適用性。