江鋮：乳腺癌識別By AI

09-18

江鋮：乳腺癌識別By AI

來自專欄騰訊雲+社區4 人贊了文章

歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐乾貨哦~

本文由雲加社區技術沙龍發表於雲+社區專欄
演講嘉賓：江鋮，騰訊覓影高級研究員。多年以來一直從事計算機視覺相關的研究。加入騰訊以後，負責騰訊覓影乳腺癌AI方向的研發，參與研發的項目在多家大型三甲醫院落地。

大家好，今天很高興能給大家帶來這方面的報告。正如大家所看到的，社會平均年齡在逐年增長，大家對健康的意識也是越來越高，與此同時伴隨著AI技術的發展，AI醫療方向就成為了互聯網領域的一大研究熱點，騰訊在這方面也是做了很大的努力，在這周四廣州舉辦的互聯網＋會議上我們正式對外發布了我們的AI乳腺系統。作為該系統的研發人員之一我有幸見證了這個項目從無到有以及一次一次迭代的過程，所以希望在今天的會場上能夠跟大家分享一下我們整個團隊的經驗。

選擇乳腺癌這個研究方向作為我們工作的開始主要是有兩方面的原因。第一方面是對於女性來說乳腺癌是所有腫瘤當中發病率最高的一種，它的發病率大概在16%-17%之間，嚴重危害女性的健康。第二點是因為乳腺癌它雖然發病率很高，但是它的治癒率是比較高的，如果能在較早期發現的話它的治癒可能性是非常高的。對於美國來說目前五年的生存率是在89%，而中國在這方面只有83%。原因主要是中國人口基數過多，相對來說有經驗的看片醫生較為缺乏，這就產生一個供需的矛盾。目前應用AI技術就是為了緩解這個矛盾，能夠最大限度地幫助到患者跟醫生。

對於乳腺的診斷先來做一些基礎知識的了解。對乳腺來說診斷方式通常有以下五種，前四種是大部分醫院採用的方式，首先對於一個來體檢或者是覺得有異常的人，通常會對他先進行一個X光拍照，拍照之後對他進行一個診斷。影像科的醫生讀片之後作出判斷，如果發現有不能確定的地方他們會建議進一步做超聲和磁共振。如果這兩個做下來依然有可疑的情況，可能就會建議做病理。病理能確認一個患者是否真的患有乳腺癌。在作出定性判斷之後如果真的有，再判定惡性的程度是多高，給出一個打分。

然後在這個基礎上還會對惡性腫瘤的亞型進行分類，對不同的亞型可以採用不同的治療方案。近些年基因方面的研究也是比較熱的，眾所周知如果家族當中有人患有乳腺癌的話，其家族成員患上乳腺癌的概率相對其他人來說就會高一些，目前已經有研究證明有一種叫做BRCA的基因，攜帶這樣基因的女性患乳腺癌的概率要遠遠高於平常人。所以通過這個基因可以幫助我們確定高發人群，並且能夠有助於我們制訂個性化的治療方案。

從上面可以看到對乳腺癌的診斷是有非常多的模態的，我們的終極目標是能夠把這些模態有機地結合起來，形成一個完整的整體，提高對乳腺癌的診療技術。我們最早開始的研究方向是鉬靶，因為鉬靶它是使用最為廣泛，並且最為有效的一種方式。，我們現在對於鉬靶的研究成果已經落地了三十多家三甲醫院，並且已經初步得到了一些應用，也獲得了一些反饋。在病理和磁共振方面我們也取得了階段性的成果，而在超聲方向我們目前是剛剛開始。

下面就以我們做得相對完整的一個鉬靶項目來開始今天的技術分享。這個乳腺鉬靶主要實現了三方面的功能，第一方面實現了疑似病灶的定位，能夠在給定的鉬靶圖上將兩大潛在的惡性灶準確的標定出來。這樣可以輔助醫生從而減輕醫生讀片的壓力，另一方面可以降低醫生的漏診率。第二是判斷病灶惡性的概率，並在此基礎上對整個單側乳房都做出進一步的判定。最後就是前面提到的這些分析的基礎上結合一些圖像處理的方式提取乳腺的特徵，並生成它的影像報告。

我們來看一下這三方面的功能是怎麼實現的呢？我們主要採用了下面這樣一種技術框架，這個框架主要包含三層內容，在這個框架的前端主要是提供了對於鉬靶影像的前處理層。中間的核心模塊是我們的AI學習模型，第三層在是這兩個模型的基礎上通過醫生的反饋，對前兩層進行動態更新。下面我將每一個部分跟大家具體的講一講。

首先在前處理模塊，目前主要通過歸一化、遷移學習方面的方法來實現對於不同X光廠商設備適配的這個過程。在進行了設備適配後，我們會對其進ROI提取。在前端處理之後就到了核心部分：學習模型由於乳腺鉬靶的特殊性，我們沒有辦法直接用目前市面上已經有的神經網路來解決這個問題。於是我們就單獨設計了這個模型。它有四大優點，第一個優點就是相對於傳統的網路的單圖輸入，TMuNet模型採取了四圖（ MLO-CC位）輸入，左乳有兩張，右乳有兩張，因為X光拍攝的角度有CC位和MLO位兩種方式。CC位是水平方式的拍攝，MLO的話是一個側斜位的拍攝方式。通過左右乳進行對比，可以極大提升診斷的精準度。儘可能地解決同影異病和同病異影的問題。

第二點我們採用了一種多尺度網路，通常在自然圖像處理中圖片在輸入網路之前，會對其進行縮放，縮放之後再輸入固定的網路。由於醫學影像中的病灶對於同一個形態不同的尺寸，可能意味著良惡性的不同，如果單純的做縮放有可能做出不一致的判斷，所以採取了通過網路結構的設計來適配圖片的方式。

第三點就是漸進式的網路構建，這種方式有點相似於我們大腦進行學習的過程，對於一個複雜的問題，它不是一次性解決的，它是把問題分解成若干個相對簡單的問題然後一層一層去解答。

這個網路也是基於這樣的思想，首先我們會使用一個淺層網路對局部的病灶，比如說腫塊、鈣化進行病灶的分類。在此基礎上逐步加深網路層次，實現對單幅圖片的一個診斷，然後我們再進一步的對網路進行加深，從而實現四張圖片診斷的功能。所以說我們的訓練是一層一層的，我們的網路也是逐漸加深的過程。

第四點是自步學習的訓練方式。人腦它在學習新的知識的時候通常是由易到難的，所以在樣本訓練的過程中，並不是一次性把所有的樣本都投入網路進行訓練。我們將這些樣本按從易到難順序分成了多個類別，然後我們在訓練的過程當中也按由易到難的順序逐步地把樣本加進去，對模型進行訓練。實驗表明通過這樣的過程，模型可以達到一個最好的效果。

在採用前面四種這種方式得到了這樣一個基礎模型之後，我們還會根據醫生的反饋以及一些新接入醫院新的數據對我們的模型進行遷移學習，並做動態更新。在工程實踐的過程當中我們總結髮現AI見過的疑難病例的數量和種類很大程度上決定了這個AI系統的上限。因此我們非常注重我們這個數據集的運營。我們數據集會定期的從資料庫和線上數據當中挖掘有價值的疑難病例，對其進行標註。同時對於這其中的一部分我們會請專家三甲醫院特別知名的專家讓他們來跟我們進行討論，利用病理或者其他數據進行交叉確認。將這些數據加入到我們訓練樣本之後我們的模型就可以遠遠的超過那些沒有這些數據的網路。

然後最終我們的這個模型達到了下面的精度，腫塊探測方面可以在0.2誤檢率的情況下達到92%的敏感度。鈣化檢測精度更高，對於良惡性分類可以達到87%的敏感度和96%的特異度。

除了這些內容之外我們在病理和磁共振方向也開展了研究，目前已經取得了一些階段性的成果。在超聲方向我們也是投入了人力的，目前我們對超聲還處在數據的準備過程當中。當然就像開始所提到的我們的終極目標是把這幾種多模態的數據有機地結合起來，為患者跟醫生提供我們力所能及的幫助。這就是我今天的報告，謝謝大家！

Q&A

Q：我想問一下四張圖是怎麼放到網路里的？還有一個問題就是MLO位和CC位是否對同一個病灶做了匹配？

A：我們是做了的。然後放進去的話主要是通過網路的增廣來解決的，這方面裡面具體的細節的話現在還不太方便透露。

Q：還有一個問題就是鈣化點的標記和腫塊的標記是分開標記的還是？

A：這個是需要分開的，因為他們的特徵是不一樣的。根據我們的經驗來說對於鈣化分類的話，它是比腫塊更容易的。

問答
AI開發的語言要求？
相關閱讀
安全報告 | 2018上半年互聯網惡意爬蟲分析：從全景視角看爬蟲與反爬蟲
安全報告 | SSH 暴力破解趨勢：從雲平台向物聯網設備遷移
給你的CVM安裝一個面板吧！

此文已由作者授權騰訊雲+社區發布，原文鏈接：https://cloud.tencent.com/developer/article/1178384?fromSource=waitui

歡迎大家前往騰訊雲+社區或關注云加社區微信公眾號（QcloudCommunity），第一時間獲取更多海量技術實踐乾貨哦~

海量技術實踐經驗，盡在雲加社區！