神經網路診斷皮膚癌超越人類專家?來自醫療界的這篇論文給出了證明
來源:機器之心
作者:European Society for Medical Oncology
一篇關於皮膚癌診斷的文章發表在醫療期刊《腫瘤學年鑒》(Annals of Oncology)上,這篇出自醫療界高級管理醫師的研究首次表明:深度學習卷積神經網路(CNN)在檢測皮膚癌方面的表現優於有經驗的皮膚科醫生。對比對象是來自 17 個國家的 58 位皮膚科醫生,其中包括 30 位專家。
這是人工智慧又一次在醫療圖像識別上實現「超越人類」的水平。儘管如吳恩達這樣的著名機器學習學者領導的AI 醫療影像研究也正在受到質疑,但隨著技術的發展,越來越多基於人工智慧的醫療成果正在出現,此類技術或許很快就可以幫助我們更好地應對疾病。
研究人員首次表明,深度學習卷積神經網路(CNN)在檢測皮膚癌方面的表現優於有經驗的皮膚科醫生。
今天發表在國際著名癌症期刊《腫瘤學年鑒》(Annals of Oncology)上的一項研究中,德國、美國和法國的研究人員使用 10 萬多幅惡性黑色素瘤(最致命的皮膚癌)和良性痣的圖像訓練了一個 CNN 來識別皮膚癌。他們將其診斷與 58 位國際皮膚科醫生的診斷進行了比較,發現 CNN 比皮膚科醫生漏診的黑色素瘤更少,誤診良性痣的幾率更低。
CNN 是一種人工神經網路,受到大腦中神經細胞(神經元)相互連接並對眼睛看到的東西做出反應時的生物過程的啟發。CNN 能夠從它「看到」的圖像中快速學習,並根據所學知識自學來提高其性能(這一過程被稱為機器學習)。
這項研究的第一作者,德國海德堡大學皮膚科高級管理醫師 Holger Haenssle 教授解釋說:「CNN 的工作原理就像一個孩子的大腦。為了訓練它,我們向 CNN 展示了 10 萬多幅惡性皮膚癌和良性痣的圖像,並標出每幅圖像的診斷結果。我們僅用了皮膚鏡圖像,即以 10 倍放大倍率成像的病變圖像。CNN 通過學習每幅訓練圖像提高了區分良性和惡性病變的能力。
「訓練結束後,我們借用海德堡大學圖書館的數據創建了兩套從未用於訓練的測試圖像,因此 CNN 對此一無所知。一組 300 幅圖像的數據集專門用來單獨測試 CNN 的性能。在此之前,我們選擇了 100 種最難判斷的病變來測試真正的皮膚科醫生,並與 CNN 的結果進行比較。」
來自世界各地的皮膚科醫生受邀參加,17 個國家的 58 位專家同意參加會議。其中 17 人(29%)表示他們在皮膚鏡檢查方面的經驗不足兩年,11 人(19%)表示他們擁有 2 至 5 年的經驗,30 人(52%)表示他們擁有 5 年以上的經驗。
開始時,這些醫生被要求僅根據皮膚鏡圖像(I 級)診斷惡性黑色素瘤或良性痣,並決定如何處理該狀況(手術、短期隨訪或不需要採取行動)。四周後,他們拿到了患者的臨床信息(包括年齡、性別和病變位置)和相同的 100 例特寫圖像(II 級),並被要求再次診斷並作出決定。
在 I 級中,皮膚科醫生準確地檢測到平均 86.6% 的黑色素瘤,正確地識別出平均 71.3% 的非惡性病變。然而,當 CNN 與醫生水平持平,即正確識別出 71.3% 的良性痣時,它檢測到 95% 的黑色素瘤。在 II 級中,皮膚科醫生的表現有所提高,準確診斷出了 88.9% 的惡性黑色素瘤和 75.7% 的非惡性病變。
「CNN 漏診的黑色素瘤更少,表明它比皮膚科醫生有更高的敏感度,並且它將良性痣誤診為惡性黑色素瘤的次數也更少,這意味著它的專業性更強;這將幫我們省去更多不必要的手術。」Haenssle 教授說。
「當皮膚科醫生接收更多 II 級的臨床信息和圖像時,他們的診斷結果得到提升。然而,CNN 僅使用皮膚鏡圖像,並且沒有接收額外的臨床信息,仍然超越了醫生的診斷能力。」
專業的皮膚科醫生在 I 級中能超越經驗較少的皮膚科醫生,在檢測惡性黑色素瘤中表現得更好。然而,他們做出準確診斷的平均水平在兩個等級中仍然低於 CNN。
「這些發現表明深度學習卷積神經網路在檢測黑色素瘤的任務中有能力超越皮膚科醫生,包括那些受過大量訓練的專家。」他說。
惡性黑色素瘤的發病率越來越高,全世界每年估計有 232000 名新病例和大約 55500 名死亡病例。如果能在早期檢測出來是可以被治癒的,但很多病例僅在癌症進一步惡化和更難治療的時候才被診斷出來。
Haenssle 教授說:「我曾經參加一個研究項目將近 20 年,它旨在改善黑色素瘤在可治癒階段的早期檢測。我的團隊和我聚焦於非侵入式技術,希望幫助醫生在執行皮膚癌檢查時不漏診黑色素瘤。當發現近期關於深度學習演算法在特定任務上超越人類的報告時,我立刻意識到可以在診斷黑色素瘤上探索這些人工智慧演算法。」
研究者並沒有設想用 CNN 取代皮膚科醫生診斷皮膚癌,但可以將其作為一項額外輔助技術。
「這種 CNN 技術有望在皮膚癌檢查中輔助幫助醫生決定是否要做活檢病變。大多數皮膚科醫生已經使用數字皮膚鏡系統來對病變進行拍照、歸檔和跟進。然後 CNN 可以輕易和快速地評估已保存的影像,得到黑色素瘤概率的『專家意見』。我們目前正計劃前瞻性研究來評估 CNN 對醫生和病患的現實影響。」
該研究有一定的局限性,包括:皮膚科醫生是在一個人工環境中,他們知道自己沒有作出「生死」攸關的決定;測試集沒有涵蓋所有類型的皮膚損傷;非白種人皮膚類型和遺傳背景的有效圖像較少;事實上,醫生可能不會一直遵循他們不信任的 CNN 的建議。
在隨後的社論 [4] 中,Victoria Mar 博士(澳大利亞墨爾本莫納什大學)和 H. Peter Soyer 教授(澳大利亞布里斯班昆士蘭大學)寫道:「目前,黑色素瘤的診斷準確性取決於治療醫生的經驗和培訓。……Haenssle 等人……已經表明使用卷積神經網路的計算機演算法優於所測試的 58 名皮膚科醫生中的大多數……這表明人工智慧保證了更標準化的診斷準確性水平,使得所有人,無論他們住在哪裡或看哪個醫生,都能夠獲得可靠的診斷評估。」
他們強調了 AI 在成為臨床標準之前需要解決的一些問題,包括在手指、腳趾和頭皮等部位的黑色素瘤難以成像,以及如何訓練 AI 充分識別非典型和患者沒有發現的黑色素瘤。
他們的結論是:「目前,沒有什麼技術可以替代徹底的臨床檢查。然而,2D 和 3D 全身攝影能夠捕獲大約 90%~95% 的皮膚表面。鑒於成像技術的指數發展,我們設想自動診斷遲早將改變皮膚病學的診斷模式。但是,要將這一激動人心的技術安全地應用到常規臨床護理中,還有很多工作要做。」
論文:Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists
論文鏈接:
https://academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443
摘要
背景
深度學習卷積神經網路(CNN)可能促進黑色素瘤檢測,但是仍缺乏 CNN 與大量皮膚科醫生診斷表現的對比數據。
方法
研究者使用皮膚鏡圖像和對應診斷結果訓練谷歌的 Inception v4 CNN 架構。在對比橫斷面研究中,研究者使用了包含 100 張圖像的測試集(I 級:只有皮膚鏡圖像;II 級:皮膚鏡圖像和臨床信息)。研究中主要的衡量指標包括:敏感度、特異性和 CNN 對病灶進行診斷分類(二分類)的 ROC 曲線下面積(AUC),以及 58 名國際皮膚科醫生。次要指標包括皮膚科醫生管理決策的診斷效果,以及他們的不同診斷表現。此外,CNN 的表現還與 2016 生物醫學成像國際會議(ISBI)挑戰賽中的 top-five 演算法進行了對比。
結果
在 I 級診斷中,皮膚科醫生對病變分類的敏感性和特異性的平均得分(±標準差)分別為 86.6% (±9.3%) 和 71.3% (±11.2%)。獲得更多臨床信息後(level-II),得分分別提升到了 88.9% (±9.6%, P = 0.19) 和 75.7% (±11.7%, P < 0.05)。相比於皮膚科醫生在 I 級、 II 級的特異性與敏感性得分,CNN 的 ROC 曲線顯示出更好的特異性(82.5%)。CNN 的 ROC 曲線下面積要比皮膚科醫生的平均 ROC 面積(0.86 vs 0.79, P < 0.01)大。CNN 的得分接近 ISBI 2016 挑戰賽的 3 大頂級演算法結果。
結論
我們首次對 CNN 與國際皮膚科醫生團隊(共 58 位,其中包括 30 位專家)的診斷表現進行了對比。大部分皮膚科醫生的表現都不如 CNN。有了 CNN 圖像分類輔助,任何內科醫生(無論經驗多麼豐富)都有可能從中受益。
未來智能實驗室是人工智慧學家與科學院相關機構聯合成立的人工智慧,互聯網和腦科學交叉研究機構。
未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智慧智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。
推薦閱讀:
※神經網路正則化(3):data augmentation & early stopping
※它的梯度去哪兒了?
※[圖集] mnist
※論文解讀 | 基於神經網路的知識推理
※RNN Part1-RNN介紹
TAG:論文 | 醫療 | 人類 | 神經網路 | 皮膚 | 神經 | 超越 | 證明 | 專家 | 這篇 | 這篇論文 | 網路 |