這篇被Yann LeCun轉發的論文,被質疑了
來自專欄論智4 人贊了文章
前幾天,德國和法國的幾位研究人員在Oxford Academic上發表了一篇名為Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists的文章,這個長長長長的標題告訴我們,這又是一篇讓人去跟機器比賽的故事,目的是看誰識別皮膚黑色素瘤的準確度更高。最終結果表明深度學習模型優於人類醫生。
但今天,澳大利亞的醫學博士、放射科醫生Luke Oakden-Rayner在推特上質疑論文的嚴謹性,認為結論過於草率,低估了人類表現。到底雙方哪種說法更合理呢?我們先看看這篇論文到底講了什麼。
CNN vs 人類
過去幾十年,黑色素瘤成為威脅公共安全的一大主要挑戰,連續攀升的發病率以及死亡率,讓早期發現及預防成為診斷的關鍵。多項分析表明,皮膚鏡的應用大大提高了診斷準確率。然而,每位醫師接受的訓練不同,水平也參差不齊,目前黑色素瘤的平均診斷準確度還不到80%。
最近幾年,一些自動計算機圖像分析技術的出現,意在幫助提高醫療診斷準確率和效率。但這些方法都有限制,它們都使用人類規定的皮膚鏡診斷標準進行的判斷,例如是否有多色、特殊形態例如條紋狀和結節狀,或不規則血管結構。
2017年,Esteva等人發表論文,宣布他們創建了一種基於卷積神經網路的深度學習模型,可以對圖片進行分類,其中CNN無需被人類的標準所限制,它可以將數字圖片分解成像素級水平,並最終進行診斷。這篇論文也被看作是革命性的作品。
而本次德國和法國的研究者目的是訓練、驗證並測試一個深度學習CNN,讓它對皮膚鏡成像進行診斷分類,判斷是黑色素瘤還是良性的痣,並將結果和58位皮膚科醫生相比較。
具體方法
谷歌的Inception v4 CNN架構是用皮膚鏡圖像和對應的診斷結果訓練並驗證的。在橫向的人類醫生驗證中有100張圖片組成的測試集(其中第一步只用皮膚鏡觀察,第二步會加上診斷信息和圖片)。對輸出進行測量的標準主要有敏感性(sensitivity)、特異度(specificity)和CNN對病變處的診斷分類的ROC曲線的AUC值與讀者研究中58名人類醫生的對比。
次要評估指標包括皮膚科醫生在管理決策時的診斷表現,以及在兩個不同階段上診斷的差異。除此之外,CNN的性能還會與2016年國際生物醫學成像研討會(ISBI)挑戰賽上排名前五的演算法進行比較。
對比結果
在人類醫生的第一階段表現中,他們的得分較接近平均水平,在對病變的分類上,敏感性為86.6%(±9.3%),特異度為71.3%(±11.2%)。第二階段增加了更多信息後,敏感性上升至88.9%(±9.6%,P=0.19),特異度升為75.7%(±11.7%,P<0.05)。
而CNN的ROC曲線在第一階段中,特異度就高於人類醫生,為82.5%。而CNN的ROC AUC分數也比醫生的平均ROC面積要高,為0.86 vs 0.79,P<0.01。CNN的最終分數與2016 ISBI挑戰賽上前三的演算法分數接近。
結論
在包括30名專家的58位皮膚科醫生團隊中,這是我們首次將CNN與人類進行對比。大多情況下,CNN的表現要優於人類醫生。研究者並不否認醫生的經驗和努力,而是認為在CNN圖像分類技術的幫助下,診斷率會更高。
AI贏了?
這篇論文發表後,獲得了許多大V轉發,其中就包括卷積網路之父Yann LeCun。
雖然只重複了一遍對比結果,但也證明LeCun是認可其結論的,即卷積網路要比人類醫生在對黑色素瘤的辨認上表現得更好。
同時,華盛頓郵報、醫學網站等媒體也紛紛報道了這一結果,聲稱「AI打敗了人類」,但有人卻針對其中的統計方法提出了質疑。
論文很好,但有瑕疵
今天,放射科專家、醫學博士Luke Oakden-Rayner在推特上表示:這篇論文有瑕疵!簡單地說,他認為論文研究者低估了人類醫生的表現。論智君將具體原因編譯如下(可參考Luke Oakden-Rayner之前的文章《判斷醫學AI論文水不水,從讀懂ROC曲線開始》):
我認為,研究者們在對比人類和機器時用的是兩種不同的指標!對機器用的是AUC,對人類用的是「ROC區域」得出的平均敏感性和特異度。除了指標不同,「ROC區域」整體就比AUC要低。實際上,皮膚科醫生表現的越好,它就越偏離假設的AUC。
根據論文數據,我們可以也計算一下模型的「ROC區域」,結果如下,跟人類的分數一樣都是79。
在特異度方面的對比缺陷就更細微了。人類專家分布在ROC曲線上,所以平均敏感性和特異度把醫生的平均值放在了曲線內,同時模型還是在曲線上測試的。再說一遍,人類被低估了。下面是ROC曲線的其中一個例子,粉點是平均分。
另外,我不確定研究者是否選擇了合適的操作點(OP),在CNN和醫生對比的過程中,研究人員似乎是基於測試數據進行選擇的。在它們的ROC中,一個合理選擇的OP大大降低了敏感性和特異度的值。下圖中紫色的點是他們的OP,黑色的點只是靠近OP所在區域。
注意這個ROC曲線看起來有點奇怪,因為前部支持的點很少,也就是說這個區域比上部更缺少數據支持。
最後,我不清楚他們是怎麼計算p-value的。在給定操作點(平均醫生的敏感性)的情況下,研究者認為特異度在小於0.01的p-value下更好,但是在ROC數字表現在曲線上時置信區間竟然有68%!即使是圖表解釋的有問題,或者存在±2的標準差,95%的數值還是在曲線上的。我不知道這跟p-value<0.01有什麼關係。
要說明的是,我並不全盤否定這篇論文,我認為這種討論很有意義。只是其中有一些我認為不嚴謹的地方,希望我的建議有用。
結語
說到最後,其實是在對比方式上存在質疑。也許論文的研究者需要考慮一下他們的統計測試是否公平,因為只對醫生們的檢測敏感性和特異度取平均值說服力還是不夠。這也給我們提了醒,在閱讀論文時不要一味地迷信,要勤于思考,在發現論文閃光點的同時還要確保邏輯上的準確。最後附上這篇醫學論文地址:academic.oup.com/annonc/advance-article/doi/10.1093/annonc/mdy166/5004443
推薦閱讀:
※內分泌醫學史 l 現代內分泌學誕生簡史(下)-內分泌醫學體系的建立
※中西醫結合治療糖尿病足部潰瘍及護理的論文---中醫學論文
※科普時間:治「禿」風雲
※中醫學的哲學基礎,大有玄機!