機器真的已經戰勝人類醫生了嗎?醫學AI標題黨文章中的三大陷阱

關於「機器人戰勝人類醫生」的文章鋪天蓋地,正高居各類科技網站首頁。

例如《通過輻射變化,計算機程序的腦腫瘤辨識能力戰勝醫生(神經科學新聞,2016)》,《在肺癌的類別和嚴重程度預測方面,計算機擊敗了病理學家 (斯坦福醫學新聞中心,2016),《人工智慧閱讀乳腺影像的精確度達到了99% (Futurism, 2016)》,《數碼診斷:智能機器比人類更出色(Singularity Hub, 2016)》。

這些標題確實吸引眼球,有的更是出自於像斯坦福大學這樣的專業雜誌。顯然,甚至不少專業人士都認為,機器在這些醫療相關的專業領域,已經戰勝了人類。

但是機器真的已經開始戰勝人類醫生了嗎?來自University of Adelaide的Dr Luke據此撰寫了相關評論文章,並被選為uiux.blog過去一周最值得閱讀的文章之一。作者希望通過這份「避雷指南」告訴大家:如何用批判性的視角來閱讀醫學人工智慧報告,明辨真偽。

醫學人工智慧文章的三大陷阱

我希望我能解釋清楚為什麼這些說法某種程度上是合理正確的,但又是全然錯誤的。我想這可能不僅僅對普通人有用,對大多數有識之士都會有所裨益。

這些文章中出現的錯誤類型大致有三種:作者要麼不懂機器;要麼不懂人工智慧;再或者沒有將醫生和機器的診斷結果進行比較。

1)人類醫生是否在從事機器做的事情

記者,技術專家,未來主義者等專業人士,其實很多並不懂醫學。

醫學是複雜的。

生物學,治療學,整個系統是如此巨大,它超出了任何一個人的認知範圍。 醫生和其他醫療保健專業人員有一些模糊朦朧的感覺,但即便是他們,也只是管中窺豹。 我們可以看一下,治療系統本身是多麼複雜:

我們必須經過12年的培訓,才能成為某項醫學子領域的專家。 法律要求醫生在整個職業生涯中保持學習,一般只能在數十年後才能達到高峰。

研究人員將他們的生命獻給了人類生物學的極小的一部分。

對於每個醫生或管理人員,需有成千上萬的其他訓練有素的專業人員相輔,才能保持醫療體系正常運行。 在許多國家,醫療保健人員比任何其他行業都多,大多數人接受過高等教育。

醫學的規模是巨大的。

醫學研究產出大於任何其他學科的數量級,其規模之大令人乍舌。

你認為Nips(Conference and Workshop on Neural Information Processing Systems,即神經信息處理系統大會)有幾千個名參觀者,已經是大會了? 事實上,最大型的放射學會議RSNA,有超過五萬人次參加。

我們頂尖期刊的影響因子將近60(根據nejm網站公布,http://www.nejm.org/page/media- center / fact sheet),它有超過六十萬名讀者。 Nips會議是在5以下,一些小組在Nature雜誌發表文章,但即使Nature雜誌本身,影響因子只有38。

資金總額難以確定,但對於醫學和所有其他科學來說,美國公共資金的比例約為3:1。

僅看PubMed的話,即便它只檢索4000個左右的期刊,每年也要檢索約一百萬篇醫療文章。

醫學是特殊的。

它經常會都圍繞著一個可疑的論據進行研究,而且錯誤的結論,被誤導的結果,不可重現的結果,甚至沒有結果,各種錯誤比比皆是。 我們的許多決定是出於非科學的原因作出的,背後受文化,政治,金融,法律等方面的影響。 除非你置身其中,否則你將很難理解其來龍去脈。甚至即便你從內部來看,它也沒有太清晰的意義 。

醫學是一片混沌,這句話並非虛言。

這就是為什麼你所感受到的,相對於醫生實際的所作所為,大部分理解是錯誤的。那是因為某些東西聽起來像是醫學的,似乎在醫學實踐的範圍之內的,這並不意味著這是醫生所從事的。

那麼,假如醫生並沒有在實踐和學習,並不擅長,甚至並不覺得某項工作很有意義,我們討論機器做得比醫生好又有什麼用呢?

讓我們再來看幾個例子。我推薦的這個文章在是reddit上非常著名的一篇文章,這是一個很棒的研究團隊寫的一篇很棒的文章,然而經常被斷章取義地引用。

(研究報告鏈接:https://med.stanford.edu/news/all-news/2016/08/computers-trounce-pathologists-in-predicting- lung-cancer-severity.html)。

它發佈於斯坦福醫學新聞中心,意思是在預測肺癌類型和嚴重性方面,計算機戰勝了病理學家這是頗具挑戰性的言論。 顯然,在某些預測任務方面,他們創造的機器學習系統已經遠遠超過人類病理學家。我會忽略這件作品中的多處醫學錯誤,並專註於問題的本質。

他們說,電腦能更好地預測癌症。

這就應該喚起人們的警醒。如果你在標題上看到「預測」之類的字眼,你就可以停止閱讀了。

規則一:醫生不會進行預測

這完全是不直觀的說法,但基本上是真實的。我們看下面的文章摘要部分選取:

「現在實行的病理學是非常主觀的,」邁克爾斯奈德說(https://med.stanford.edu/profil/michael-snyder),他是博士,教授和遺傳學主席。 「兩個非常熟練的病理學家評估同一張幻燈片,將只有約60%的可能性達成一致。

然而,對於病理幻燈片的人工預測,是無法準確預知病人的預後情形的。

這也強調了我的觀點。人類醫生並不做這件事情。

他們訓練計算機去識別哪些癌症患者存活時間更短,這聽上去是醫學話題,而且很有用,然而並非如此,沒有證據說這是有幫助的。

病理學家經過學習和鍛煉,提供的是各種治療的方法,做手術或不做手術,採用化療還是放療,進行兩項,三項,還是都不需要。 這些不是去定義一個人將活多久,病理學家沒有理由擅長此道。

那麼,做病狀預斷研究有幫助嗎?答案是一定的。 我完全同意斯坦福研究團隊, 這是醫學的未來。 預測分析是一種識別有效患者組的好方法, 這無疑將為我們帶來更穩妥的治療決定。我們稱之為精準醫療。之所以稱其為精準,是由於它與我們目前的做法不同。 不精確的醫學是建立在一整套妥協和簡化的流程之上的,儘管現在工作得也很不錯。

圖1.2:十年相對存活率,成人組,部分癌症。(英格蘭和威爾士:1971-2007年部分癌症存活率趨勢)

這是我最喜歡的圖表,即使我們沒有做任何預測,我們也在進步。

關鍵是,我們需要一個定義,「打敗醫生」實際上是什麼樣子。

如果我們接受一台機器在任何含糊的醫學行為上勝過一個醫生就足夠了,那我們對於完整的概念就過於輕描淡寫了。

就如同我們說,在不使用手的情況下駕駛時,自動駕駛汽車比人類駕駛更好,這是無謂的重複。

在這種錯誤理解的風氣下,預測並不是唯一被用錯的東西。 看看廣泛報道的外科醫生機器人史上首次擊敗人類醫生,其中機器人在縫合豬腸子的時候,「勝過」人類外科醫生。

(相關鏈接:http://spectrum.ieee.org/the- human-os/robotics/medical-robots/autonomous-robot-surgeon-bests-human-surgeons-in-world- ?rst)

還有一篇出自於一份優秀雜誌的報道,一個驚人的團隊在進行驚人的工作,他們創建了一個自主的腸縫合機器人。從上下文來看,這是一個偉大的進步。

(相關鏈接:http://stm.sciencemag.org/content/8/337/337ra64)

圖3 是從論文中截取的優秀成果

看看圖。 他們測試了什麼? 縫合間距的準確性;迫使修復完成的腸道泄漏所需的壓力有多大。 這些是機械度量,並且不清楚它們與結果有什麼相關性。 泄漏一次聽上去是臨床用辭,但沒有證據表明,泄漏所需的力和實際泄漏的數量之間有直接的聯繫。 可能有閾值效應,但「更好的」縫合併沒有特別的有用之處, 可能有S形圖案,或其他更複雜的關係,這可能導致厭食症的加重,醫學屆總有奇怪的事情發生(https://www.ncbi.nlm.nih.gov/pubmed/24355117)(用抗凝血劑浸透的支架產生更多凝塊)。 我們只是不知道究竟發生了什麼。

底部三個圖是不同的。 錯誤的數量,手術時間,手術併發症的存在。 這些都外科醫生跟蹤作為自己表現的重要指標。 STAR(Smart Tissue Autonomous Robot)在這裡,並沒有更好。花費了更長的時間,STAR在錯誤或併發症方面沒有顯著差異。

你現在可能有點困惑,因為好像我剛剛描述了一組不同的圖。 STAR看起來在最後三個圖裡表現相當不錯。

STAR是在執行開放性手術。 外科醫生會立即理解這一點,並忽略LAP和RAS結果,因為這是不公平的。 他們在豬身上切了一個大洞,把腸子拉出去修復。 這是一個很重要的問題。與其相比,人類使用腹腔鏡進行手術,這就像要求他們將一隻手綁在背後。 開放性手術對患者的風險高得多。

我們使用腹腔鏡外科手術,儘管併發症發生比例會上升一些,你不需要在患者身上打一個很大很危險的洞,這對病人是有好處的。

和人類外科醫生實施開放性手術相比較,STAR輸了。手術時間長三倍,三倍長時間的全身麻醉可不是什麼小事情。

正如Andrej Karpathy所說:人的精確度不是一個點,而是一條曲線。 我們總是權衡於精度和時間代價。 外科醫生不會糾結於毫米級別的精確的縫間距,可能是因為它沒什麼意義。 我並沒有對近一百年的外科手術加以研究,但是如果更仔細的縫合有幫助的話我完全樂意考慮, 外科醫生或許也會接受這樣的手術(或許不會((http://qualitysafety.bmj.com/content/early/2015/07/09/bmjqs-2015-004319),往往文化勝於證據)。

這與預測癌症存活是一樣的,病理學家不會試圖將人分成十幾個生存類別,然後再決定要不要做手術。

所以也許有一個更普遍的規則,什麼時候才能說機器人擊敗了醫生?

規則1:用公平的準則進行比較

規則1a:醫生不做預測

規則1b:問醫生他們實際做了什麼,以及什麼樣的測試更公平。 醫生致力於在準確性和時間代價之間進行權衡,並優化結果(無論是健康,財政,政治,文化等)

這是否意味著我們需要進行大型隨機對照試驗,以找出相關係統是否真的有助於結局?

我不會這麼做。 我能想到某些特定的任務,通過因果鏈的理解足以做出一個準確的推斷。 例如,在上面的論文中,腸腔內減小腸修復已經通過足夠徹底的測試,需要20%或更多的減少以具有高几率的癥狀。 我們可以使用它作為比較點。 但是說13%比17%更好...我們可能需要進一步測試來驗證這個說法(或問外科醫生!)。

這是我在「超人」醫學系統研究中看到的第一個問題,但不是所有的任務的選擇都不合適。 有一些任務確實是醫生實施的,我們知道如何做得更好。 例如,通過輻射變化來觀察腦腫瘤,計算機程序擊敗了醫生(http://neurosciencenews.com/ai-brain-cancer-neurology- 5058 /)顯示,計算機能夠比放射科醫生更好地區分放射性壞死(放療有時會導致該問題)腦腫瘤複發。 這是非常重要的,是放射科醫生的難題,也是計算方法的一個偉大目標。

這也自然來到了第二個常見的錯誤。

2)這不是你所謂的人工智慧

人工智慧,是這麼回事兒? 機器學習是在蠶食世界? 深度學習現在如此熱門? 當然,但這並非全部。

並不是所有的機器學習都是平等的,並非所有的都是開創性的,即使大多數人沒有看到差別並且認為它是重要的。

然而,它也確實很重要。

因為發表在美國神經放射學雜誌(AJNR)上的一篇關於腦腫瘤的論文(同樣很好、重要的論文)並沒有使用深度學習。這在放射學文獻中是非常常見的,因為從2010年或者2011年開始,一些主要的論文表明舊式的圖像分析可以做一些有趣的事情,例如從醫學圖像中鑒定出的癌症病例中的腫瘤亞型。

這些技術並不能輕易地基於人類的大腦。他們並不「領會」世界。他們不具有「認知」能力、不「智能」,也不會像其它的流行用語一樣廣泛流傳。

這些技術已經存在幾十年了,我們已經有足夠的計算能力可以以幾乎相同的時間在筆記本電腦上運行它們。長期以來,這項工作並沒有遇到硬性障礙。那麼為什麼之前嘗試了成百上千次的一直失敗,現在突然成功了?

現在,這並不是關於它自身的一個爭論,而是它應該被關注。非深層系統在類似於人類的任務中並沒有表現得很出色。

相同的技術在物體識別方面並沒有擊敗人類。他們不能幫助解決Go或者Atari。他們不能擊敗人類打字員,也不能安全和自主地駕駛汽車數億英里。他們從來沒有離開過停車場。

規則二:深度學習並不利用人類設計的特徵

舊式圖像分析方法是人類通過精心構造的數學矩陣來描述圖像。這是非常困難的,所以我們能做到最好的是識別圖像的構建基塊。像邊緣和小圖案的東西,我們可以量化它們在圖像或者圖像區域中有多少。

這是他們在論文中要進行的步驟。

對於初學者,你可以看到為什麼對於放射科醫生來說那麼難。A和E看起來完全相同。

他們在這裡做的是:將區域變明亮(使其內部更光滑),量化目前存在多少紋理。他們在大約50名患者隊列中嘗試了一百多個紋理,選擇表現最好的那些並把它們組合成一個識別標誌用於預測。在一定的統計確定水平上,使用這些標誌的表現優於人類。

希望任何受到過系統訓練的個人讀到這裡,現在要敲響警鐘了(謹慎注意了)。

使用人為定義的特徵最大的問題是,你可能需要測試它們,並選擇最好的。

多假設檢驗是一個詭異的存在。我真的特別想寫一篇博客文章來談這一點,因為我發現它確實太神奇了。其實這個故事的寓意是:如果你測試了許多假設(「檢測癌症的紋理x」是一個假設),那麼你會得到很多假陽性(False Positive)。如果你測試的p值是0.05,那麼你的結果有5%的機會逃掉。如果你在閾值0.05下測試得到100個結果,那麼你可能會有20個逃掉的結果。

特徵選擇:選擇表現最佳的特徵—可能會變得更糟,不是更好。你期望的20個逃掉的結果,然後你挑出前十個特徵。

我喜歡本文用於特徵選擇的mRMR演算法,並且我自己也使用它。但是最後的維度降低不會解決過擬合。你早已過度的擬合了你的數據。特徵的選取可以幫助我們探索預測並呈現它們,沒什麼別的了。

事實上,所有的研究人員都明白這一點。我們知道,當我們樣本量n非常小,特徵p較多(特徵數超出樣本數)時,我們很有可能過擬合。我們盡最大努力採用諸如留出驗證集(hold-out validation sets)、交叉驗證(Cross-Validation)等技術減輕這種情況的發生。這個團隊做了所有的這一切,並且表現得非常完美,是一個高質量的工作。

但是這一領域的所有研究人員仍然知道這樣的結果不能被信任。這並不真實。我們可能不需要大規模的臨床隨機試驗,但是除非一個系統希望對來自一個完全不同的患者隊列的更多病例進行測試。

但不要用我的話語理解它。讓我們一起來閱讀這篇文章。

我們的研究確實有其局限性。作為一個可行性研究,由於受限於訓練集和holdout 集相對較小的樣本量,報道的結果只是初步的。

需要強調的是,這些研究員恰好在這裡已經對自己研究的局限性有所表達。

它不只是樣本大小。你可以完美地分割你的訓練和測試集,但如果你嘗試十幾種不同的演算法去觀察哪種演算法表現最好時,你已經過擬合了你的數據(圖再次源於斯坦福的論文)。雖然還行,但是也必須承認(過擬合)。

測試多個演算法可以告訴你真實測試精度的大致範圍,但是你不應該期望在新的數據集中有相同的結果。

還有一件有點更有爭議的事在這裡需要提及,就是公共數據集。你需要對公共數據集非常謹慎,尤其是如果你之前曾工作中接觸過它們或是在一篇論文、博客文章或者tweet上閱讀過一些人曾接觸或使用過它們。因為你剛污染過你測試集。你知道什麼技術在這個數據集中比其他的更好,這就有了它自己的特性和偏差。那麼你得到擬合偏差的虛假結果而不是真實研究目標的機會會非常高。

許多機器學習研究人員對ImageNet感興趣,不會對每周的「新的先進的」結果感到非常興奮,除非在精確度上有了明顯的提升。由於數百個組正在處理數據,並且嘗試了數百個具有廣泛超參數搜索的模型,因而它們沒有理由不會出現過擬合。

我的機器學習的同事聳了聳肩。它只是被接受,半信半疑地採取每一個結果並繼續前進。如果有人告知記者和公眾,這是最好不過了。

因此,這是對於規則2更好的表述。

規則2:閱讀論文

規則2a:如果不是深度學習,它可能並不比醫生好。

規則2b:在小型或者公共數據集中,過擬合是極為容易發生,且不可避免的。因而需要尋找更大規模的測試集,多個無關的隊列,真實的患者。

3)文章所說和你所想並非一致

類型3的錯誤是很容易的。這篇文章從未提到標題所指內容,或文章完全誤解了研究。

數字診斷:智能機器相比於人做的工作更好,Singularity Hub 是一個很好的例子。文章並沒有單獨提出頭對頭的比較。這些都是猜想和假設。即使它可能是一篇好的文章,但它的標題並不合適。

人們認為未來人工智慧讀取乳腺影像的準確度能達到 99%,這有點令人震驚。這篇論文是關於使用自然語言處理的研究。它與閱讀乳腺影像無關,但從放射科醫生所做的報告中提取了文本信息。標題是錯誤的,其他很多文章也有這樣的問題。

規則三:閱讀文章

十分簡單

醫生是有優勢的……

那麼它離開我們要去何方?

我仍然堅信,我們還沒有看到一台機器在任何與實際醫療實踐相關的任務中勝過醫生。慢慢建立起來的前期研究表明這並不會永久持續,但到現在為止我沒有看到機器人獲勝的情況。

我希望我的規則將是有用的,以幫助區分尚未完成的偉大研究和值得非常激動的真正突破。

如果我錯過了某個研究,請告知我。

當我寫下這些,從字面上的最後一段變得不真實。

Google剛剛在美國醫學協會雜誌(影響因子37)上發表了這篇論文。因為它實際上依賴於大肆的宣傳,這是一個好的方式結束這部分。因為當情況變化,任何有價值的規則集仍然可以工作。

他們訓練了深度學習系統,以從視網膜的圖片診斷糖尿病視網膜病變(眼睛中的血管損傷)。這是眼科醫生目前使用完全相同的技術執行的任務,通過眼底鏡觀察視網膜。

Google的系統在一個大型臨床數據集(130000名患者)中與專家的表現不分上下。雖然這不一定是「超越」人類醫生,但運行該模型可能只需要花費每個患者不到一分錢。一個眼科醫生的成本遠遠不只這一點,並且老實的說,他們應該有時間去做更值得做的事。我很高興稱這次機器學習取得了勝利。

讓我們一起看看我的規則,他們可以工作起來嗎?

規則1——這是人類醫生做的,以相同的輸入完成任務。

規則2——是深度學習,具有相當好的數據集。

規則3——它真的是一件事情嗎?

所以你看,我科學地證明了我自己的系統是錯誤的。

現在還不能叫我是一個憤世嫉俗的醫生。

作為最後一點,值得看看為什麼Google系統可以工作。大部分情況下,他們購買了一個很好的數據集。他們有一個2~7名的眼科醫生小組對130000多個圖像(源於一組的54名眼科醫生)中的每一個進行評分。這是一個巨大的任務,我甚至都不認識54名眼科醫生。

這個技術可能接近準備一個大型的隨機對照試驗,這可是一個了不起的事情。

這些未來幾年我們將會看到。將會有許多這樣的任務,如果有人願意構建數據集,人類可以做什麼,計算機就可以做什麼。雖然大多數醫療任務可能並不適用於此,但是這將足以開始頻繁地發生。

這確實令人激動。(生物谷Bioon.com)


推薦閱讀:

人類為什麼迷戀大屁股?還不是被交配逼的嘛!
給人類的一封信
男人最寵愛的女人類型
還原人類歷史上一場血腥大屠殺 烏克蘭極端民族主義UPA陰影下的沃倫
Nature:人類表觀基因組圖譜順利完成

TAG:醫學 | 醫生 | 人類 | 文章 | 標題 | 機器 |