醫學影像AI發展進入深水區後的思考

近日,由上海市衛生和健康發展研究中心、上海交通大學人工智慧研究院、生物谷聯合主辦的「2018未來醫療科技大會」在復旦大學楓林校區舉辦。在醫療人工智慧應用論壇上,第二軍醫大學附屬長征醫院影像醫學與核醫學科主任醫師、教授劉士遠做了題為「醫學影像AI研究現狀與挑戰」的演講,三思派將內容整理髮布。

我作為一名醫生代表,來談一談關於醫學影像AI方面的一些認識。AI現在很熱門,應該說達到了一種全民AI、人人智能的境界,我們想到的行業都在做人工智慧。醫療領域中的每個環節、每個學科也都在做,大家都覺得這是一塊很好的蛋糕,想要來分享一下它成長過程中帶來的一些利益,當然也不願意被這班列車拋棄,畢竟代表著一個時代的方向。

在醫療方面,影像可能是最先應用人工智慧的,因為普遍認為影像比較簡單,數據可以結構化。AI最開始被大家認識就是從圖像大賽開始的,就是看圖這麼簡單的事,尤其是皮膚癌、眼底病,它一看就知道,所以進入醫學影像的AI公司特別多。

影像的需求很大,因此對影像科醫生的需求也很大

。目前上海三甲醫院的預約時間都在兩周以上,現在據說已經在一個月以上了。技術員可以輪班倒,機器可以不休息,但是臨床影像中醫生人力不足,做完以後沒有這麼多醫生出報告,這可能是一個瓶頸問題。如果初診能夠讓機器人來做,這個願望自然是很好,我們現在都面對這樣的壓力,僅憑這些影像科醫生寫報告,可能寫到角膜脫落也寫不完,寫不完則會造成漏診、誤診,這其中風險很大。

需要真正的人工智慧公司和真正的演算法科學家 

影像AI、全國AI很熱,又有國家政策支持,熱風頻吹。中國人口多,需求大,醫生不足,醫療行業對AI的需求也很大,所以公司也特別多,新興公司雨後春筍一樣,原本做設備的老牌公司也分一塊出來做AI,原來做軟體的公司近水樓台更加方便,也開始做AI。基本上和醫療相關的公司沒有不做AI的。我昨天看到,阿里巴巴、騰訊也在涉足AI。人工智慧的範圍很大,從簡單的機械臂到各種自動化,都可能歸到智能的範圍。然而我們所說的人工智慧到底是什麼?可能現在大家說的都是基於深度學習的人工智慧,但是這些公司又都在做什麼方面的人工智慧、哪個環節的人工智慧,它們的核心競爭力在哪裡。醫生選擇合作夥伴的時候也要知道合作公司的水平在哪裡、核心競爭力在哪裡。公司在聘請科學家時要瞪大眼睛,現在所謂的AI演算法科學家很多,但據我所知依然是奇缺,真正的科學家很少。

我們有很多學會、聯盟,比如新成立的全國AI的學會,還有所有學會內成立的AI分會。有一家醫院聯合一兩家公司成立的聯盟,也有我們這種上百家醫院數十家公司的聯盟。當然這是好事,我們希望這些學會、聯盟能夠促進行業的發展。不過無論是學會還會聯盟,這些組織要知道自己幹什麼,組織和組織之間不僅僅是競爭關係,還應該想到一個如何互通、分享,如何共同把這個行業的規範做好,把行業引導向一個好的方向。

現在關於AI的會議特別多,有政府組織的,也有學會、公司或投行等組織的。但是這些會議講故事的偏多,

我希望會議能聚焦核心問題

,比如某個演算法的問題怎麼解決,比如一些標註的問題,資料庫的構建怎麼解決等等。

我們目前的正面環境很好,但要解決的是在哪裡燒旺一點,在哪裡應滅滅火。

影像醫生需要發揮更多的核心作用。

對於任何AI產品,

醫生是終端用戶,又是AI產品研發的啟動者、源頭。

產品所要解決的問題是由醫生提出的,數據也在醫生手裡,基於深度學習的核心是標註的數據,也在醫生手裡。醫生有引領、培育AI的作用,醫生還要建立一些與行業、產品相關的標準。AI產品好不好用要及時反饋,比如現在臨床方面的一些AI產品,醫生是不是願意用,這些反饋便於AI公司不斷地完善。AI是一個好工具,醫生要擁抱它、宣傳它、引領它,只有大家一起努力,才能讓AI在一個好的環境里像新生兒一樣越長越壯,將來能夠服務人類。

 

醫學影像需要什麼樣的AI產品? 

影像工作從問診、檢查、閱圖、分析、判斷,到出報告、建議、隨訪每個環節,都歡迎能夠改善現有工作體驗、提升工作效率的產品。應該說,對於影像工作流中每個環節里的問題,只要AI能夠提供解決方案,包括我們所謂的排隊系統、叫號系統,臨床都是歡迎的。現在大家集中在閱圖、分析和判斷,主要是檢測和鑒別。我相信通過這些工作能夠提升報告的質量,也能夠把醫生從屏幕上解放出來,然後讓醫生有更多的時間和患者溝通。影像科醫生可以更多地去解釋報告,去做門診,也可以在單位時間內做更多的工作,提高效率。

什麼樣的產品是臨床上受歡迎的?首先要符合臨床使用的場景。

研發人員在研發之前最好到臨床看一看,到影像科看一看影像科醫生是怎麼樣讀圖的、怎麼樣寫報告的,只有符合這些習慣,研發才是有前途的。另外做好的產品一定要使用方便,要具備一個友好的人機交互界面,大家才願意去用。當然,核心是產品要有好的敏感性和特異度,不能漏診、誤診。總之,產品要以檢查部位和檢查目的作為終端解決方案,要像現在影像科出報告一樣,有一些描寫,有一些診斷,有一些建議,實現多器官多任務的輸出形式,這才是有前途的。

目前關於影像的AI產品,最接近臨床的是肺結節的檢測,肺結節的鑒別現有效果也不錯。其他方面做得比較多的還有腦卒中、骨折,以及冠脈和乳腺,在背景相對單一、簡單的部位開展試點是正確的選擇,可以先從簡單的開始解決。在腦出血方面,關於腦卒中的自動識別、檢測以及量化,已經在我們醫院上線,比如我們肉眼看兩次腦出血的量認為差別不大,但是AI能夠準確分析出量的變化和差異,以及出血是活動性的,還是已經穩定了的,是否需要進一步治療,因此它的臨床指導意義很大。

關於鑒別診斷,不同的公司都在做,展現出很好的前景。現在做兩千例的一個訓練級的模型,敏感性和特異性已經達到相當高的水平。未來如果進一步擴大數據量,這個準確性還會得到進一步的提高。當然這個模型,我常常把它比喻成一個新生兒,將來能不能長大成人,還要看交給誰來培養。如果交給一個猴子來培養,他可能連話都不會說,如果交給一個靠譜的老師,他將來就會成為一個有用的人才。通過用我們標註的訓練集逐漸進行調試,最後可以把假陽性降到非常低,低到可以接受的範圍。這個訓練集是老師編的教材,這個教材其實就是對於這個病歷的正確的標註,因此這個標註是很重要的。

對於急診有沒有骨折,有的甚至是外傷,漏診的話會有一些後患,牽涉到醫療的糾紛、醫療官司,如果AI能夠解決這些問題會很有意義。

關於人機大賽,我認為這是拿一個局部的問題來進行比較,或者是閉環的數據來進行檢測。對於結節的發生,主治醫生來判斷,是方方面面的綜合判斷,比檢測、比速度一定是輸的。

是不是醫生一定不如AI,一定會被取代呢?這個答案是肯定的,也是否定的。

AI目前的發展,大多是從單一的疾病入手,而且單純以圖像訓練為主,用於疾病篩查能做的很好,比如說在體檢中心效果是好的,但用於臨床的工作是不行的。另外企業用的訓練集,也就是資料庫的質量是參差不齊的,因此導致產品不穩定,還需要提高所有產品的普適性。某個模型拿出的數據非常好,但是換了其他的數據評價是不是依然好?最近我們幫中檢院建立了資料庫,就說明我們需要一個公認的第三方平台來評價這些產品。 

AI數據生產環節的問題

關於

數據

方面,一方面,我們缺乏有效的訓練數據,關於先前使用的國外訓練數據、國外公開的數據集,不僅有人種的偏異,而且數量有限,會帶來同質化的問題。國內儘管數據很多,但數據獲取來源不暢,沒有合法透明的渠道。另外,行業標準缺乏,比如做腦出血,腦出血圖像的辨識需要大家達成一致的認識,用於描述它的術語需要統一,如何標註它需要統一,如何進行量化也需要統一。但是實際上現在每個公司都是讓各自的合作醫生自己研究,研究方向有可能是對的,但也有可能走了偏路,過兩年發現走偏了,很可能已經晚了。我在聯盟建議,要先組織一個專家組,形成專業術語的共識,形成圖像識別的共識,形成標註的共識,然後再做。

為什麼大家不願意貢獻數據,是因為現在數據拿出去了就不知道是自己的了,這需要真正讓數據可溯源,知道這些數據是我的貢獻。然後是數據的倫理問題,需要相應的部門立法,出台一些管理的法規、體制。 

圖像標註環節的問題(DLAI成敗的關鍵)

圖像標註

的問題其實是深度學習的核心問題,但是解決得並不好。關於肺結節有12家公司在申請拿證,於是就委託我來構建肺結節的標準檢測庫。我們在全國影像科醫生中招募志願者,最後有260個專業影像醫生報名。我們用30例肺結節來考試,看看哪些靠譜,結果這260個人當中對於結節的標註準確率只有30%。影像科醫生標註專業的,而且是在影像學當中比較簡單的肺結節黑紙中點白點,只有30%合格,說明這裡面有很多的問題。可能還有其他的問題,這個標註也許不是影像科醫生的,甚至不是醫生的。例如有些公司可能為了省錢,直接請標註公司幫助標註。標註公司也可能只是請了大學生標註一下,結果可想而知。

另外,圖像的認識不統一。比如肺結節說起來很簡單,但是裡面有磨玻璃結節,還有實性結節,尤其是小的結節,可能看上去像是一個磨玻璃結節,但實際上是實性結節,這牽涉到這個結節多大,在什麼位置,怎麼判斷。這些都需要專家來進行討論確立。還有比如說結節,這個邊界到底是清楚還是不清楚,從不同的角度可能得出的結論不一樣,然後結節的邊界不一樣,可能標出來的結果就是不一樣的。

標註的方法方面,有的用區域標註法,有的用緊密包裹法。當然,我不懂計算機,可能在座專家有研究演算法的。標註方法也不只這兩種,這兩種方法對於結節的差別很大,有血管的改變都會影響它的性質的判斷,所以說用什麼樣的標註方法來標註,也會影響你輸出的結果。我們說4毫米以上的病灶需要定量,定量就需要進行分割,分割說起來容易,大家總覺得實體性的分割難,難道空腔就容易嗎?其實並不是,比如說邊上的毛刺,然後你怎麼來分,如果說不達成一個共識,張三隻畫裡面的部分,李四全部的體積,這個會極大的影響它的準確。

還有量化、測量大小、測平均直徑、測體積,有很多的方法,你用什麼樣的方法來測,這個都需要有共識,這是要有定義的。

 

AI產品檢驗環節的問題

在產品檢驗環節,醫生是比較被動的。首先要知道這個生產過程是怎樣的,我們只有參與更多、了解更多,才能有發言權,模型的效果還需要第三方公認的來檢測。我們前期在中檢院,通過肺結節的構建,已經建立一套標準資料庫建設的模式,未來對其他疾病模型的標準構建可以參照這個模式。在使用的環節有些評價的問題。當然也有人擔心,比如說肺結節檢測,假如都由機器完成了,年輕醫生得不到鍛煉,能力會不會廢掉。就像開車一樣,現在大家開車有百度地圖,都會導航,未來可能不會開車的80歲的人也同樣可以駕駛上路。實際上,肺結節的識別發現不是一個問題,沒有技術含量,未來醫生資源應該投入到對結節是什麼的判斷,而不是找有沒有結節。

 

醫學影像AI發展的建議

 

公司現在核心是數據,

未來AI的方向不是數據,而是演算法。

目前基於深度學習,基於圖像標註的這種演算法是沒有出路的,因為這是對單一的病種逐個標註,大數據完成小任務。未來如果說無監督學習,應該比如說學一萬例正常的,一萬例異常的可以標註出來。未來還是要靠演算法才能夠真正形成突破,才能夠根本地解決問題。

今年4月份我牽頭成立了中國醫學影像AI產學研用創新聯盟,這個聯盟包括近一百家公司機構,下半年還會增補。我們的目的是做行業的共識、標準,以促進行業的發展,同時也做政府的智囊團。

總的來說形勢一片大好,但是對於AI來說並不一定。大家覺得看圖好像很簡單,但影像的圖其實不只是一個皮膚的圖,影像圖是多維的。我經常跟AI公司說,脊柱的磁共振檢查都是重複的報告,沒有技術含量,大家都不願意寫。但目前也沒有哪家公司願意做,為什麼?維度太多了,有錐體維度等很多維度。基於目前的深度學習方法,很難弄清這些維度,所以還是要演算法有根本突破才行。

不管怎麼說,AI很好,我從16年下半年開始對它感興趣,然後合作開始搞這方面的研發,

我也希望它未來能夠解決我們的痛點,能夠成為我們影像科醫生的好幫手,

但是我們醫生要培養,把這個嬰兒養大成人,將來服務我們。我希望AI在大家的培養下能夠早點落地,能夠有更好的明天,謝謝大家。

  

 作者介紹 


劉士遠,第二軍醫大學長征醫院影像醫學與核醫學科主任,教授、主任醫師,博土生導師。從事醫學影像診斷工作30餘年。入選上海市領軍人才、優秀學科帶頭人及21世紀優秀人才。


 

本文由石瑛等根據第二軍醫大學長征醫院影像醫學與核醫學科主任劉士遠在2018未來醫療科技大會上的演講整理。

文章觀點不代表主辦機構立場。

◆ 

◆ 

 

編輯郵箱:sciencepie@126.com


推薦閱讀:

中國玉文化發展
求是刊文回顧十年發展:趕超發達國家逐步成現實
加快體制改革 推動我國服務業大發展
《3——6歲兒童學習與發展指南》

TAG:醫學 | 醫學影像 | 思考 | 發展 | 影像 |