AI與醫療應用場景概要
寫這篇文章純碎是對於AI與醫療的應用的興趣,因為個人覺得,AI在醫療上的應用要落地,比自動駕駛這些研發周期很長的方向,是有優勢的,潛力很大。我是在參考了其它一些文章以及視頻之後,整理了這篇文章,主要描述了AI與醫療現在比較熱門的研究方向以及落地應用,以及實際應用中急需解決或者面臨的問題。
一.AI對於醫療所要解決的問題
很簡單,就是怎麼樣利用數據挖掘和人工智慧的技術,從海量的醫療數據中間去挖掘出證據,利用這些證據給患者提供循症的個性化醫療。
二. 醫療數據
從醫療數據分析的角度看,包括三大類的數據: 臨床數據、基因數據和大健康數據: 1) 臨床數據,就是醫院產生的數據,一個人去醫院會做檢驗、開藥、拍片,這都是醫院產生的數據,有一個測算臨床數據對人健康的影響有10%; 2) 基因數據,就是與生俱來的數據,對人的健康影響有30%,有很多人在做基於基因的診斷,包括腫瘤治療。當年女神安吉麗娜朱莉做過一個乳腺切除,也是因為經過基因測序,發現有一些遺傳上的變異; 3) 大健康的數據,就是目前醫院和基因之外,所有與健康相關的數據,包括飲食、運動、工作、在社交媒體上發泄的情緒。
從數據存儲的角度看,有結構化很好的,比如化驗單,處方等這樣的常量指標數據;有半結構化的,比如住院小結,出院小結,入院首頁等這樣文字性描述的數據;還有完全無結構化的,比如醫療影像這樣的圖片數據;還有記憶測序這樣的組學數據;還包括時間序列數據,比如ICU里會看到一個人會插著各種各樣的儀器取測量它的血壓心率脈搏等各種流數據。總的來說,需要分析的醫療數據是多模態的。
三. 人工智慧+醫療的應用場景
1.醫學影像識別
醫學影像的精準識別對醫生的決策至關重要。可以說AI處理醫學影像是目前發展最快的方向了,毫無疑問這得益於深度學習與計算機視覺的快速發展,也就是說AI在處理醫學圖像上是有很大的前景的。
醫療影像是多模態數據。有一些比較常見的二維影像,比如眼底皮膚癌影像,或者消化道的胃鏡腸鏡;還有一些是三維影像,比如影像,ct或者核磁通過向切片掃描的方式,對人體進行上百次的掃描,生成一個完整的三維影像。能夠很好地用來做各種診斷和治療; 還有一類是這種病理影像,主要做很多腫瘤的治療,它需要從疑似腫瘤的部位取一個組織,然後進行切片,放在高倍顯微鏡下,都是幾萬*幾萬像素的高解析度的影像。
拿騰訊覓影的產品來說,比較成熟的有食管癌,肺癌,糖尿病性視網膜病變篩查,乳腺癌早期篩查,宮頸癌早期篩查,乳腺癌淋巴切片病例識別等。以食管癌篩查為例,纖維內窺鏡檢查,已成為檢查上消化道疾病(食管癌、胃癌等)常規的臨床診斷、術後隨訪、療效觀察的可靠方法.
從具體的過程 來看,在拿到片子之後,差不多有這麼幾個步驟,第一塊是作為一個對於醫療圖片從PET系統或者醫療傳統系統裡面,首先對圖片做一些預處理,第一個要去識別一些是食管還是不是食管,因為醫生拍片子的時候有時候會拍到胃、十二指腸的位置,也會影響系統的學習和訓練。另外一塊,不同的機器拍出來的片子顏色、大小、光照等等都有很多不同的區別,要對這些圖片做規劃處理,然後放到模型當中。同時,在一張完整的食道癌影像當中,它的病灶只有一小塊,大多數的區域是一個正常的,要把這個醫療原始的圖片切成很小很多小的塊,然後再去判斷它這個是正常的還是有病變的。最後,在病變的圖片裡面,再去分辨是炎症還是癌症。在判斷炎症和癌症時,除了完全基於圖像識別的技術之外,也會加入其他方面的診斷。通過剛才一系列的手段,這個技術對於癌症的判別精確度是90%,並且也是經過臨床的驗證,這個不是實驗室裡面能夠測試的數據。
另外一例子是斯坦福利用深度學習診斷皮膚癌,其中很多影像資料並不像醫療專業人員拍攝的那樣專業,而是從各個角度、焦距和照明下拍的。最後,他們累積了約 130,000 張皮膚病變的圖像,這些圖像展示了超過 2000 種不同的皮膚疾病。使用 129450 個臨床圖像的數據集,大於以前的數據集兩個數量級,包含了 2032 種不同的疾病,訓練了一個深度卷積網路。
使用兩個關鍵的二進位分類用例:角質形成細胞癌(keratinocyte carcinomas)vs 良性脂溢性角化病(benign seborrheic keratoses);惡性黑色素瘤 vs 普通的痣,在 21 位經過認證的皮膚科醫生的監督下,測試了它在活檢證實的臨床圖像上的性能。第一例代表最常見的癌症的識別,第二例代表了最致命的皮膚癌的識別。深度卷積神經網路在這兩個任務上的表現都達到了所有測試的專家的水平。
演算法的性能是通過構建敏感性(特異性曲線)進行衡量的,其中敏感性(sensitivity)代表著正確識別惡性病變的能力,特異性(specificity)代表著正確識別良性病變的能力。其是通過三個關鍵性診斷任務進行評估的:角化細胞癌的分類、黑素瘤的分類和通過皮膚鏡檢查的黑素瘤分類。在所有的三個任務中,該演算法的表現媲美皮膚科醫生,靈敏度曲線之下的區域達到整個曲線圖區域的 91%。該演算法另外的優點是它的敏感性能進行調整,研究者可以根據他們想要評估的東西從而調整其響應度。這種改變敏感性的能力暗示著該演算法的深度與複雜性。看似無關照片中潛藏的架構——包括貓和狗的圖像,都有助於演算法更好地評價皮膚病變影像。
2.人工智慧的醫療助手
醫生看病時間短的現狀有望被改善。隨著技術的成熟,人工智慧有望成為臨床醫生的合作夥伴,幫助醫生承擔診前問詢、自動化檢測等工作,使醫生有更多時間可以與患者互動。例如,智能語音技術的發展使得人工智慧助手可以跟人類醫生一樣與患者進行語音交談,詢問病情、判斷癥狀以及提供個性化治療方案給醫生參考。
IBM的沃森個性化腫瘤治療助手。
首先腫瘤是一個非常惡性的疾病,治療很困難。一方面疾病本身
比較困難,另一方面治療方法層出不窮,各種靶向藥物,各種新的治療方法不斷的出現。如果想要做一個好的腫瘤醫生,每月要讀超過1萬篇與腫瘤相關的新的科研文獻,這是不可能的。這個解決方案的核心技術是運用自然語言理解技術,讓機器去代替人去讀書。這個系統讀了兩千多萬篇文獻,應用自然語言理解抽取裡面的疾病癥狀、診斷治療、患者病情,然後構成非常複雜的知識圖譜。基於這樣的知識圖譜,當患者問診,系統會自動從患者所有的既往病歷信息中,包括檢查報告、片子、檢驗結果、病史的描述,自動抽取上百項的關鍵信息,藉助後台的知識圖譜進行一個很複雜的推理過程,給出治療的推薦治療方案,包括不同的方案與患者的契合度,這樣的信息可以幫助腫瘤科醫生更好地用最新的最好的治療方案,為患者提供個性化的治療。
同時,Watson Genetics從基因維度切入,與前面解決方案一起解決腫瘤治療。因為腫瘤本質上是一種基因變異導致的惡性疾病,醫生們就想能不能通過直接用藥物打靶,靶向作用到變異的基因來控制腫瘤。個系統也很簡單。拿到一個患者的二代測序結果後,通過分子profiling,在患者所有的變異基因全部找到之後,進行很複雜的pathway分析。Pathway主要通過在幾千萬篇文獻中,學習各種藥物靶向、基因變異、蛋白質作用過程等方方面面,構成了很複雜的網路,然後推理,給出相應的靶向藥物的治療推薦。前一階段有個新聞報道,日本東京大學有一
個患者得了非常罕見的白血病,然後沒有醫生沒有見過,沒有辦法確診,還甚至進行了誤診。藉助這樣一個系統,很快就找到患者可能得的白血病,同時推薦了一些靶向藥物,挽救他的生命。
Watson先讀了很多書,包括300本期刊,200多本教科書,幾千萬的文獻。在其實際系統使用的界面中,來了一個患者之後系統會推薦,每一行是一個治療方案,綠色的是最好的治療方案,包括放療、化療、手術治療、藥物治療、各種不同的治療。同時,每一種治療方案,系統會給出更多的信息,比如治療方案,愈後效果,是否有毒性,毒性是什麼樣的。這些信息並不靠醫生手工提前錄入,而是由系統自動從幾千萬份文獻中,利用自然語言的理解技術,把這些關鍵信息抽取出來構造成一個知識庫,然後推送到醫生面前。其實,很多醫院進行腫瘤治療時,會請很多專家給出自己的治療意見,包括治療方案的優缺點。這個系統就相當於一個讀了所有的最新文獻的專家,把不同的治療方案包括副作用、不同治療方案藥物之間的相互作用,生成了一本大概有三四十頁的報告,提交給醫生,幫助醫生去做出針對患者最有利的一個治療方案。
真實世界證據分析
真實世界證據分析是一個醫學界的詞,對應的詞叫RCT,雙盲隨機對照臨床實驗。目前判
斷一個葯或一個治療方案是否有效,必須要做RCT實驗,證明藥效或者治療方法的有效性。一個這樣的實驗平均要花十年以上的時間,要花10到15億美金,而且不超過10%的成功率。RCT是一個非常耗時耗力耗錢的方式,真實世界證據就是跟它做對應的。RCT實驗一般會組織幾百個人,比如五百八百人,分成組去進行實驗,要積累數據。同時每天其實生成大量的醫療數據。以中國為例,一年就診的人次接近70億人次,相當於是全國人民,每年看五次病,當然有一些老病號。70億次就診產生了大量的臨床數據,但是這些數據並沒有被很好分析,都散落在醫院的各個信息科機器上面。這些信息其實可以被用來做真實世界的挖掘,就是利用真實世界的數據,做更好的疾病治療、預防等。真實世界證據就是真實世界中數據,包括病曆數據、醫療保險數據、疾病數據,輸入進來,產出各種模型,比如中風病人的再中風預測模型,或心
梗病人的死亡風險預測模型,或某種藥物治療有效性的模型。這樣的模型是通過這樣的pipeline得到的。我們發現,第一可以有一個通用的pipeline因為過程重複,包括導入數據,數據清去解決真實世界數據分析的問題,洗和整理,構建患者人群,抽取特徵做建模。很多是通用的,比如疾病風險預測分析,患者的相似性分群分析,治療有效性分析,患者依從性分析。這樣的分析的話都可以變成一些可重用的模塊,作為一插件在平台上來做模型生成。比如,咖啡機放入數據就會生成咖啡,裡面有很多參數要調整你是要喝美式還是拿鐵還是摩卡。
3.醫療機器人
醫療機器人並不是新話題。但當人工智慧與機器人結合,醫療機器人藉此步入加速道,應用場景從手術機器人拓展至康復機器人、服務機器人、試驗機器人等。據 Markets and Markets估計,從2016年起,全球醫療機器人將保持近17%的年複合增長率,到2020年,市場規模有望達到114億美元。其中手術機器人仍處於主導地位,佔據60%左右的市場份額。以最負盛名的手術機器人「達芬奇」為例,已經完成了超過60萬場手術,從心臟瓣膜修復到腫瘤切除均有涉獵。
另外,除了在這些具體的病理問題的解決上,其它一些醫療問題也可以結合人工智慧。比如醫療資源配置,根據病人的訪問,優化、預測手術室和床位,這樣可以優化醫院管理,提升資源使用率,增加收入;藥物劑量有效性,通過預測不同類型,劑量的藥物對治療疾病的效果,提升就醫效果;患者評價數據,通過識別患者對藥物的看法,哪些是正面反饋,哪些是負面反饋,以及如何通過反饋提高藥物的質量;預測不同地區對不同藥物的需求,根據藥物銷量數據,不同地區的疾病數據,藥店,醫院數據等,確定藥物的分發策略等。
四. 存在的缺陷
1.有效數據的缺乏
機器學習的特性決定了初期要依靠高質量的數據來進行訓練並優化演算法,從而保證高精度。因此如何獲取有效數據,是人工智慧+醫療應用最先需要跨越的障礙。高質量數據意味著數據集足夠多,有代表性,更重要的是,數據的標籤也必須是非常準確的。關於數據標籤,這裡有篇文章是介紹一位Nature論文作者撰文質疑AI醫療影像的研究現狀。
從數據的獲取端出發,我國的醫學影像還處於從傳統膠片向電子數據過渡的階段,大量的影像資料還沒有實現電子化和數據化。再加上數據源頭多、類型多、結構複雜、標準不統一等特徵,導致要獲得真正高質量的有效數據,需要花費高昂的成本,這是一個巨大的成本黑洞,單靠一家醫院或企業很難解決,需要上升到行業層面予以突破。
2.技術成熟尚需時間
美國醫療信息與管理系統學會下屬研究機構2016年曾做過一次聯合調查:23%的被調查者認為人工智慧技術本身的不成熟性,導致其存在一系列風險並承受質疑,是人工智慧應用於醫療所遇到的最基礎也是最難跨越的障礙。人工智慧很多底層技術,仍處於研發階段,很多問題並沒有得到解決。
例如,在超過100種的癌症中,人工智慧技術目前僅能精準識別乳腺癌、宮頸癌、胃癌、肺癌、肝癌等少數病種,大規模突破還需時間。而手術機器人柔性控制模塊、感測器等軟硬體技術也尚不成熟。
3.市場認知尚需過
任何一項產生變革或顛覆性的新技術,其產生、發展和應用必然要經歷一個漫長的被市場認可的過程。目前,消費者對人工智慧+醫療仍處於遠觀和存疑的態度。普華永道2017年就人工智慧+醫療的應用意願進行了調查,有近4成的消費者不願意接受人工智慧來看病,即使對人工智慧+醫療相對寬容的用戶,也僅願意用人工智慧進行常規指數監測、心率監測、健身監測等非治療環節。
4.法律倫理的挑戰
人工智慧的基礎技術和應用仍是一個科技的黑匣子,具體計算過程是無從知曉和預測的,更無法掌控,由此帶來的法律、倫理挑戰是人工智慧應用面臨的通用性難題。同樣以醫療影像為例,人工智慧目前扮演的角色還主要是輔助讀者,醫生仍需要對影像決策負全部責任。
隨著技術的不斷成熟,當人工智慧成為主要讀者時,監管部門如何認定其資格並進行監管?2017年6月,美國食品藥品監督管理局(Food and Drug Administration,簡稱FDA)批准了Arterys公司的產品Arterys Cardio DL可用於分析心臟核磁共振圖像,這是首個被批准可應用於臨床的基於雲計算和深度學習的分析軟體,但主要是幫助醫生輔助心臟成像。而如何釐定人工智慧應用於臨床所需承擔的法律責任,以及避免演算法偏見、歧視等都是不容迴避的挑戰。
5.隱私安全隱患增大
人工智慧時代,大數據價值加速溢出的同時,也加大了數據泄露的安全隱患,個人隱私安全面臨前所未有的挑戰。
2017年,安全研究機構Kromtech Security Researchers發現,一家醫療服務機構存儲在亞馬遜S3上的大約47GB醫療數據意外對公眾開放,其中包含315363份PDF文件。據Kromtech Security Researchers估計,這些文件至少涉及15萬病人,泄露的內容包括驗血結果、姓名和家庭住址等個人信息,以及醫生和他們的病例管理筆記等內容。
————————————————————————————————
emmm有時間整理一下深度學習在醫療影像分析上主要用到的一些演算法.... ==
推薦閱讀:
TAG:深度學習DeepLearning | 醫療 | 人工智慧 |