醫療AI的四步怎麼走?
最近有幸收到拙樸投資@拙樸的邀請,在他們的阿甘live里做了一個關於醫療和AI結合的分享,這篇文章是這次分享的文字稿,內容主要基於之前他們對我的語音採訪,還有他們自己的一些補充內容,主要由@拙樸 整理成稿(為便於閱讀又加了一些圖片,圖片來源於網路,侵刪),在這裡感謝他們的付出。今天將這篇文章發布出來,算是自己一直以來對於醫療和AI結合這個話題的一個總結,此外,我也開通專欄了,名字叫做「醫藥札記」,主要分享一些醫藥行業新動態和自己對於醫藥行業的一些觀察和淺見,包括和人工智慧行業的交叉結合,這篇文章作為專欄的第一篇文章,希望是個好的開始。歡迎感興趣的人關注,可私信交流。
————————————————以下為正文部分——————————————————
智能影像識別、智能輔助診療、智能藥物研發、智能健康管理……一系列人工智慧在醫療領域的應用,正逐漸向人們展示著令人神往的未來,也因此吸引了社會的廣泛關注。關於AI醫療,能夠探討的話題實在太多,而我比較關心的是應用層面的演進和趨勢,所以今天,我就結合自己的學術背景,與大家探討3個部分的問題:
nnnn? 立足於可見的數年來看,醫療AI到底能做什麼?
nn? 醫療AI的先行者「沃森」在中國的商業化進程如何?
nn
? 在藥物研發這件事情上,AI究竟能發揮多大的作用?
nnnnnn首先看第一個問題:醫療AI到底能做什麼?其實,人工智慧在醫療行業的應用最早可以追溯到20世紀70年代興起的醫療「專家系統」。它是通過將已有的醫學知識輸入到計算機程序中,在一定規則下根據病情進行推理和判斷,模擬真實場景中的診療過程,進而給出診斷結果和治療方案。其中一個著名的例子就是Stanford開發的MYCIN system,這是一種幫助醫生對細菌感染患者進行診斷並開出抗生素處方的醫療諮詢系統。通常,對感染細菌種類進行鑒別需要24-48小時或更長時間,而MYCIN系統可以通過不完全的臨床信息進行快速診斷和抗生素治療,結合醫生的判斷,能滿足一些及時的醫療需求,MYCIN系統在感染診療方面的水平已經比相關專家更高。
圖1 典型的專家系統構架隨後的80-90年代,這類醫療專家系統如雨後春筍般蓬勃發展,國內的專家系統也是這時候才開始起步發展並建成了多個細分疾病領域的專家系統,比如:骨腫瘤輔助診斷專家系統、胃癌專斷專家系統、心血管病診斷專家系統等等。不過,這種專家系統受限於輸入知識的局限性,無法很好地擴展到病情複雜、種類繁多的臨床階段,其參考意義也逐漸下降。與此同時,CAD,即計算機輔助診斷開始嶄露頭腳。CAD主要通過影像學、醫學圖像處理技術和其他的藥理學手段,同時應用計算機輔助,以達到提高診斷準確率的目的。其實,CAD就可以看做是現在AI識別醫學影像的初級版本。
圖2 一款輔助診斷糖尿病視網膜病變的CAD軟體進入21世紀以後,隨著深度學習的興起,人工智慧可以做的事情越來越多,醫療AI的發展也由此上了一個新的台階。那麼,如果未來一段時間內,深度學習仍然是主流的話,醫療AI會有怎樣的應用呢?
nnnnnn根據創新工場汪華的分類,深度學習有三個層次的應用,從低到高分別是:感知、決策(包括發現規律和解決問題)、反饋。我覺得這個理論框架可以用來分析AI在任何領域的實際應用,基於此,醫療領域的AI應用就可以分別對應成以下四個:
nnnn第一個:感覺認知。現階段商業化走在前面的醫療AI項目,以感覺認知這一類為主。他們的主要功能是對臨床的各類影像、檢查數據、病例等等進行識別和分析,比如B超中的胎兒是否健康,血液檢測結果是否正常,某個病理是良性還是惡性。目前有一個共識就是,只要經過一定數量的數據訓練,電腦在這種簡單數據源的診斷正確率上,會遠高於普通醫生。
第二個:發現規律。對於某些臨床病人,有經驗的醫生通常能大致判斷出其發展和轉歸,但判斷的路徑都是比較模糊的,於是就導致他們無法將這種寶貴的經驗有效傳遞給別的醫生,新手掌握相同水平的技能需要摸索很長時間。對於這種在複雜因果中抽象出規律並作出預測的能力,AI已經有所斬獲:佛羅里達州立大學心理學研究員傑西卡·里貝羅(Jessica Ribeiro)用AI預測2年的自殺傾向,準確率高達80%-90%。該方法在越接近某人的可能自殺日期時還會變得更加準確。當AI有了這個能力後,發現自殺傾向的這個原本說不清的「經驗」,讓其他醫生以極低成本直接採用就成為了可能,而且使用越多準確率越高。
圖4 普渡大學科學家研究出可預測急性骨髓性白血病病情發展的AI程序同樣道理,下一步AI就可以發現糖尿病人視網膜病變的規律、心血管病人猝死的規律,為醫生診療提供更有價值的信息。而且,AI能夠應用於新葯的研發,也是基於它可以發現規律的能力,那關於AI如何在這個過程中發揮作用,我會在後面的分享中進行說明。
第三個:輔助決策。這是IBM的「沃森」醫生想做的事情,即從大量的病例、指南等中去找出最符合一個病人的診斷和治療方案,給醫生做輔助決策參考。關於沃森的情況,我會在下個部分進行詳細的介紹,這裡先不做贅述。
nnnnnn第四個:反饋執行。如果有了感知,可以發現規律並進行決策,再配上各種各樣的機械和其他東西,那就意味著AI能夠進行執行層面,自主地把任務給完成。在醫療上,最主要的「執行」就是手術和給葯。手術的話,隨著達芬奇手術機器人應用的逐步普及,其積累的數據達到一定級別之後,人工智慧指揮達芬奇做手術是可以預期的,當然,還是需要有醫生監督並且在必要時接手。至於用藥,比如糖尿病人使用胰島素,完全可以根據即時血糖和其他情況進行即時動態輸注,高效便捷。不過,這部分的應用因為受制於硬體的水平,只能一點一點地突破。
圖5 達芬奇外科手術系統nnnnnn
醫療AI的未來雖然美好,但在商業上的落地大部分仍在摸索之中,到目前為止,IBM的沃森醫生應該是所有醫療AI中,商業化走的最遠的一個,接下來,我就詳細地介紹一下它的情況。
nnnnnn沃森到底是什麼?在學術定義上,它是一種認知計算系統,通過集成大規模並行 POWER? 處理器和nDeepQAn技術(翻譯成中文就是「深度開放域問答系統工程」),實現複雜分析。通俗地理解,沃森就是一種深度問答系統,基於已有知識的輸入,再加上其自身的推理能力、基於證據的學習能力,實現高效、快速、精準的答案生成或是方案推薦。
圖6 IBM watson藍色基因/Q 超級計算機nnnnnn沃森的應用範圍很廣,但是在醫療領域的表現最為突出,IBM為此投入了大量的資源並進行了一系列的商業化運作。據統計,沃森醫生已累積有1.5萬小時左右的在線登錄時長,訓練所用的數據涵蓋醫學教科書、期刊、專著以及來自頂級醫療機構的臨床資料,如紀念斯隆?凱特林癌症研究中心、紐約基因組研究中心等等。沃森醫生在2年的時間之內(約1.5萬小時)就達到了非常高的認知水平,相比之下,正常臨床醫學生僅學校培養就需要8年,效率上的差異還是比較明顯。
nnnnnn為了讓沃森醫生能夠快速成長,IBM也開啟了「買買買」模式,從2015到2016年,先後收購了Explorys(基於雲技術的數據分析公司,可以查看5000萬份美國患者的病例)、Phytel(把雲計算應用於健康護理的公司)、Merge Healthcare(醫療影像與臨床系統提供商)以及Truven Health Analytics(醫療和健康數據公司)。目前,包括Truven在內的幾家大數據公司,已經開始為IBM創收。
nnnnnnnn在沃森醫生持續提升「業務水平」的同時,它也開始陸續進駐多個國家的醫院,投身於實際的臨床診療過程中去。去年8月,IBM宣布與杭州認知網路科技有限公司展開合作,由後者負責Watsonnfor Oncology(即沃森腫瘤專家)在中國的本土化,輔助醫生在具體的臨床實踐中制定個性化腫瘤解決方案。
nnnnnn首批進駐的醫院共有21家,他們分別是:中山大學附屬腫瘤防治中心、中國醫科大學附屬第四醫院、無錫市人民醫院、浙江省中醫院、天津第三中心醫院、復旦大學附屬腫瘤醫院、宣武醫院、上海市浦南醫院、廣州市婦女兒童醫療中心、廣州番禺何賢醫院、廣州番禺中心醫院、廣東省中醫院、廣州軍區廣州總醫院、廣州中醫藥大學第一附屬醫院、廈門大學附屬中山醫院、福州市第二醫院、福建省立醫院、寧波市第四醫院、大連大學附屬中山醫院、昆明醫科大學第二附屬醫院、浙江省立同德醫院。
nnnnnn那麼沃森在醫院是如何給人看病的呢?首先,它會從患者的病例中提取關鍵詞,迅速掌握患者的信息後,就開始在海量的數據中篩選出最為行之有效的且最符合患者自身情況的治療方案,這個過程大概只需要10秒。然後,它會把治療方案清晰全面地呈現出來,診療建議按可信度大小排列,供醫生選擇,其中綠色代表建議,橙色為可以考慮,紅色則是不推薦。在醫生選擇了某個治療方案後,它還會給出詳細數據,包括採用此方案的病例數、生存率、不良反應發生率等,幫助醫生總體評估該方案的療效及風險。下面這張圖就是沃森的界面。
圖7 IBM watson 界面實拍圖
面對中國這個競爭日益激烈的醫療AI市場,沃森入華的腳步也越發緊急。今年3月,IBM又與百洋醫藥集團達成合作,集團旗下的百洋智能科技獲得了沃森腫瘤專家在中國市場三年代分銷權,目標是要加速推進沃森在本土醫療機構的落地,儘快把攤子鋪開。其實,對於沃森而言,成功獲得足夠的中國醫療機構的病例病史數據,並進行循環的認知計算訓練,是其完成中國市場本土化最為關鍵的步驟。這個「足夠」是指數量上的多以及數據類型的多樣性(包括病種和地域性)。所以我相信,這將是未來一段時間內,IBM選擇合作夥伴最看重的要素。nnnnnn
最後,我想回到自己的老本行,來說一下AI在藥物研發領域的應用。新葯研發是一個漫長而低效的過程,通常來講會經歷兩個大的階段:1)臨床前化合物的挖掘和篩選 2)四期臨床試驗。
圖8 藥物發現過程概覽圖 nnnnnn四期臨床試驗大家可能都比較熟悉了,其實臨床前的階段也是相當複雜。首先要研究致病機理,確認靶標,進行結構解析,設計體外實驗模型,篩選尋找苗頭化合物。然後在苗頭化合物的基礎上,進行初期的驗證性實驗,進而優選幾個系列的化合物作為先導化合物,進行構效關係研究。這期間平均每個項目需要合成5000-10000個化合物,並且需要藥理專家、毒理專家、製劑專家等緊密配合,進行各種性質測試、PK/PD及毒性測試。之後,通過測試—修改結構—再測試—再修改結構的路徑,持續地改進性質,使得一個小分子可以儘可能地滿足成藥性的需求,成為臨床前化合物。
nnnnnn換個簡單點兒的說法就是,在臨床前的階段,我們需要在自然界無數種物質中找到一種能治療某種特定疾病的物質。這種尋找具有極強的偶然性,因此,科學家們只能通過無限擴大篩選對象的方式,來達到邂逅目標分子的目的。目前,被普遍採用的篩選方式是高通量篩選,即HTS,不過它的成本十分昂貴,相比之下,AI則大概率會成為更有效率和效果的方式。我在前面有提到,AI擁有在複雜因果中抽象出規律的能力,基於此,AI就可以對藥物活性、安全性和副作用進行預測,提高化合物篩選的速度和成功率,進而縮短新葯的研發周期,降低研發成本。
nnnnnn道理如此,那實際效果究竟如何呢?在篩選化合物這件事情上,AI到底能節省多少時間呢?現在雖然還沒有明確的統計數據,但有一個真實發生的對照實驗可以供大家參考:有兩個團隊同時做一個靶標,A隊用傳統的藥物研發方法,B隊則借用一些計算機的輔助工具(還沒有智能到AI的程度)。實驗的結果是,B隊用一年的時間就完成了任務,而A隊大約花費了3年。由此可以推斷,如果使用AI,那麼效率的提升會更明顯。所以說,結合醫藥研發周期長、產出低、投入大的特點,用AI來研發藥物的前景還是非常可期的,新葯研發這些年來「15年15億美金」的「魔咒」有望打破。
nnnnnn但同時我也要說,有些痛點AI能解決,還有一些部分,AI能夠干預的程度就比較少了,比如臨床試驗。因為整個生物系統實在太過複雜,它的全部數據量都還沒有被完全發掘出來,更別說讓去AI理解了。而且,臨床試驗是試驗性學科,比如隨機雙盲對照實驗,很多實驗要求是定死的,其周期基本隨試驗進度而定,AI也很難發揮其快速大量的數據處理能力的優勢。
nnnnnnnn還有一點值得注意的是,雖然國內用AI研發藥物的熱度很高,但我覺得未來幾年內AI能夠帶來的改變比較少。因為我們國家現階段以做仿製葯為主,不需要自己去做臨床前化合物的挖掘和篩選,最多是做一些調整,後續的臨床試驗才是重頭戲。在這種情況下,如果在臨床前階段使用AI的話,無疑像用高射炮打蚊子。所以目前,這種基於AI的全新葯研模式國內幾乎沒有公司在做,只有國外的一些商業案例。我粗略地統計了一下,共有十家公司(我的回答人工智慧、中醫、現代醫學相關基礎科學(物理、化學、生物)技術之間有沒有結合的可能,或者說具體案例?里只列了4家,這裡做了更多補充),關於它們的簡單介紹我會放在文末,供大家參考。
nnnn
以上是我自己的一點思考和見解,歡迎大家提問,共同探討。
nnnnnn附錄-使用AI進行藥物研發的公司名單
nnnn1)BenevolentAI
nn這家公司目前是世界上AI藥物研發公司中的「獨角獸」,已融資超過1億美元,是歐洲最大的AI初創公司,而在世界上所有AI相關的初創企業中排名前五,公司目前估值17.8億美元。該公司現任CEO,Jackie Hunter教授是一位同時擁有豐富學術界和工業界經驗的生物醫藥領域專家,曾在多加世界級葯企如GSK,nProximagen,OI PharmanPartners等擔任高管職務。Benevolent AI希望能夠利用AI和機器學習的技術對科學數據進行深度挖掘,並迅速產生和驗證新的科學假說,這樣一前所未有的規模和速度對人體生物系統進行深度理解,進而加快基於此的藥物研發速度。公司的核心技術叫JACS(JudgmentnAugmented Cognition System,判斷增強認知系統)的系統,該公司目前與多家機構有藥物研發的合作,如強生公司,MRC Technology等。自2013年以來,該公司已開發出近24個臨床候選藥物,有的已經進入臨床IIb期。
nnnn2)Atomwise
nnAtomwise成立於2012年,是著名的高科技孵化器Y Combinator 的項目,已籌集了600多萬美元種子資金。它藉助IBM藍色基因/Q超級計算機,應用人工智慧和專用演算法預測活性藥物分子,藥物研發的資金成本和時間成本幾乎是所有行業中首屈一指的。目前Atomwise宣稱在一周之內找到了兩種或許能抗擊埃博拉病毒的候選藥物,成本不超過1000美元。此外,他們正與一些葯企如Merck、 Autodesk等進行一些保密項目,也與知名科研院校如Scripps,Stanford進行一些學術研究項目。根據其公開的信息,該公司主要還是基於分子對接技術發現新的活性化合物,從公司的創始人信息中也能發現:CEO Dr.nAbraham Heifets是搞高性能計算的,CTO Dr. IzharnWallach是搞CADD分子對接的,所以可以猜測這個系統主要還是基於對接技術發現已知靶標的潛在候選藥物。
nnnn3)InsiliconMedicine
nn該公司成立於2014年,位於約翰霍普金斯大學,目前它主要還是學術研究為主,大量的學術合作一年內催生了50多篇相關領域學術論文,去年他們還在Oncotarget雜誌上發表了最新的基於神經網路科學前沿方法——生成對抗網路(GAN)的藥物分子發現系統的研究成果。在剛過去的5月10號英偉達圖像技術大會(NVIDA GraphicsnTechnology Conference)上,InsiliconMedicine已經公開了它們這一出色成果。其主要的商業模式還是基於科學服務的形式,為大葯企和學術機構提供技術諮詢以及項目合作。目前,該公司主要專註於抗衰老領域以及上市藥物的重定向,已籌集到了近千萬美元的資金,與Novartis、BIOTIME等公司有合作項目。
nnnn4)TwoXAR
nn
位於加州的帕洛阿爾托的TwoXAR成立於2014年,有意思的是公司創始人都叫Andrew Radin,目前共籌集到340萬美元的資金。2017年1月23日,其與Santen製藥宣布戰略合作,共同進行青光眼的藥物發現和研發。該公司更多是基於藥物-疾病模型進行預測,與基於靶標的藥物發現還是有本質的區別,不過共同點都是基於海量的大數據。
nnnn5)Berg Health
nn該公司成立於2006年,致力於利用蛋白組學、代謝組學、生物信息學等方法組建健康和患病人群的疾病網路圖,有點類似網路藥理學和系統生物學的方法,通過這種形式對細胞內的基因、蛋白、代謝物等進行標識,以此為數據節點,形成數以萬億計的代謝網路樞紐圖,通過比較兩者的不同之處,識別出重要的、新的疾病靶點,進而開發出新葯。公司目前主要有兩款候選藥物處於臨床階段:BPM31510和BPM31543,其中BPM31510作為單葯治療已經在局部鱗狀細胞癌治療中處於臨床二期末期階段了,BPM31543用於治療局部脫髮,目前處於臨床一期的後期階段,進行安全和耐受性測試。
nnnn6)CloudnPharmaceuticals
nn該公司成立於2009年,是一家基於雲計算的藥物設計和發現公司,主要致力於臨床前的全新候選化合物發現工作。其業務模式中有三個突出特點:其一是應用全新的所謂「量子分子設計」方法實現化合物從頭設計,探索更大的化合物空間,實現候選化合物的新穎性;其二是應用多種計算化學手段如MD、QM/MM、FEP、LIE等綜合評價化合物與靶標的親和力;其三就是可以在篩選時應用多種過濾條件,實現對化合物成藥性、水溶性、易合成性等多種性質的控制,得到理想的臨床候選化合物。目前共有18個靶標項目與其他公司合作中,具體進展情況尚未披露。
nnnn7)Numerate
nn該公司成立於2007年,與Cloud差不多也是一家先導化合物發現公司,不過其採用的方法完全與之相反。它們無需靶標的晶體結構,而是基於有限的SAR(構效關係)數據和一些文獻專利中的已有各種生物表徵數據綜合起來,利用機器學習建立一個綜合的大模型,再用這個模型對上萬億的超大型化合物庫進行「虛擬篩選」,這個虛擬篩選有別於傳統的基於結構的虛擬篩選,它是綜合了各種連續和非連續數據、細胞數據和體外數據等多種指標的篩選,最終達到能篩選出真正有效的先導化合物的目的。
nnnnnn8)Recursion Pharmaceuticals
nn該公司成立於2013年鹽湖城,目前已籌集到1535萬美元資金。它們並不是採用傳統的、低效的研究某種疾病相關的分子靶標的方法進行藥物研發,而是採用高通量生物測試、細胞成像結合計算機視覺(computer vision)等AI方法進行並行的藥物發現。通過計算機視覺的方法它們可以同時觀察健康細胞和疾病細胞的多達1000種以上的特徵,進而確定疾病細胞在暴露於藥物分子後是否發生好轉。目前它們跟賽諾菲進行的合作項目已經有一個候選化合物進入臨床階段。
nnnn9)NuMedii
nn
該公司成立於2008年,目前已籌集到550萬美元資金意圖將數以億萬計的人體生物學、病理學和臨床相關大數據轉化為臨床候選化合物。公司數據主要來源於斯坦福大學,數據已經經過標準化和注釋,即是可用的機器學習數據。數據的標準化對於AI公司來說是一大難題,在這方面NuMedii已經是走在行業前端了。公司主要專註於已上市藥物的重定向治療其他疾病,這與Insilico Medicine的模式很像。
nnnn10)Verge Genomics
nn該公司的兩位創始人創立公司時還處於博士生階段,然而目前已經募集到了400萬美元的種子資金。公司主要致力於神經退行性疾病藥物的研究,主要依據是人體基因組的數據,因為很多複雜疾病比如神經退行性疾病都是多基因疾病,很難通過目前單靶點藥物治療得到有效康復,因此利用公司發展驗證的網路演算法對人體的基因組信息進行深度挖掘,試圖從那些FDA批准的專利已經過期的藥物中尋找到神經退行性疾病的治療藥物。
推薦閱讀:
※阿里雲前端周刊 - 第 16 期
※如何評價彩雲小譯?
※如何打造支持千億維特徵的機器學習基礎架構平台?
※機器學習進階筆記之八 | TensorFlow與中文手寫漢字識別