IBM 沃森:被辜負的期望
來自專欄 DeepTech深科技24 人贊了文章
太完美以至於顯得不真實?嗯……那它可能不是真實的。
IBM 沃森如今就面臨如此窘境。這款人工智慧的技術在臨床上曾被大範圍推廣,被用於輔助醫生進行理想癌症方案的選擇。
然而,許多其推薦的癌症治療方案被證明並不可靠。來自 STAT 的最新報道表示,沃森應用於臨床,目前時機尚未成熟。STAT 獲取了 IBM 的內部資料,顯示在沃森向全球的醫院和醫生大力推廣其超級電腦的同時,公司內部收到了來自專家和客戶的舉報,稱多個案例表明「沃森做出了不安全或不正確的治療推薦」。
這項報告無疑給腫瘤學家在像沃森尋求幫助時增添了些許猶豫。
新的生物標記和變異層出不窮,而眼花繚亂的新治療方案噴涌而至。這樣的現狀下,抉擇出最佳的癌症方案需要大量的時間。而沃森卻在其中顯示出了強勁的勢頭。最近的一個報道稱,這個超級電腦顯著的加快了分析全基因組的速度,相比於一隊專家要花費平均 160 小時的分析,沃森只需要 10 分鐘便能得出結論——這突破了基因組分析的瓶頸時長。
(圖源:麻省理工科技評論)
然而在現實的應用中,沃森還有很大的差距。一部分原因來源於訓練集的選擇上。IBM 的內部文件把責任怪罪於來自紐約市斯隆卡特靈癌症中心的工程師和腫瘤專家們,這些專家自 2012 年起就被委任進行沃森的訓練工作。數據並非來自於真實的病例,而是冗雜了合成病例和假想的病例。因此,沃森的訓練過程建立在部分專家有局限的認知和特定種類的癌症上,而非指南或真實世界證據。
然而,IBM 網站上卻依然顯示著沃森在持續利用真實病人數據做訓練:「來自於歷史上數千個真實案例和斯隆卡特零癌症中心專家們貢獻的數千小時。」然而,從肺癌的 635 個病例至卵巢癌的 106 個案例,沃森涵蓋的 8 種癌症實際上被訓練的數據很少。
華爾街日報也發表了相似的意見。在很多個案例中,沃森並沒有給醫生帶來很多幫助,而有些案例中,沃森給出的結果甚至是錯誤的。除了訓練集的不足外,另一個造成這種差距的原因是沃森的更新趕不上治療方案改良的速度,因為它無法獲得最新方案治療的病例,而是被迫周旋於陳舊的病例。同時,至今沒有發表的研究顯示沃森能夠改進病人的預後。
沃森基因進入了多個美國癌症中心,但根據華爾街日報,幾個中心的多位醫生表示,沃森的結果並不準確,而即使準確,也並不能增加醫生的進一步見解。
(圖源:麻省理工科技評論)
「我的問題在於——並且我相信其他人也存在這樣的問題——就是你永遠也不會知道通過這個工具,你會得到的是什麼……你不知道該對它投入多少信心。」Lukas Wartman,華盛頓大學的麥克唐納基因組研究中心的醫生表示。他說即使他在醫院有免費的訪問權,他也很少用。
IBM 的回應
IBM 官方聲明不認可這種觀點。公司尤其針對華爾街日報的文章作出了回應。
IBM 官網發表了一篇名為「沃森健康:客觀的談談問題」的文章,由 IBM 的副總裁,負責認知方案和 IBM 研究部門的醫學博士 Jone E. Kelly III 所撰寫。他對於文章中提到的 IBM 作為人工智慧領先產品,並未對醫療領域的進步作出足夠的貢獻表示反對。
「正如同文章所講,我們確實讓 IBM 在健康領域下了一個很大的賭注。」Kelly 寫到。他說 IBM 之所以這麼做有兩個原因:「人工智慧能在解決醫療問題和健康產業發展上做出很大的變革,」他還提到「隨著人工智慧的發展,極大的商業機會將誕生。」Kelly 尤其列舉出,IBM 研發了三個不同的癌症工具:
沃森腫瘤,輔助腫瘤醫生提供額外的治療建議;
沃森臨床試驗匹配,幫助病人匹配到疾病相關的臨床試驗;沃森基因,利用基因測序技術為癌症病人設置個體化治療方案。
「加起來,沃森在全球 230 家醫院和醫療機構投入使用,沃森幫助的病人在本年度上半年幾乎翻倍,達到了 84000 人,」他寫到。
對於報道中提到的沃森對病人無益,Kelly 也進行了申辯。「華爾街日報能發出這樣的言論,是在忽視全球一定數量的醫生和機構已公開的正面評論——並且我相信這些評論出自本心。」以下是 Kelly 列舉的表示認可的評論:
梅奧診所的醫生在美國臨床腫瘤協會年會上展示了一張海報,報告了沃森臨床試驗匹配在投入使用的 18 個月期間,為乳腺癌臨床試驗提升了 80% 的參與度,從 3.5 個病人/月達到了 6.3 個病人/月。
Thaddeus Beck,阿肯色州的高原腫瘤組的醫生,報告了沃森臨床試驗匹配降低了 78% 臨床試驗的匹配時間。Mark Kris,斯隆凱特琳癌症紀念中心的腫瘤學家,幫助沃森實現了 13 種癌症的訓練,癌症種類涵蓋全球發病率和患病率的 80% 的癌症。S.P. Somashekhar,印度曼尼帕大學的醫生,在今年早期的腫瘤學年鑒賞報告了沃森在診斷乳腺癌上 93% 的準確性。他最近聲明,其多學科腫瘤委員會在多種疑難雜症的案例中應用沃森腫瘤,並在 9%-11% 的案例中採用了沃森腫瘤給出的建議。Michael Kelly,退伍軍人事務部最近延續了與沃森基因的合約。因此目前為止,將近 3000 名患 IV 期癌症的退伍老兵因此技術而獲益。
William Kim,北卡羅來納大學萊茵伯格癌症中心的醫學博士,報告了沃森基因在 32% 的病人中發現了新的、有實際價值的變異。
腫瘤學家的困境
那麼,腫瘤學家應該如何面對超級電腦提供的額外信息呢?
對於這個問題,Nigam Shah,斯坦福大學生物醫學數據科學系的副教授表示,如果沃森系統的訓練不是採用了真實的數據,那麼這個問題就沒什麼值得爭論的。
「如果我是一個腫瘤學家,我希望能夠機器和醫生做出醫療干預時效果至少是相同的,這可以用預先設計的實驗來判斷。」Shah 告訴 Medscape 醫療新聞。
舉個例子來說明,他建議可以先讓電腦跑一遍一個醫療中心所具有的所有真實病例,再與醫生所給出的治療方案做對比。如果實驗證明沃森給出的方案具備足夠的安全性,那麼證明沃森可以投入臨床使用——但這只是第一步。下一步,我們再採用隨機試驗來判斷採用沃森方案的預後,和醫生相比,是否效果更好。
但是,他反覆重申道,如果現在他是一個在職臨床醫生,「我會屏蔽所有噪音,等有實在證據,來判斷沃森好壞再做出決定。」
Shah 補充道,IBM 沃森應該明確公開用做訓練集的數據。「任何人工智慧系統的好壞都離不開數據集,」他解釋道。「如果一個系統是依靠小部分醫生決定的帶有局限的理想化數據,那麼對外宣傳訓練集來自斯隆凱特靈癌症紀念中心的真實數據是非常不負責任的行為。」
與此同時,Michael Hogarth 是加州大學的一名生物信息教授,他說即使他不是一名法律專家,他也確信在人工智慧系統使用過程中,系統的使用者應該對後果負全責,而系統本身不應負法律責任。
「這和一名醫生一句教科書做出了錯誤的診斷沒有區別,」他解釋道。「最終,醫生永遠是那個負責的人,他們不能把自己的錯誤怪罪到一台電腦、一篇文章或一本書身上。」
Hogarth 注意到,在起初 IBM 聲明沃森可以提升腫瘤專家的決策時,他和其他衛生信息學家們就表示懷疑。本質上,沃森要幫助的是具備一定專業性的中高級醫生,比如說腫瘤學家是該領域的專家,一些人甚至為「超級專家」,專門精通腫瘤學中的特定病情。這樣的專家在健康領域中非常常見——但事實上,更多的報道見於這種臨床輔助工具只對非專家者提供了幫助,後者包括全科醫生、家庭醫生等。
「當一個醫生越傾向於「全科」時,關注於特定領域的輔助工具——比如說沃森腫瘤,越有可能提供給醫生他們不了解的信息,」Hogarth 解釋道。「但是,對於專家來講,患者的全身病情中的『雜音』對於醫生做出診斷的干擾越少,醫生越能做出更精確的診斷,因為他們不需要顧及其專業領域之外的狀況。」
Hogarth 補充道,最令人擔憂的事情是隨著機器學習的熱度上漲,越來越多的這類軟體被用於人們的「枕邊診療」,病人在家中不通過醫生,而是通過未經檢驗的應用草率得出結論。「重點在於確認這些工具的安全性,」他強調。「很多工具的數據集來自於電子記錄,在這其中很多數據是不完善的,因為病人在多家、或許質量層次不齊的醫院接受過診治,而沒有一家醫院有病人完備的檔案。」
(圖源:麻省理工科技評論)
人們逐漸開始討論針對機器學習程序進行安全性確認一事。「討論前根本問題應放在,是否應該把這類工具規範為醫療設備,」Hogarth 說。
同時,另一位專家表明沃森的數據集來源也同樣值得人們注意。「鑒於完全是由斯隆凱特靈癌症紀念中心的醫生們在訓練沃森,沃森接受的數據和真實規範的治療方案相比可能含有巨大的偏差,」David H. Gorski,韋恩州立大學醫學院的乳腺外科醫生表示。
「這提示著,沃森在診斷上可能出現偏差,因為每一個醫生再做出治療方案上,都多多少少帶有個人的習慣和趨向,這也是為什麼不同的醫生會對同一病情有所爭執。」他補充道,這也是一個更廣闊的訓練平台的重要性。「最終,沃森只是一個工具,它有所有醫學設備都具備的一定瑕疵,使用的醫生應該被告知如何把瑕疵考量在內。」
「如果一個醫生時刻記得它的工具性,並不畏懼否定它的結論,那麼潛在層面,它的安全性一定可以保障,」Gorski 說。
實際尚未成熟
STAT 在 2017 年九月發布了針對沃森的問題。報告稱沃森「還在第一步——鑒別癌症的種類中艱難著。只有為數不多的幾家醫院採用了沃森系統,這離 IBM 要佔有數億美元的市場的目標遙不可及。」
文章中提供了多方利益相關者的觀點,包括醫生、IBM 執行方和人工智慧專家。報告也評估了沃森全球範圍內的使用、市場和醫院內表現。採訪展示了這樣的局面「IBM,為了支撐著其萎靡不振的收入,在未做好全面的風險評估下就慌忙的把產品投向市場,」作為結果,「太多瑕疵暴露在專業的醫生和研究者面前,讓後兩者表示整個產品很不成熟,即使它在某些方面具有一定革新性。」
「沃森腫瘤還在蹣跚學步期,我們不應放棄它,而是應該等待並積极參与,希望能幫助它更健康的成熟,」Taewoo Kang 是一位韓國的腫瘤專家,他本人也是沃森的使用者。
今年早期,IBM 確認了公司的入不敷出,但是否認了健康部門裁員 50%-70% 一說。IBM 並未公布其實際的裁員數。
「IBM 依然在重新調整部門架構,希望能著重關注 IT 市場高價值的前沿科技,我們也在持續的招募關鍵領域的人才,希望能為我們的客戶創造價值。隨著公司持續以科技為導向,簡化流程,前兩者會自動的驅動發展,公司目前的停滯只會讓小部分員工受影響。」IBM 在今年早期發表聲明。
Hogarth 在一次訪談中表示:「我理解 IBM 對很多科技人員進行了裁員,因為我認為 IBM 發現事情並非他們想像的那麼容易。實際的決策制定並非兒戲……它是很多因素的總和。」
Hogarth 認為如果 IBM 當初設立了一個更現實的計劃,它可能會達成它。IBM 對沃森健康的期望太高,這可能會導致公司用錯了力。「他們或許應該把沃森的定位放在輔助全科醫生、家庭醫生或者其他中低級醫生上,或者幫助那些疑難雜症的患者——而非試圖讓機器和腫瘤專家平起平坐,」他說。「只有這樣,沃森這樣的機器才能在目前提供潛在價值。」
IBM 最近報道稱其會考慮沃森軟體使用時的地域差異。沃森腫瘤在亞洲有最大的市場,目前應用沃森的醫院大多位於美國外。一些醫生抱怨,沃森的診斷並不符合當地的指南,並表達了對於美國中心主義的不滿。
在一個沃森健康內部的全球員工大會上,IBM 宣布它將首次開始使用真實病人數據,這個數據的使用會使沃森提供更全面細緻的診斷方案。
參考推薦閱讀: