清華兩名博士從1萬名數據科學家中脫穎而出,獲得癌症檢測演算法頭名 ‖ 附冠軍團隊代碼

最近,近一萬名數據科學家在數據科學方面參與開發機器學習演算法,可以更精確地通過CT掃描檢測癌變病變

數據科學家正在使用機器學習來解決肺癌的檢測。從1月份開始,世界各地近1萬名數據科學家在Kaggle上競爭開發最有效的演算法,幫助醫療專業人員更早地準確地檢測肺癌。

2010年,國家肺癌篩查試驗顯示,使用低劑量計算機斷層掃描(CT)進行年度篩查,讓計算機處理X光篇產生高對比度3D圖像,可以減少肺部癌症死亡人數達20%。然而早期檢測與更傳統的X光片相比,該技術也導致了相對較高的誤報率。

來自NCI的匿名高解析度肺掃描

機器學習公司Kaggle的首席執行官Anthony Goldbloom說:「這是一個非常強大的方法,可以將癌症死亡率降低20%,但是誤報率非常高。」

所以對於今年的數據科學競賽,Kaggle與合作方Booz Allen 決定引導數據科學和機器學習的能量來解決誤報問題。合作方獲得了由勞拉和約翰·阿諾德基金會資助的100萬美元的獎金,分為前十名參賽選手。

數據科學為社會做好事

Booz Allen高級副總裁兼首席數據科學家Josh Sullivan說,Booz Allen和Kaggle在2015年創建了數據科學競賽,努力將數據科學家重點放在社會上。

他說:「我們想創造出一些讓人們聚集在一起為社會做出貢獻的東西。」

我們如何為社會福利做一些實質的事情?我們希望它能夠讓科學進步,對公眾開放,雖然不利於我們的利益或客戶的利益,但開源會讓更多人受益。

Sullivan說,為了第三屆年度數據科學競賽(以前的數據科學競賽專註於確定海洋健康和檢測心臟病的演算法),提交了300多個方案。最終他決定幫助美國國家癌症研究所(NCI)與拜登癌症月刊商討,努力加速癌症研究,為更多的患者提供更多的治療方案,並改善癌症預防和早期檢測。

NCI為數據科學競賽提供了2000個匿名的高解析度CT掃描,每個圖像包含千兆位元組的數據。Sullivan說,1500個圖像是訓練集,伴隨著最終的診斷。剩下的500張圖像是問題集。使用訓練集,競爭對手的機器學習演算法必須學會如何正確地確定其餘500幅圖像中肺部病變是否癌變。根據正確診斷的百分比對演算法進行評分。

數據已在Kaggle平台上傳。谷歌在3月份收購的Kaggle由Goldbloom於2010年成立,專門負責預測建模和分析競賽。公司和研究人員發布數據,使數據科學家能夠競爭生產最好的模型。該公司擁有成千上萬的跨越近200個國家的註冊用戶。

在這場比賽中,Kagglers是卷積神經網路(CNN)的專家,這是一種由生物體內視覺機制啟發的深層學習神經網路。雖然CNN對許多不同類型的問題很有用,但CNN擅長計算機視覺問題。在以前的Kaggle比賽中,Kagglers競爭創建基於CNN的演算法,可以在社交媒體上區分狗和貓的圖片。

Goldbloom說:「這個數據很新奇,NCI提供的CT圖像「。它真的把卷積神經網路推向了前所未有的高度,因為數據集的大小,醫療數據集總面臨挑戰,互聯網上有多少貓和狗的圖像呢?圖像收集都非常昂貴,CT掃描數據更少。

而Goldbloom解釋說,CNNs很容易出現稱為「過度擬合」的效應,統計模型傾向於描述雜訊而不是基本關係,因為相對於觀測次數參數太多。

Goldbloom說:「構建不過分的卷積神經網路是困難的,數據集越小越難。「這真的是技術活,它必須在相對較少量的圖像上進行泛化。」

近10,000名Kagglers參加了數據科學碗。他們總共花了15萬多小時,提交了近18,000個演算法。許多放射科醫師在Kaggle的論壇上自願提供專業知識,幫助競爭對手完善工作。

數據科學碗獲勝者

最終,中國清華大學的兩位研究人員廖方舟和李哲獲得第一名。荷蘭的軟體和機器學習工程師Julian de Wit和Daniel Hammack取得了第二名。由位於荷蘭的公司工作的成員組成的團隊Aidence佔據了第三名。

Sullivan說:「NIH [美國國立衛生研究院] 將最終與FDA [美國] 食品和藥物管理局合作,並希望能夠管理這些數據,以便他們可以進入實際閱讀這些CT掃描的軟體。這是我們試圖推動的最大回報。」

他指出,他希望NIH和FDA能夠查看一些頂級演算法。頂級隊伍的得分相差不到百分之幾,有的可能會帶來更多的技術可能性。

Kaggle競賽地址:

kaggle.com/c/data-scien

第一名團隊代碼:

github.com/lfz/DSB2017


推薦閱讀:

大數據還能火多久?
ECE博士如何轉行做機器學習?
美國大學讓人工智慧擔任助教 學生未察覺|數據科學簡報(5.23)
數據科學家、數據工程師和軟體工程師之間的區別
數據分析師和數據科學家有何區別?

TAG:Kaggle | 数据科学家 | 癌症 |