標籤:

治療癌症的有效解藥--基因數據

編者按:

加強醫療衛生方面的數字基礎建設,通過大量基因數據的支持和分析預測,越來越多的患者會受到更加人性化的檢查和治療,癌症不再那麼可怕,也將有可治癒的一天。

原文:Mark Warren

翻譯:耿珺

編輯:Yvette Niu

幾年前,Eric Schadt遇到了一個患癌症的女人。那種極具攻擊性的大腸癌迅速出現並轉移到了她的肝臟。這個女人是一位密西西比出身的戰爭遺孀;她是兩個女孩子的單身母親;她只有來自丈夫死亡撫恤金的醫療保險:一個軍事醫院中疲於重負的腫瘤醫生——醫保階梯中的最低級。

而這,與最尖端的醫藥截然相反。以處於第四階段轉移性癌症的狀態走入這所機構,就如同走入那個還未繪製人類基因組地圖的舊世界。那個以為大腸癌只有一種病因,而非上百萬種原因造成的一種獨特變種的年代;那個治療方案是同一袋子藥物,無論你是在海泉、密西西比、或者延巴克圖的年代;那也是一個沒有大數據、機器學習、或者希望的年代。

Schadt不是一個癌症專科醫師,他甚至不是一位醫師。他只是一個數學家和一個分子與計算生物學的專家,而且他從未治療過任何病人。但是通過他在西奈的新研究所,Schadt可以針對這個女人的癌症生成太億節的數據,而這是傳統醫療環境的上千倍,希望能以此找到新的方法來對抗她的癌症。快結束的時候,Schadt坐在她的病床旁,心煩意亂。他們的關係變得更加親密了,但此時這個從來沒有診斷過病人的科學家,正注視著科學的野心與失敗的含義。這個女人於去年去世了。

坐在西奈山的桌子旁,Schadt直率又坦然。他今年51歲,到哪裡都穿著短袖的Polo衫和大短褲,即使是在正式活動或是紐約的冬天。這讓他有著一種不容置疑的、真正古怪的氣質,或者說像一個高中橄欖球教練。對於任何一個醫療研究人員而言,發表論文或者研究出新葯時更容易成名,人為因素對成果的影響在此時會被消除。然而生活在你的研究成果之下,並且親眼看著一個人在你面前慢慢地死去,「那是比我所有經歷過的都要深的一種謙卑,」 Schadt說道。

「我們正處於這個呈指數增長的弧線上,你的思想自然地向未來計劃,然後你會想:我們將會解它,」他說,「最終,我們將會知道這些細胞都在做什麼、這些擾動都在做什麼。而這謙卑的部分,就是當我們在這個增長曲線上時,不斷地被這逐漸顯現出的複雜性所震驚。」

但問題在於得到這上艾位元組的基因數據。因為你不可能隨便走到人們面前(上百萬那麼多)然後講,「請給我你的數據。」你必須先說服他們你只會用它來做好事兒,而且這數據不會落到不該得到它的人的手裡(我們的確珍愛自己的隱私)。你必須使他們確信這些收集數據的醫療中心和基因公司,相比為自身利益而私藏它,他們應該分享這數據,以便整個研究界可以得到規模經濟效益。這是Schadt和其他許多人相信這些對於理解疾病成因、設計新治療手段都是必要的。

現下而言,那麼大量的信息根本不可獲得。不過從科技巨頭到新型生物醫藥公司都在爭著解決如此規模的問題。而Schadt也想參與其中。

如果人類生物的複雜性可以與動畫片類比的話,那麼一百年前我們大概了解了這複雜性的一個像素那麼多。只有一個像素,你根本不知道這故事是什麼。但是當我們有了更多的像素,幾百或者幾千,或者換而言之,我們有所有像素中的百分之一,那麼模式和主題就開始顯現了。這是一個故事的開始。

這就是使Schadt為默克公司做了十年藥物研發後(默克公司中用於治療心臟病、糖尿病和肥胖症等疾病的一半代謝藥物,一度都是來源於Schadt的研究),於2011年建立Icahn Institute 的原因。面對基於疾病的單基因模型的大量假想和藥物研發,他開始相信基因並不單獨作用於疾病穿透我們天生的防禦系統,而是通過一個巨大的網路達成的,而我們只能通過那個幽深的生物信息學的洞來了解這些網路。為了探究他的複雜模型,Schadt帶著金融慈善家Carl Icahn的1.5億美金來到了西奈山,並且在地下室建造了一個名叫Minerva的超級計算機,用於分析西奈山每年收集到的上千基因組。他雇了很多數量分析專家,包括最初創建了Facebook數據團隊的Jeffrey Hammerbacher。 一位在醫學院深受尊敬的腫瘤學家說,「突然間所有這些數學書獃子們開始瞎跑一氣,對,就是那些看起來應該設計電子遊戲的人。」

沒用多久Schadt就意識到他需要一艘更大船。2014年,Icahn 學院與Sage Bionetwork成立了合資公司,試圖治療罕見的兒童疾病:——囊胞性纖維症、鐮狀細胞性貧血、家族黑蒙性痴獃等,一共170種。他們稱其為「復原項目」(Resilience Project),研究人員開始尋找攜帶此類疾病DNA變體、但因某些接種而沒有患病的人。在他們「復原個體」的搜尋過程中,Schadt和他的團隊積累了60萬人的基因資料庫,於是這個史上最大的基因研究開始進行,它的數據來源十分廣大(比較知名的有23andMe,北京基因研究中心,以及最負盛名的麻省理工和哈佛的Broad 學院)。

但是在這60萬之中,研究人員在潛在復原個體的基因中只找到了170種疾病中的8種。研究對象的範圍還是太小了。通過計算整個人口中誘發疾病突變的基因出現頻率,Schadt和他的團隊開始意識到,他們需要的研究對象的數量不是60萬,而是超過一千萬。相對「復原項目」的計算能力和看起來如此巨大的數據量,Schadt依然缺乏用於破解基因密碼的大量高質量病患信息。

「我們還需要100個西奈山醫院來達到我們想要的規模,可以認知患病者數據中的模式,而這些會指向診斷和治療方法,」 Schadt講道,「在我來到這裡的五年之中,我意識到這對醫療中心來講是不可能的。他們彼此之間太過獨立、太過注重競爭,而且他們沒有被綁在一條船上,而這條船就像其他行業的一樣會使這種進步成為可能。」由於主要的醫療中心壟斷了其病人數據,且沒有與他人在重大研究領域合作的經濟動機,「瓦解將會發生在醫療成就之外。」

而這就是Schadt想要通過成立他自己的基因數據公司Sema4,來建造的東西。這個以紐約為基礎的合資公司,將會專心收購併拓展那些專門從事基因測試(比如癌細胞載體篩選和無創產前測試)的公司,從而收集上百萬個人數據組。在Sema4的搜索平台上,醫生們可以快速接觸到世界範圍的基因組幫助他們診斷病患。製藥公司也會付費來使用這個系統,從而獲得臨床試驗人數的信息。對於科學家而言,他們現在的分析庫也會通過更加強力的計算機和機器學習演算法來擴張,以便最終得到足夠的基因數據,來運作他們雄心勃勃的研究。

儘管很大一部分科技巨頭開始合資於生命科學,而國立衛生研究院也正號召上百萬的志願者來建造自己的巨大的生物銀行,Schadt相信Sema4和其他類似新興公司才是最堅定地在獲取最佳基因數據規模,比如Craig Venter的Human Longevity和Patrick Soon-Shiong的Nant-Health就是其中的領頭公司。

這些公司將會與同行競爭,收集越來越多的高質量生物數據,而Sema4將會對全世界的學術醫學中心和非營利研究人員免費開放自己的基因圖書館,從而使自己在行業中變得顯眼。如果任何一家Sema4 的競爭對手需要從Schadt的人口數據的子設備中獲取信息,他們只要付費訪問Sema4的搜索平台就可以了。或者Sema4和其他公司可以合作,從而為像「復原項目」這樣的大手筆來彙集成更大的數據組。

然而,Schadt談到,數據的規模問題並不是所有公司匯總數據就可以解決的。「關鍵在於從病患那裡取得數據。」 根據他在西奈山的經驗,他看到近年來的突破在於贊同他想法的人增加了:讓一個醫生知道這些人在特定條件下的遺傳素質,是一件利大於弊的事情。他說當他在2011年剛去西奈山的時候,醫院每年只檢查幾千個基因樣本。而今年,他們可以檢查到15萬,這些數據大多來自於紐約的病患,Schadt在Sema4講道,「我們希望把它做到每年50萬到一百萬的樣本。」

這樣的增長將會在收購和拓展現有國內基因測試公司的情況下產生,這些公司現在彼此獨立,但Sema4將會把它們組成一個基因信息的大型網路,並由統一的安保和授權管理。

Schadt承認,讓一個人將自己的生物數據交給某個匿名企業並不是件簡單的事。即使上億國營和私營資金被用於現代化及保障現有數據網路,漏洞的存在依然是不可忽視的現實問題。在Sema4,病患會被詳細告知,他們的數據會被加密、匿名、然後抹去身份信息(除了加密密鑰)。即使有漏洞出現,個人身份被識別然後暴露的幾率依然非常低。

而知情同意書的問題也將影響數據收集的質量和數量,這份文件讓病人了解並認可他們將面對的事情、方法、原因以及經歷這一行為的時間。「現在有很多公司表明他們可以接觸到上百萬的病患記錄,」Schadt解釋道,「但是在我們想做的事的立場而言,這些數據是沒有意義的。它常常不準確、不完整,並且在系統間難以鏈接。

另外,那種數據並不常聯繫到DNA,或者DNA上生成的基因組數據。」 就拿「復原項目」來說,那不單單是資料庫太小,也因為60萬基因組是被眾多許可管理的。如果有重大發現,而那些成百上千的參與者們並不能再次被聯繫或追蹤到,那麼站在實踐研究的角度而言,這些數據將變得毫無用處。

如今,很多知情同意書被設計成儘可能快速且毫無內涵的形式,而不是做成讓研究人員可以更便捷地得到高質量的數據,這種做法實際上讓操作變得更困難。研究表明,當知情書上解釋得越多,最後就會得到越好的信息,因為當患者們認可並贊同研究目的的時候,他們會非常願意做後續測驗及面試。(這也使科研人員能夠長期跟蹤他們的健康狀況。)

在Sema4,Schadt運用了多階段信息運作,包括強制的、必須通過的小測驗,這樣患者們會清楚地了解他們做出了什麼許可。這雖然延長了患者的時間,但是Schadt相信,當越多患者了解,就會有越多人同意去分享他們的基因信息。

有了這個數字基礎建設,Schadt預見了這樣一個未來:越來越多的患者不僅願意分享他們的基因組信息,還有他們的醫療及生活方式的信息,而這些信息都是被像血糖儀、血壓跟蹤器、吸入器等設備收集的。最終的希望是這些越來越精細、越來越人性化的測試可以全面到能夠定期排列病患的微生物組、頻繁檢測他們的RNA、經常監控他們的血細胞,從而及時注意到任何問題的徵兆。

像西奈山這樣使用病患數據、在虛擬世界壟斷的醫療中心將會很快被抹去,研究人員最終將取得未來醫療數據需要的大量基因數據。「如果信息可以被更廣泛地獲得、推動整個星球的注意力來推動疾病模型改進,我們是不是就可以為人類做得更好?」Schadt問道。「毋庸置疑。」這是像數學一樣的醫學,不是臆測,而每一種疾病,即使是第四階段的癌症,也將有可治癒的一天。


推薦閱讀:

R語言實戰—04數據基本管理
安客誠成為阿里數據銀行首批認證服務商 助力數據營銷新生態
健身應用暴露了美軍秘密基位置

TAG:數據 |