谷歌跨界醫學新動作:基因突變定位模型又更!新!了!

谷歌跨界醫學新動作:基因突變定位模型又更!新!了!

來自專欄量子位

Root 編譯自 Google Research Blog

量子位 出品 | 公眾號 QbitAI

去年12月,谷歌大腦發布了快速找出基因突變位點的深度學習模型DeepVariant,用圖像識別的思路來精準定位出基因序列中突變的位點。

時隔5個月,谷歌大腦於今日再次更新Deepvariant,發布了0.6.0版本。

比起之前的第一版,新版在準確率上會有重大的提升。針對兩個典型的測序場景——全外顯子組測序,PCR,谷歌大腦團隊作出了特定的優化。下面介紹一下DeepVariant相應的訓練過程。

基因序列數據

一般來港,序列數據的種類多到眼花。

種類繁雜的原因有好幾個:

1)人體DNA的提取有不同的來源。唾液、血液、脫落的頭皮屑都OK;

2)DNA樣本的處理方法有好幾種;

3)DNA擴增的倍數可變;

4)DNA擴增的位置可選。

理論上,找到基因突變位點的工具可以根據特定的數據類型,進行微調。但即使時間不限,配上經驗豐富的專家來做這個微調的工作,也不可能做到每種數據類型都出一個與之匹配的工具。這不科學。

但用Deepvariant模型就不一樣了。

谷歌大腦團隊可以根據新的數據類型要求,給模型喂代表性的數據,這樣訓練下來,提高準確率的同時,也能保證最終表現不受負面影響。

找尋基因突變的挖井人

深度學習模型依賴高質量的訓練評估數據。

在測序領域裡,歸屬於美國技術標準協會的瓶中基因組聯盟(Genome in a Bottle,GIAB)擁有人類基因組數據,主要用於技術發展,基因評測和優化。

這個數據得來不易。

瓶中基因組聯盟大量牽頭做了大量的工作,最後才有了高保真度的基因組信息。這些工作包括但不限於:用盡目前已有的測序方法;把所有找尋基因突變的工具都折騰了一遍;複製了無數遍同一個人的DNA。

DeepVariant的大部分訓練數據來自於GIAB第一個發布的的標準比對基因組,HG001。這個基因組的樣本貢獻者是一名北歐女士,也屬於國際人類基因組單體型項目。

該項目是首個大規模嘗試確認人類基因差異中的共同模式。

因為HG001的DNA是商用的,也富有代表性,所以很多新測序方法出來之前會拿HG001來「練手」。

用HG001里的多種複製版本和不同的數據類型,訓練DeepVariant模型的話,可以提高數據類型分類的準確性,還能泛化出之前沒見過的數據類型。

0.5.0版本:進化版的外顯子模型

在發布0.5.0版本的時候,我們採用了兼容標準的訓練思路,用的是HG002樣本,第20條染色體的所有數據。

HG002,是GIAB公布的第二個基準基因組,來自一個猶太人男子。

取性別不同、種族不同的HG001和HG002的數據,可以幫助DeepVariant在面對種群的多樣性時有更好的表現。

在0.5.0版本里,谷歌關注點落在了外顯子數據上。

外顯子只佔到整個基因組信息的1%,專門指導機體產生蛋白質。很多臨床上重大的基因病就是在某處外顯子出了問題。

為了增加外顯子序列(WES,whole exome sequencing)的精確性,谷歌特地添加了全外顯子組這個數據種類,其訓練數據由DNAnexus提供。

結果發現,全外顯子組模型的誤插誤刪率降低了43%,單核苷酸複製錯誤率降低了22%。

HG002的外顯子序列錯誤率如上圖所示。左側顯示的錯誤是誤插誤刪,右邊是單個核苷酸複製錯了。黃色部分表示假陽性的錯誤,藍色部分指的是假陰性錯誤。

從圖可以看出,錯誤率降低最佳的表現出現在0.5版那次更新。

DNA擴增數據的優化

最新的0.6.0版本,解決的主要是序列拼接前,擴增數據精度提升的問題。

PCR,聚合酶鏈式反應,是相當便宜又簡單的擴增方法。但擴增後容易出錯,所以現在多用非PCR方法來準備DNA樣本了。

DeepVariant之前版本的訓練數據因為完全沒有用PCR,所以對於用到了PCR的數據,前幾版的DeepVariant的外部評測表現就不太好。

但這回,谷歌到腦添加了PCR+的訓練數據,現在這種數據類型的處理準確率就顯著提升,誤插誤刪概率降低了60%。

左側是DNAnexus評測結果,右邊是bcbio的

DNAnexus、bcbio對最新版DeepVariant的獨立評測結果看這裡:

t.cn/RmkpEQ9

dwz.cn/7P8CAT

谷歌藉助這些分析報告,了解到DeepVariant和其他找基因變異位點工具存在的不同,並進一步降低了錯誤率。

最新版的代碼同樣已經開源,谷歌大腦希望感興趣的人能參與進來一起推動測序行業的發展。

如果大家認為某種類型的數據值得谷歌團隊留意,可直接聯繫:github.com/google/deepv

github.com/google/deepv

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

谷歌瀏覽器有什麼對整個頁面進行截圖的插件推薦?
如何評價moto 360二代?
如何評價波士頓動力公司推出的機器人Handle?
為何幾乎沒有手機直接預裝CM?
為什麼用 WordPress 做的網站特別容易被搜索引擎收錄?

TAG:谷歌Google | 基因突變 | 深度學習DeepLearning |