谷歌的圖片識別AI,是如何進行DNA序列比對工作的?
文:活潑歡騰冬瓜君
在許多犯罪劇中,我們常常能聽到「DNA比對」這樣的術語,雖然在劇情中這往往是一個短小的片段,但這看似簡單的一步實際上涉及到對數十億DNA進行數據處理!
圖片來源:baike
是不是聽上去很可怕?!
基本上,人類靠自己是無法處理如此龐大的數據的,此時就往往需要計算機的幫助。如今最常用的基因組測序方法是高通量測序(HTS),它使用起來即方便又便宜,但不足之處是HTS測序出來的結果並不完整,全是一堆碎片化的片段信息。科學家們得把這些片段與另一個基因組進行比較,拼湊在一起,進行變異識別。可是實驗誤差與小突變很難分辨,一不留神忽視的小突變也許暗藏重要信息,比如疾病的原因等,所以如何才能最大程度上識別小突變成為了困擾科學家們的難題。
圖片來源:theatlantic
目前,市面上最主流的基因變異檢測的生物信息學軟體是GATK,這是一種人工設計的演算法,可以將統計數據應用到測序機器最常出錯的地方。此外還有VarDict,以及 FreeBayers等,但每個工具都有都有利弊,為了促進更加精準的基因測序工作,FDA發起了PrecisionFDA挑戰賽,而去年的冠軍得主是谷歌新推出的一款圖片識別軟體。
這名後起之秀叫:DeepVariant,可能你在疑惑,圖像識別也能做DNA序列的比對?
把測序結果與基準基因序列一比對,就可以得到很多個鹼基變異位點(標星星的地方),這些位點,可能是單核苷酸多態性導致的,也可能是測序過程中複製出錯造成的 圖片來源:theatlantic
當然可以啦!
DeepVariant的原理是把識別變異這個任務,也就是基因組中的重構問題轉變為適合谷歌擅長的的圖像分類問題。DeepVariant是利用神經網路技術來構建這個將DNA測序數據轉圖像的過程的,它們的工作方式就像是神經元在大腦中的方式,每一層網路都逐級處理著更為複雜的工作。比如,構成遺傳密碼的As、Ts、c和Gs,都以紅色的形式出現。
研究人員先分層,然後對數百萬份基因組測序和高通量讀取技術進行了研究,並教會程序哪些東西更重要,哪些可以忽略。這樣一來,排查結果比以往任何技術都更精確。最初,這些圖像還僅由三種顏色組成,也就是三層數據,而現在發布的最新版本已經包含了7種顏色了,精確性正在不斷提高中!
圖ABCD分別代表實際測序的片段和基準序列的比對結果:A:單核苷酸多態性造成的鹼基變異位點;B:一條染色體上少了一個鹼基;C:兩條染色體上都少了一個鹼基;D:複製錯了的鹼基變異位點 圖片來源:theatlantic
DeepVariant 將會在Google雲平台上被提供給用戶使用,想要試試最新AI技術的話千萬別錯過!相信在未來,人工智慧會越來越多地參與到醫學研究、我們生活的方方面面……
推薦閱讀:
※王思聰和陳歐就共享充電寶的「論戰」,你怎麼看?
※印度為什麼沒有造出自己的大飛機?
※時間的定義是什麼?
※華為創始人任正非被公司罰款100萬,4高管罰款50萬,你怎麼看?