JEM:二代測序結合機器學習,預測基因突變與腫瘤之間的聯繫

前言:最近一段時間,基於APOBEC聯合CRISPR/Cas9的單鹼基基因編輯系統研究不少,2017年12月上海科技大學陳佳教授等在Nature Structural&Molecular Biology發表文章揭示APOBEC在CRISPR/Cas9引發的DNA斷裂修復過程中產生突變的新機制。

AID屬於APOBEC(apolipoprotein B mRNA-editing,catalyticpolypeptide)胞苷去氨酶家族, 能夠將單鏈DNA上的胞苷(C)殘基脫氨產生尿苷(U),U:G 錯配可以激活不同的DNA損傷應答途徑,而被轉換為雙鏈損傷或鹼基序列改變。

因此,AID是抗體基因多樣化過程和抗體類型轉換過程中的一個非常關鍵的酶。儘管AID表現出對抗體基因很強的傾向性,它也能靶向其他基因,產生點突變或致癌的染色體轉位。

1月26日,西班牙國家研究中心的研究人員在J. Exp. Med雜誌發表了題為:A broad atlas of somatic hypermutation allowsprediction of activation-induced deaminase targets的研究文章(圖1),利用高通量測序技術在廣泛的代表基因組中直接測量原始的AID突變活性,從而匯總AID特異性、DNA 修復和淋巴瘤發生相關的數據。

圖1

在生髮中心(GC)B細胞中,胞嘧啶脫氨酶AID(Activation-induced deaminase)通過將抗體基因的胞嘧啶C脫氨基來起始抗體的多樣化過程。AID同樣也可以靶定到基因組的其他區域,引發突變或染色體轉位,對致癌性有重大影響。然而,探索AID靶向的特異性是極具挑戰性的。本文對來源於生髮中心(GC)B細胞的大於1500個基因區域進行高深度測序,鑒定出275個AID靶向基因,包括之前已經知道的35個AID 靶向基因中的30個,也發現了一個新的至今為止最高的AID突變熱點。並且,通過突變基因的分子特徵分析和機器學習演算法相結合,為AID靶向位點提供了強大的預測工具。本文的數據也建立了AID突變活性與淋巴瘤發生之間新的聯繫。

高通量分析AID引起的突變

為了高通量探索AID誘發突變的範圍,本文設計了一個針對B細胞基因組內有代表性的1379個不同基因的1588個區域的捕獲庫。發現了一組291個基因組區域(對應275個不同的基因)可重複突變(圖2A)。重要的是,這275個基因包含了之前已知的35個AID靶向基因中的30個(圖2C)。在這291個靶向區域中檢測到的突變強烈地積累在AID突變熱點(WRC(Y)/(R)GYW;下劃線表示特異的脫氨核酸;W = A/T; R = A/G; Y = C/T,圖2D)。最後,本文發現這275個靶向基因中有很大比例的基因經歷了DSBs或染色體轉位。

鑒定AGCTNT是一個新的AID熱點

為了了解AID對序列選擇的偏好性,本文首先分析了所有291個AID靶點中單獨的WRCY/RGYW熱點的平均突變頻率,發現在DNA兩條鏈AACTand AGCT是高突變位點,反映了AID的內在偏好。接下來,客觀分析了突變的胞嘧啶的序列環境,發現AGCT是AID偏好的核酸序列,另外本文進一步發現突變的胞嘧啶後邊第3個位點是T的話,AID表現出更顯著的偏好性,即AGCTNT是一個新的AID熱點,並且是目前有最高突變頻率的熱點(圖2E, F)。

圖2

AID靶點預測

通過分析與體細胞高突變(SHM)相關的分子特徵,包括轉錄,表觀遺傳標記和調控序列(圖2A),本文首先觀察到了AID靶點的轉錄水平和轉錄速度與非靶點相比明顯更高,並且這個差異在高突變靶點表現的更為顯著(圖3A)。另外也發現RNAPolⅡ和停滯因子spt5(先前研究表明與AID相關)在AID突變靶點上具有更高的結合密度(圖3B)。同樣地,AID富集在活躍增強子和轉錄延伸子標記物上,如Med12,H3K36me3和H3K79me2(圖3C)。最後,本文發現主要的AID靶點也傾向於聚集在超級增強子和經歷聚斂轉錄的區域附近(圖3D,3E)。本文開發了一個預測AID靶點的模型,使用機器學習演算法,收集待分析基因的各種分子特徵,如圖3(A-E)所描述。在這個預測模型中,發現全基因組的2.3%具有高密度的RNAPolⅡ和停滯因子spt5結合,預測有77%的AID

特異性靶定的概率(圖3F)。相反地,低RNAPolⅡ結合對應低水平的基因表達預測95%的基因沒有突變(圖3F)。為了驗證該預測模型的精確性,本文分析了一組新的組合基因的突變頻率,該欣的組合基因有高密度的RNAPolⅡ和停滯因子spt5結合。發現在12個分析的基因中有11個發生了顯著的突變(圖3G),說明該預測模型具有很高的準確度。

圖3

AID靶點基因在人淋巴瘤中循環突變

AID靶點顯著富集在人B細胞淋巴瘤中突變的基因上(圖4A),在本文所用的一套AID靶向基因中,有7.6%(21/275)的基因在瀰漫性大B細胞淋巴瘤(DLBCL)中發生突變(圖4B),被AID突變的淋巴瘤基因包括Bcl6, RhoH,Pim1, Ebf1, Eif4a2和Pax5,與之前的研究一致。另外,本文也鑒定出了人DBCLs的9個新的突變基因積累了AID引起的突變(圖4B),如Mef2b, Lyn, Tnfaip3, Gna13和Irf8。因此,AID脫靶可以促進與生髮中心相關的淋巴瘤發生。

圖4


推薦閱讀:

2012年龍年九宮飛星風水吉凶方位預測
八字預測教學系列之居住地和更換職業
如何準確預測命主的六親之災禍
紫微命圖——預測相關宮位
實例切磋——銅錢搖卦,必反饋。 - 六爻研究 - 專業六爻論壇在線免費周易預測算命專家級論...

TAG:學習 | 基因 | 機器學習 | 預測 | 腫瘤 | 聯繫 | 基因突變 | 測序 | 二代測序 | 機器 |