遺傳病相關資料庫和軟體(二):VarElect打分工具
VarElect是大名鼎鼎的GeneCards資料庫旗下的表型打分工具。這篇文章來介紹一下怎麼用這個工具。
---------------------------------------------
什麼是VarElect
VarElect是根據表型來對基因變異進行優先性打分的工具,利用的是GeneCards?資料庫中豐富的信息。VarElect輸入一個基因列表(不超過四千個),通過表型的相關性搜索將其縮小到極小的範圍。從標題的圖可以看出,對於已有表型-基因型對應關係的,直接進行關聯;對於沒有直接關係的,也可以通過間接關係建立關聯。打分主要基於資料庫文本詞頻的計數,表型關鍵詞在文本中出現得越多,證明關聯越強。同時,打分需要考慮基因相關詞條文本的多少,否則文本豐富的基因會佔文本不豐富基因的便宜。
VarElect的網址在這裡:VarElect,使用前先免費註冊一下。
VarElect需要輸入兩樣東西:基因列表和表型關鍵詞。界面如下:
---------------------------------------------
VarElect怎麼玩
下面拿一個實例來演示一下這個工具怎麼用。這個例子是一個腎病綜合征的全外顯子組測序樣本,我們的任務是找出致病相關的位點。首先,要做以下幾件事:
1. 拿到樣本的fastq後,去跑一個GATK的流程;
2. 得到vcf後,做一個annovar的注釋,也可以用在線版的wannovar,但需要填一個學術單位的郵箱。任務跑完長這樣:
3. 把下面那個genome的CSV文件下載下來excel打開(選exome那個文件的話,選擇性剪切會不給的,尷尬),篩選VQSR認為PASS的位點(被wannovar貼在最後面了,如果你做過VQSR的話),去除非編碼區突變和同義突變,去除1000G資料庫中人群頻率大於1%的突變(當然有本地資料庫更好了),這時剩下的基因肯定小於VarElect要求的四千個以內了;
4. 把基因那一列貼到VarElect里去,點提交後,它會幫你貼心的去重。有些基因會識別不了,直接無視,這是因為annovar注釋了一些類似於「KCNJ12KCNJ18」這樣詭異的基因名。在表型那一欄中輸入「血尿」的英文:hematuria,如下:
3-5的選項可以空著,3是可以指定搜索genecards資料庫的哪些位置,默認全部;4是不搜哪些表型;5是可以標記出腫瘤相關基因,作為次級發現。點綠色的分析按鈕。我們看看出來什麼結果:
分數是1-200,前兩個基因獲得了比較高的分數,其中COL4A5是著名的Alport綜合征致病基因,FN1則與纖維粘連蛋白腎小球病有關。回到注釋的excel表來看,這兩個基因分別包含了一個移碼突變和一個錯義突變。經一代測序驗證和臨床醫師確認臨床癥狀,最終報告的是這兩個基因突變。
---------------------------------------------
其實genecards是有一個收費工具可以用的,叫做TGex,它可以直接vcf進入,輸入表型關鍵詞後,直接位點幫你選好,一步到位。另外,這個工具還支持樣本管理、trios篩選、CNV注釋等功能,操作也很友好。不差錢的同學可以買一個用用看,差錢的還是像我這樣繞一步,用注釋工具先篩到他要求的4000個基因以內好了。這期就到這裡,希望小夥伴們多試試,聊一下這個工具的假陰性和假陽性怎麼樣。
推薦閱讀:
※血友的普通生活
※吸血鬼的傳說:先天性卟啉症
※Prader-willi案例分享
※「VHL綜合征」文獻月評(2018.02.01-2018.02.28)
※第三代試管嬰兒:單基因遺傳病離我們有多近?