遺傳病相關資料庫和軟體(一):HPO人類表型標準用語資料庫
近期準備以收集介紹資料庫,做軟體測評開始,做一些積累和分享,希望可以堅持下去,也希望看到的讀者可以受益。最近在看從表型到基因型的辦法,那麼以HPO開始第一篇吧。
---------------------------------------------
什麼是HPO
HPO(Human Phenotype Ontology,人類表型標準用語,人類表型本體)的建立,是對錶型一個標準化的過程。我們都清楚GO(Gene Ontology),這是基因本體論。它可以分為三大模塊:biological process生物過程, molecular function分子功能和cellular component細胞組分,每個大模塊又下分很多子模塊。任何一個基因進來GO的系統,都可以被標準化為某一個細分的模塊裡面。這樣可以解決一個重要的問題:無論基因有多少種描述,都可以被歸類到某一個「本體」中。這種標準化有利於大規模的計算機數據處理,例如高通量下的功能篩選,資料庫的收錄整理等等。
那麼為啥要標準化表型呢?其實目的是和GO一樣,為了便於高通量的自動化處理。在臨床診斷時,不同的醫生會給出不同的表型描述。如果我們想建立一種自動化的從表型到基因型的路徑,就需要規定路徑的入口不能太複雜,否則生信工作者會很痛苦。於是HPO便應運而生了。
---------------------------------------------
HPO資料庫概覽
這裡是資料庫的主頁
我們來逐頁介紹一下資料庫的結構。打開主頁後,可以看到頁面很樸素。HOME會滾動播出一些該組織的一些動態新聞。
比如說,我們點開(寫作時的)第一個新聞,它介紹了一個叫做「Phenotero」的工具。我簡單翻譯一下貼在下面:
今天,我們想介紹一個叫做Phenotero的工具。弄這東西是為了在精密醫學,特別是臨床遺傳學應用中,基於人類表型本體(HPO)和疾病本體(如Orphanet罕見病本體論(ORDO)或醫學主題詞表(MeSH)),用於「深度表型「(deep phenotyping)的病人和臨床診斷編碼。這一點尤其重要,因為它可以簡化臨床工作流程並有效進行數據錄入,並且隨後將促進臨床和分子診斷,消除手稿中的歧義,並能夠共享匿名患者表型數據,從而更好地理解疾病。
然而,用本體對患者描述的過程,通常與用Microsoft Word或LibreOffice等文字處理軟體編寫患者報告或手稿的過程不在一起。這種額外的工作量和安裝專用軟體(例如PhenoTips)的要求可能會讓醫生嫌麻煩。而且還有不準確和隱私約束的問題。為了改善這種情況,我們開發了Phenotero,這是一種免費提供的簡單解決方案,用於在撰寫臨床報告或手稿時注釋患者的表型和疾病。我們採用Zotero,一個完善的,積極開發的引文管理軟體來生成一個工具,在撰寫本文時可以從臨床報告或手稿中的本體中引用類。
說白了就是一個從臨床診斷報告里提取HPO的小工具吧。從這一點上來看,可以感覺出老外工作做的還是比較細的,可能是他們人少也比較懶,所以總有動力想出一些自動化的招 > ,<
第二頁這個「about」介紹了HPO具體是啥。提取一些關鍵的語句:
人類表型本體(HPO)旨在提供人類疾病中遇到的表型異常的標準化辭彙表。HPO中的每個術語都描述了一種表型異常。HPO目前正在使用醫學文獻,Orphanet,DECIPHER和OMIM進行開發。HPO目前包含大約11,000個術語(仍在增長)和超過115,000個對遺傳性疾病的注釋。HPO還為大約4000種常見疾病提供了大量的HPO注釋。
其中about頁里提到兩個東西:Phenomizer和HPO web browser
這是兩個HPO查詢的主要入口。phenomizer是一個通過輸入表型,可以得到相應HPO的資料庫。長這樣:
HPO web browser可以根據疾病或表型特徵來查相應的HPO條目信息。長這樣:
這個就沒法說太多了,還是要自己試試的。
第三頁的download提供了該資料庫的注釋文件下載地址,可以根據這些文件構建自己的表型注釋HPO的流程。文件鏈接見 Hudson/Jenkins page
phenotype_annotation.tab: contains manual and semi-automated annotations created by the HPO-team. These are annotations of OMIM-, Orphanet-, and DECIPHER-entries
phenotype_annotation_hpoteam.tab: contains annotations made explicitly and manually by the HPO-team (mostly referring to OMIM entries)negative_phenotype_annotation.tab: contains negative annotations (i.e. a disease is NOT associated with this HPO-term)
另外,該頁面還給出了genes_to_phenotype.txt 和 phenotype_to_genes.txt兩個文件,可以根據基因名注釋相關的HPO條目。地址在這裡。目錄樹如下:
ALL_SOURCES_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txt
ALL_SOURCES_ALL_FREQUENCIES_genes_to_phenotype.txt
ALL_SOURCES_ALL_FREQUENCIES_phenotype_to_genes.txtALL_SOURCES_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txtALL_SOURCES_FREQUENT_FEATURES_genes_to_phenotype.txtALL_SOURCES_FREQUENT_FEATURES_phenotype_to_genes.txtdiseases_to_genes.txtexternal_data.txtgenes_to_diseases.txtMYHPO_03_2018.sqlOMIM_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txtOMIM_ALL_FREQUENCIES_genes_to_phenotype.txt
OMIM_ALL_FREQUENCIES_phenotype_to_genes.txtOMIM_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txtOMIM_FREQUENT_FEATURES_genes_to_phenotype.txtOMIM_FREQUENT_FEATURES_phenotype_to_genes.txtORPHA_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txtORPHA_ALL_FREQUENCIES_genes_to_phenotype.txtORPHA_ALL_FREQUENCIES_phenotype_to_genes.txtORPHA_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txtORPHA_FREQUENT_FEATURES_genes_to_phenotype.txtORPHA_FREQUENT_FEATURES_phenotype_to_genes.txt
如果想搭建自己的表型 - 基因型工具,這裡面的信息是很有用的。
最後來介紹第四個欄目,tools。phenomiser和瀏覽器這兩個工具前面說過了,就不介紹了。剛才說到了表型到基因的工具,HPO官方會想不到做一個么?官方給了兩個工具:PhenIX和Exomiser。兩者都是基於vcf和HPO作為輸入,給出極少量的經過篩選的突變位點。具體演算法請感興趣的同學自查,在這裡不展開介紹了。
最後網站還介紹了一個CNV的解釋軟體:PhenogramViz。當然了,輸入也是CNV區段和HPO條目。或許有空的時候我會做個評測。
---------------------------------------------
HPO能幹啥
其實前面已經穿插說了很多HPO的應用了。像Exomiser這樣的軟體就是一個典型的例子。它會讓診斷工作變得很容易,有了臨床醫生的表型診斷(HPO),加上基因測序的結果(vcf),可以自動化完成致病位點的篩選。作者小試過這類軟體,個人感覺,此類軟體可以幫助臨床醫生解決日常篩選位點的繁重工作,但暫時是不可能替代做臨床諮詢的醫生的。第一,HPO和基因之間的聯繫還無法做到全面,那麼就一定會漏基因。所以診斷陰性的案例還是需要臨床遺傳諮詢醫師的專業判斷;第二,即使通過軟體判斷出的位點,還仍然需要醫生通過過去的臨床經驗來進行核實。
---------------------------------------------
下期預告:通過HPO和基因之間的聯繫來對應表型-突變,可能會受限於資料庫的完整度。下次我們討論一下基於資料庫文本挖掘的辦法,來建立表型和基因型之間的聯繫。
推薦閱讀: