遺傳病相關資料庫和軟體（一）：HPO人類表型標準用語資料庫

06-23

近期準備以收集介紹資料庫，做軟體測評開始，做一些積累和分享，希望可以堅持下去，也希望看到的讀者可以受益。最近在看從表型到基因型的辦法，那麼以HPO開始第一篇吧。

---------------------------------------------

什麼是HPO

HPO(Human Phenotype Ontology，人類表型標準用語，人類表型本體)的建立，是對錶型一個標準化的過程。我們都清楚GO（Gene Ontology），這是基因本體論。它可以分為三大模塊：biological process生物過程, molecular function分子功能和cellular component細胞組分，每個大模塊又下分很多子模塊。任何一個基因進來GO的系統，都可以被標準化為某一個細分的模塊裡面。這樣可以解決一個重要的問題：無論基因有多少種描述，都可以被歸類到某一個「本體」中。這種標準化有利於大規模的計算機數據處理，例如高通量下的功能篩選，資料庫的收錄整理等等。

那麼為啥要標準化表型呢？其實目的是和GO一樣，為了便於高通量的自動化處理。在臨床診斷時，不同的醫生會給出不同的表型描述。如果我們想建立一種自動化的從表型到基因型的路徑，就需要規定路徑的入口不能太複雜，否則生信工作者會很痛苦。於是HPO便應運而生了。

---------------------------------------------

HPO資料庫概覽

這裡是資料庫的主頁

我們來逐頁介紹一下資料庫的結構。打開主頁後，可以看到頁面很樸素。HOME會滾動播出一些該組織的一些動態新聞。

比如說，我們點開（寫作時的）第一個新聞，它介紹了一個叫做「Phenotero」的工具。我簡單翻譯一下貼在下面：

今天，我們想介紹一個叫做Phenotero的工具。弄這東西是為了在精密醫學，特別是臨床遺傳學應用中，基於人類表型本體（HPO）和疾病本體（如Orphanet罕見病本體論（ORDO）或醫學主題詞表（MeSH）），用於「深度表型「（deep phenotyping）的病人和臨床診斷編碼。這一點尤其重要，因為它可以簡化臨床工作流程並有效進行數據錄入，並且隨後將促進臨床和分子診斷，消除手稿中的歧義，並能夠共享匿名患者表型數據，從而更好地理解疾病。
然而，用本體對患者描述的過程，通常與用Microsoft Word或LibreOffice等文字處理軟體編寫患者報告或手稿的過程不在一起。這種額外的工作量和安裝專用軟體（例如PhenoTips）的要求可能會讓醫生嫌麻煩。而且還有不準確和隱私約束的問題。為了改善這種情況，我們開發了Phenotero，這是一種免費提供的簡單解決方案，用於在撰寫臨床報告或手稿時注釋患者的表型和疾病。我們採用Zotero，一個完善的，積極開發的引文管理軟體來生成一個工具，在撰寫本文時可以從臨床報告或手稿中的本體中引用類。

說白了就是一個從臨床診斷報告里提取HPO的小工具吧。從這一點上來看，可以感覺出老外工作做的還是比較細的，可能是他們人少也比較懶，所以總有動力想出一些自動化的招 > ,<

第二頁這個「about」介紹了HPO具體是啥。提取一些關鍵的語句：

人類表型本體（HPO）旨在提供人類疾病中遇到的表型異常的標準化辭彙表。HPO中的每個術語都描述了一種表型異常。HPO目前正在使用醫學文獻，Orphanet，DECIPHER和OMIM進行開發。HPO目前包含大約11,000個術語（仍在增長）和超過115,000個對遺傳性疾病的注釋。HPO還為大約4000種常見疾病提供了大量的HPO注釋。

其中about頁里提到兩個東西：Phenomizer和HPO web browser

這是兩個HPO查詢的主要入口。phenomizer是一個通過輸入表型，可以得到相應HPO的資料庫。長這樣：

HPO web browser可以根據疾病或表型特徵來查相應的HPO條目信息。長這樣：

這個就沒法說太多了，還是要自己試試的。

第三頁的download提供了該資料庫的注釋文件下載地址，可以根據這些文件構建自己的表型注釋HPO的流程。文件鏈接見 Hudson/Jenkins page

phenotype_annotation.tab: contains manual and semi-automated annotations created by the HPO-team. These are annotations of OMIM-, Orphanet-, and DECIPHER-entries
phenotype_annotation_hpoteam.tab: contains annotations made explicitly and manually by the HPO-team (mostly referring to OMIM entries)
negative_phenotype_annotation.tab: contains negative annotations (i.e. a disease is NOT associated with this HPO-term)

另外，該頁面還給出了genes_to_phenotype.txt 和 phenotype_to_genes.txt兩個文件，可以根據基因名注釋相關的HPO條目。地址在這裡。目錄樹如下：

ALL_SOURCES_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txt

ALL_SOURCES_ALL_FREQUENCIES_genes_to_phenotype.txt
ALL_SOURCES_ALL_FREQUENCIES_phenotype_to_genes.txt
ALL_SOURCES_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txt
ALL_SOURCES_FREQUENT_FEATURES_genes_to_phenotype.txt
ALL_SOURCES_FREQUENT_FEATURES_phenotype_to_genes.txt
diseases_to_genes.txt
external_data.txt
genes_to_diseases.txt
MYHPO_03_2018.sql
OMIM_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txt

OMIM_ALL_FREQUENCIES_genes_to_phenotype.txt
OMIM_ALL_FREQUENCIES_phenotype_to_genes.txt
OMIM_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txt
OMIM_FREQUENT_FEATURES_genes_to_phenotype.txt
OMIM_FREQUENT_FEATURES_phenotype_to_genes.txt
ORPHA_ALL_FREQUENCIES_diseases_to_genes_to_phenotypes.txt
ORPHA_ALL_FREQUENCIES_genes_to_phenotype.txt
ORPHA_ALL_FREQUENCIES_phenotype_to_genes.txt
ORPHA_FREQUENT_FEATURES_diseases_to_genes_to_phenotypes.txt
ORPHA_FREQUENT_FEATURES_genes_to_phenotype.txt

ORPHA_FREQUENT_FEATURES_phenotype_to_genes.txt

如果想搭建自己的表型 - 基因型工具，這裡面的信息是很有用的。

最後來介紹第四個欄目，tools。phenomiser和瀏覽器這兩個工具前面說過了，就不介紹了。剛才說到了表型到基因的工具，HPO官方會想不到做一個么？官方給了兩個工具：PhenIX和Exomiser。兩者都是基於vcf和HPO作為輸入，給出極少量的經過篩選的突變位點。具體演算法請感興趣的同學自查，在這裡不展開介紹了。

最後網站還介紹了一個CNV的解釋軟體：PhenogramViz。當然了，輸入也是CNV區段和HPO條目。或許有空的時候我會做個評測。

---------------------------------------------

HPO能幹啥

其實前面已經穿插說了很多HPO的應用了。像Exomiser這樣的軟體就是一個典型的例子。它會讓診斷工作變得很容易，有了臨床醫生的表型診斷（HPO），加上基因測序的結果（vcf），可以自動化完成致病位點的篩選。作者小試過這類軟體，個人感覺，此類軟體可以幫助臨床醫生解決日常篩選位點的繁重工作，但暫時是不可能替代做臨床諮詢的醫生的。第一，HPO和基因之間的聯繫還無法做到全面，那麼就一定會漏基因。所以診斷陰性的案例還是需要臨床遺傳諮詢醫師的專業判斷；第二，即使通過軟體判斷出的位點，還仍然需要醫生通過過去的臨床經驗來進行核實。

---------------------------------------------

下期預告：通過HPO和基因之間的聯繫來對應表型-突變，可能會受限於資料庫的完整度。下次我們討論一下基於資料庫文本挖掘的辦法，來建立表型和基因型之間的聯繫。