標籤:

綜述|計算代謝組學和資料庫的進展加深了對新陳代謝的理解

綜述|計算代謝組學和資料庫的進展加深了對新陳代謝的理解

來自專欄微生太

導讀

基於質譜(MS)的代謝組學是代謝組分析的流行平台。已經建立了用於處理MS原始數據的計算技術,例如特徵檢測,峰對準以及排除假陽性峰。非目標代謝組學的下一階段將是破譯小分子的大規模碎片,以全面鑒定人類,動物,植物和微生物群的代謝組,從而更深入地了解代謝。這篇綜述是對最新的計算代謝組學的更新,包括已知/期望的結構資料庫,化學本體分類和質譜化學信息學,用於解釋質量碎裂和闡明未知代謝物。還討論了代謝組資料庫和儲存庫的重要性,因為新的生物學發現往往歸因於數據的積累,關係資料庫及其統計數據。最後,代謝物注釋的實用指南作為本綜述的總結。

代謝組學相比於基因組、轉錄組、蛋白質組學的技術原理有所不同,大家相對而言接觸的也比較少,但代謝組學作為獲得生命有機體生物學完整圖像的最後一環其重要性不言而喻。為了讓大家對代謝組學有個全面的了解,小編通譯全文未做刪減,所以文章較長。希望對大家有所幫助。


論文ID

原名:Advances in computational metabolomics and databases deepen the understanding of metabolisms

譯名:計算代謝組學和資料庫的進展加深了對新陳代謝的理解

期刊:Current Opinion in Biotechnology

IF:9.294

發表時間:2018年

通信作者:Hiroshi Tsugawa

通信作者單位:RIKEN Center for Sustainable Resource Science, Japan


綜述內容

1. 為什麼生物學中需要非目標代謝組學?

在中心教條下,基因組,轉錄組和蛋白質組以「信號流」表示,代謝組被認為是新陳代謝的「結果」。然而,許多研究報道,代謝物本身深深地參與生物體的生理功能和體內平衡。例子首先是氧化脂質,在例如炎症反應和防禦系統中充當生物活性代謝物的氧化脂肪酸基團; 其次,代謝物,涉及腫瘤發生的代謝改變的意想不到的產物; 第三,受損的代謝物,由通常由損害控制系統調節的酶錯誤或自發反應產生的化學反應性化合物; 第四,微生物代謝產物,腸道微生物群分泌的代謝物影響宿主生理機能; 最後是植物化學物質,植物特化代謝物在人體代謝中發揮各種生物活性( 圖1 )。

基於質譜(MS)的非靶向代謝組學已導致這些代謝物的發現和分析化學的更新,其信息學對於闡明新的生理功能和生物學機制是必不可少的。

圖1:代謝組與生理功能有關。代謝組的篩選通常由非靶向代謝組學進行。生物活性代謝物通過結合其他分析平台(例如核磁共振(NMR)和X射線)的靶向分析來驗證立體異構體測定。縮寫TMA和TMAO分別表示三甲胺和三甲胺N- 氧化物。

2. 什麼是非目標代謝組學需要改進?

處理MS原始數據(例如特徵檢測,色譜圖解卷積,同位素識別,色譜圖比對以及排除假陽性峰)現在成為非目標代謝組學的成熟技術:當然,這些進展還提高了生物學效率發現。軟體程序,如MS-DIAL,MZmine,XCMS,OpenMS和代謝組學和脂質組學的其他專業程序被用作代謝組學工作流程。程序的使用需要綜合考慮其優點和缺點。

最大的挑戰是解碼離子化代謝物的物理/化學現象,如離子相互作用(如二聚體,加合離子)和質量碎片,包括質譜儀中的源內碎裂和低能碰撞誘導的基於解離的碎裂。這些知識將使離子特徵檢測更有效,並促進全球識別活生物體中的代謝物。迄今為止,使用化學開發工具包等化學信息學平台的「計算質量碎片化」是流行的技術來幫助解釋質量碎裂,並用代謝組資料庫和庫來闡明未知結構,如下所示。

3. 使用光譜資料庫和結構資料庫的化學信息學

首先,檢查目前的MS / MS光譜和生物學報告/預期結構資料庫。統計數據由RIKEN內部MS / MS光譜資料庫進行,包括我們的內部資料庫,MassBank,GNPS,Metlin,ReSpect和NIST14(用於光譜計數)以及MS-FINDER 2.24版的結構資料庫包括15個代謝組結構資料庫(用於結構計數)。結果,在代謝組結構資料庫中存儲了226,204種獨特的化合物,而7195種這些化合物的MS / MS譜記錄在光譜資料庫中,其中使用InChIKey的第一層作為查詢。計算代謝組學試圖填補頻譜和結構計數之間的巨大「空白」。為了更好地理解所需的技術,代謝物組在本評論中分為四類,首先是「已知結構- 已知譜(KS-KS)」,其中報道的結構由實驗MS / MS譜證實; 其次,已知結構未知光譜(KS-US),其中光譜未被標準化合物驗證的生物學檢驗(或部分預期)結構; 第三,「未知結構- 已知光譜(US-KS)」,其中質譜本身在生物樣品中經常受到監測,但其結構未在生命科學論文中闡明或報道; 最後是「未知結構- 未知光譜(US-US)」,其中小分子的假定暗物質是未知的。

藉助EI-MS和MS / MS匹配演算法,KS-KS代謝物的鑒定相對容易結合保留時間預測,並通過內部標準。值得注意的是,最近在代謝組學中提出了研究依賴的錯誤發現率(FDR)估計而在脂質組學中已經提出了脂質的平台無關注釋規則。他們可以促進代謝組學/脂質組學工作流程的全面自動化。

質譜化學信息學中的一個挑戰是KS-US和US-KS代謝物的注釋,並且已經通過三種主要的計算方法來滿足:將光譜知識外推到與LipidBlast家族中使用的結構相似或相同的支架化合物,PlantMAT,FlavonoidSearch(A型);搜索報告的分子結構,然後使用評估技術對結構候選進行排序,以解決CSI中使用的結構- 頻譜關係:FingerID,MAGMA,MetFrag,CFM-ID,MIDAS和MS-FINDER(B型); 和基因組規模或分子譜網路方法來挖掘GNPS中使用的產品離子和中性損失的共同特徵,MS2LDA,BioCAn, 和別的(C型)。原則上,這些程序可用於KS-US和US-KS代謝物的標註; 它們將組合應用,它們將有助於確定特定代謝物類別的產物離子和中性損失的特徵發現以及對質量碎片的更深入的理解。

值得注意的是,B型需要合適的結構資料庫來搜索化學空間。在CASMI 2017的第3類中,所有參與者使用MS-FINDER的結構分配,其中由Tobias Kind博士領導的團隊勝過所有其他人(casmi-contest.org/2017/ )。其中一個原因是Kind團隊仔細優化了目標結構資料庫; 它分別將37%(91/243),61%(148/243)和79%(193/243)挑戰分別列為最高,前三名和前十名候選人。這表明化合物鑒定可以通過資料庫選擇和特定器官,組織和物種中的方法得到極大改善。特別是在天然產品研究中,應用有關物種- 化學品關係信息的分類過濾器有效地排除了假陽性候選人。事實上,CASMI比賽不僅對激活計算質譜非常重要,而且對代謝組學中實際需要的方法的認識也很重要。

4. 化學本體論和分類系統將促進生物學中的代謝物注釋

未知光譜的「代謝物分類」是結構闡明的基本技術。小分子的多樣性持續增長; 在2017年12月,HMDB化學結構的數量,ChemSpider和PubChem化合物分別為114,103,> 6100萬和> 9000萬。由於這些空間不能被理解(並且大部分空間不能被當前的代謝組學計劃處理),它們會凝結成一個化學分類系統,用於過濾,組織和查詢化學物質,組學研究是可取的。化學本體論/分類術語已由幾個團隊在MeSH中組織,LipidMAPS,ChEBI和ClassyFire ChemOnt。分類可以由相關程序系統地執行。當使用上述結構闡明工具時,這些關於化學本體論的信息也會提示代謝物注釋。

圖2 顯示了結構解析的MS-FINDER結果,查詢 來自 擬南芥的m / z 477.0631 。而分子式C 17 H 22 N 2 O 10 S 2 被預測為最高候選人,其得分顯著高於其他人,因此通過得分來確定結構異構體是困難的。另一方面,這個分子的子結構可以從指定的本體直觀地確定; 在該實例中,該結構可以含有硫代葡萄糖苷,吲哚和糖苷的部分。本體術語也可以用於細化分子網路方法。事實上,未知EI-MS或MS / MS譜圖的化學本體論測定是天然產物重新消失所必需的和在各種物種和組織中探索新型複合支架,包括特定植物和微生物組。

圖2:MS-FINDER結構闡明的結果顯示化學本體分配的效率。查詢m / z的 一個例子 顯示了477.0631。排名分子式和結構候選者的分數通過MS-FINDER 2.24版計算,其中包含總共2,282,521個代謝組結構作為搜索空間。化學本體是由ClassyFire程序的「直接父母」定義的,目前這些結構被歸類為總計2321個化學本體。右表

5. 代謝組學資料庫和知識庫的重要性

質譜化學信息學中最具挑戰性的問題是對US-KS或US-US代謝物的闡明,其結構未報告在當前生物學研究的預期中。由於生物學和質譜專家在花費大量時間和精力成功地鑒定了意想不到的代謝物,因此應在評估前通過調查代謝組學庫評估物種,組織和器官之間的重要性,相關性和發生情況。代謝組學工作台和MetaboLight是MS原始數據的儲存庫,並且「原則上」,這種數據的關係搜索可以揭示未知光譜的相關性和發生。另一方面,這些調查要求MS數據的完整性,並且必須開發用於查詢目標未知峰的關係「資料庫」:這將是當前代謝組學庫的具有挑戰性的問題。儘管即使使用保留時間,準確的m / z ,同位素模式和MS / MS譜圖作為化合物特性,LC-MS中的未識別代謝物的連接也不容易,但 基於GC-MS的代謝組學最近已被記錄。GC-MS BinBase代謝組學資料庫通過強大的保留指數,可擴展的70 eV EI-MS譜圖和其他色譜性質將已知和未知代謝物聯繫起來; BinVestigate網路服務可以檢測特定未知代謝物的離子丰度統計數據。由BinVestigate評估為生物學重要代謝物的未知物(實際上是US-KS代謝物)通過使用MS-DIAL的另外的化學信息學方法鑒定和MS-FINDER。因此,代謝組學庫和相關資料庫將有助於發現未被當前基因組序列和已知代謝途徑解釋的新代謝物。

6. 目前基於MS的化學信息學用於代謝物注釋的指南

質譜化學信息學將擴大代謝物鑒定和注釋在非靶向代謝組學中的覆蓋範圍。代謝物發現的路標顯示為本綜述的總結( 圖3 )。

工作流程:

1.消除假陽性峰的可能性: 雖然這不是本綜述的重點,但在注釋之前應排除假陽性峰及其光譜被認為是同位素離子,不同加合物類型,源內片段和其他背景離子。可以通過CAMERA,MS-FLO,RAMClust,xMSannotator和代謝組學軟體程序的內部功能。除了基於色譜數據點相關性的經典加合/內源片段檢測方法之外,最近的程序將MS / MS與MS1譜匹配,並將分析的樣品組中的離子丰度相關因子用於建議源內片段和意想不到的加合離子。希望純化和濃縮未知代謝物以增加質譜的離子丰度。

2.搜索光譜庫: 結構闡明的首選方法是使用公開和商業可用的光譜資料庫進行質譜搜索。除了串聯質譜(MS / MS)譜圖的光譜搜索的正常使用外,通過不使用前體分離,搜索空間可擴展到所有記錄,因為產物離子相似性通常為未知的子結構和分子支架提供直接證據代謝物(見下文)。

3.預測分子式:MS中未知分子的首要任務是確定分子式。諸如MolecularWeightCalculator(omics.pnl.gov/software/ ),Sirius和MS-FINDER七條黃金法則輔助預測,超高解析度MS可以提供精確的氧,氮和硫的分子式。此外,標記方法使用完全標記的樣品13 C,15 N,18 O或34 種化學品可用於嚴格測定未知代謝物的配方元素計數。

4.檢索建議公式的已知/預期結構,然後檢索它們的排名: 大多數未知數可以包含在代謝組結構資料庫中,這是一個有效的假設。有幾種用於搜索資料庫的化學信息學程序,然後按照本評價介紹的那樣排列結構。如果公式在資料庫中找到,前10名結構候選人就是實際的目標。其他必要的標準,包括保留時間/指標預測和目標物種的分類信息可以從幾個平台獲得,例如PredRet和NIST RI(用於保留時間預測)以及來自諸如HMDB和KNApSAcK(用於分類信息)。

5.擴大化學空間用於搜索和預測分子支架 :如果資料庫中沒有關於結構的信息,則結構解析是非常困難的。通過生物學上預期的化學反應獲得的計算擴展的化學空間,例如MINE和LipidHome是有用的。分子譜網路也有助於通過用已知的化學品光譜提取產物離子或中性損失的共同特徵來闡明支架。另外,利用質譜特徵的化學分類有助於複合注釋。

使用基因組尺度信息的其他方法,生物反應知識,離子丰度相關網路和累積的代謝組學資料庫/庫也被納入。總體而言,藥物發現研究中開發的化學信息學技術現在在基於MS的代謝組學研究中得到廣泛應用。質譜信息學的技術進步以及代謝組數據解釋的生物信息學加深了對代謝的理解。

圖3:代謝物注釋的實際工作流程(a) 通過去混合,加合物選擇,峰形分組峰,與MS1譜匹配的MS / MS以及樣品組之間的離子丰度相關性排除假陽性峰(b) 首先使用質譜資料庫(c)和(d)如果沒有可用的譜圖,則進行分子式預測,然後進行結構解析。 (e)中 如果沒有檢索到候選者,可以使用分子譜支架和修飾


想獲得更多的免費學術資料嗎?想認識更多的小夥伴嗎?請加微信wxid_qk4bijnecwf322,審核過後會將您邀請進學術群。這些微信群旨在為微生態研究者提供交流平台,而且我們會通過網路舉辦一系列的微生態研究技術講座,分享一系列相關研究文獻,舉辦一系列交流研究成果的學術活動。您也可以關注《微生太》公眾號,獲得更多更全關於菌群的動態。


你可能還喜歡:

(完整版)微生物組在人類疾病和健康中的作用?

mp.weixin.qq.com圖標綜述 | Nature Reviews Microbiology:微生物構成的氮循環網路(IF:26.819)?

mp.weixin.qq.com圖標綜述 | 腸道微生物組與代謝疾病(國人作品,IF:12.797)?

mp.weixin.qq.com圖標科研 | 「是葯三分毒」的新證據 ——Nature揭示非抗生素類藥物對人體腸道菌群的廣泛影響?

mp.weixin.qq.com圖標科研 | IF:8.766,小檗鹼通過腸道微生物群的作用治療高血脂症?

mp.weixin.qq.com圖標科研 | Cell子刊:碳水化合物限制飲食對人類肝脂肪變性的快速代謝益處的綜合理解?

mp.weixin.qq.com圖標Gut:抗生素副作用的影響遠比你想像的更廣泛、更複雜?

mp.weixin.qq.com圖標科普 | 兩篇Cell重磅!我國等科學家發現:這個壞菌,竟然使腫瘤細胞免死?

mp.weixin.qq.com圖標科普 | 告訴你別熬夜的另一個理由:腸道菌群很不爽而且後果很嚴重?

mp.weixin.qq.com圖標科普 | 菌群是如何影響你的睡眠、情緒以及壓力水平的?

mp.weixin.qq.com圖標科普 | Nature子刊:可怕,在中國河口發現一個沒有有效抗生素的世界?

mp.weixin.qq.com圖標一個直接用16S rRNA序列來預測其培養基配方的網站?

mp.weixin.qq.com圖標

圖3:代謝物注釋的實際工作流程。(a) 通過去混合,加合物選擇,峰形分組峰,與MS1譜匹配的MS / MS以及樣品組之間的離子丰度相關性排除假陽性峰(b)首先使用質譜資料庫(c) 和(d) 如果沒有可用的譜圖,則進行分子式預測,然後進行結構解析。 (e)中 如果沒有檢索到候選者,可以使用分子譜

推薦閱讀:

如果人不幸卡在粒子加速器里會怎麼樣!
過分:一根玉米都沒留,價值千萬的科研玉米被摘光!
千年後預言再次被應驗: 大部分科研人士揭露地球生命體是偶然?
令科研人員感到「痛苦」的因素,主要集中在哪些地方?
科研必備:免費下載科研書籍的網站

TAG:代謝 | 科研 |