原標題:MetaGEM:直接從宏基因組重建基因組規模的代謝模型

基因組規模代謝網絡模型(Genome-scale metabolic model,GEM),是一種包含了某種特定生物或者是細胞基因組範圍代謝反應,及其酶及基因關聯的數學模型。

這裏,我們基於文章的描述,介紹一款新軟件——MetaGEM。

研究者認爲,目前代謝建模的工作流程仍然是傾向於依賴參考基因組作爲重建和模擬GEMs的起點,這忽略了微生物羣落中存在的物種內和物種之間的多樣性。也限制了對已知參考基因組空間中的代謝網絡的分析和解釋。

可能導致假陽性(即在參考基因組中存在但在羣落中的變量中缺失的通路)或假陰性(即在參考基因組中缺失但在羣落變量中存在的通路)結果,最終導致對個別物種代謝通路以及交互營養共生(cross-feeding)相互作用的不準確預測。

也就是說當前的代謝建模方法很可能無法捕捉特定物種在不同環境中的特定代謝特徵,例如具有不同疾病狀況的個體的微生物羣。爲了克服這一侷限,研究者們開發了MetaGEM。

MetaGEM流程

MetaGEM可以不依賴參考基因組,直接從短讀的宏基因組數據中重建樣本特定的代謝模型。

下圖是該軟件的流程圖,圖中藍底白字的部分是該流程中所使用到的軟件,都是已經由他人開發完成的。

研究者們自己開發的部分有兩個:

一是end-to-end的框架,能夠進行羣落水平的代謝交互模擬;

二是一個來自宏基因組生物羣落的14,000多個MAGs,包括3750份高質量的MAGs,以及來自人類腸道微生物組研究和全球微生物組項目的相應的隨時可用的GEMs。

整個流程使用Snakemake實現,從原始的宏基因組的fastq文件開始,質控、組裝、估計contig覆蓋率、binning、Bin的改進和重組、MAG丰度定量和物種分類、CarveMe進行基因組規模代謝模型重建及質量報告,Smetana模擬重建的基因組規模代謝模型的腸道微生物羣落。

(這裏只簡單介紹了處理步驟,文章中的“Methods”部分有給出使用的參數)

除了以上的必備選項,該流程還有一些附加功能可供用戶選擇。可以使用GRID估計中和高覆蓋率的MAGs的增長率。

Prokka可以對MAGs做功能註釋,並且其結果可以提供給Roary,獲得一組MAGs的核心MAG和泛基因組的可視化結果。

EukRep可以用於尋找真核生物的MAGs。

EukCC可以對真核生物的bins做後續的分析。

流 程 特 點

MetaGEM流程具有兩個特點:

一是直接從宏基因組獲得高質量的代謝重建;

二是可以爲個性化的人類腸道羣落建模,研究者通過兩個實驗進行了描述:

MetaGEM模型與EMBL、AGORA、KBase和Bigg模型相比較

用MetaGEM基於宏基因組短讀序列構建MAGs,分爲HQ(高質量的),MQ(中等質量的),並以此進行代謝重建,總共獲得14087個GEMs,然後將它們與高度精選的基於參考基因組的BIGG模型、AGORA、EMBL和KBase模型進行了比較。

利用基於定位的方法(方法)生成的丰度估計值與基於標記基因的丰度估計值完全相關;

MetaGEM和其他模型都具有類似數量的反應和代謝物,但基因數量相比較少;

通過計算模型之間成對的代謝之間的距離,發現MetaGEM具有相似的酶多樣性分佈;

可以捕捉到種水平物種間的顯著的代謝差異。高達60%的代謝多樣性存在於物種泛基因組中,metaGEM模型捕獲的物種內代謝變異程度顯著

與基於參考基因組的腸道物種代謝模型AGORA比較,發現基於參考的模型引入的代謝反應不一定存在於每個宏基因組環境中,而MetaGEM模型是完全基於實際的宏基因組在特定環境下重建的代謝模型。

AGORA和MetaGEM模型的EC數的交集在48.9%到69%之間,其中53.9%的情況下MetaGEM模型比相應的AGORA模型包含更多的EC數。

研究健康和代謝受損的2型糖尿病患者腸道微生物羣落中潛在的微生物代謝相互作用。

使用metaGEMs通過137個宏基因組數據重建了4127個個性化的GEMs。

根據疾病狀況分類,即正常糖耐量(NGT,n=42)、糖耐量受損(IGT,n=42)、 2型糖尿病(T2D,n=53),然後應用Smetana軟件模擬微生物羣落中的物種間依賴關係,Smetana爲每個羣落輸出一個分數表,對應於在給定條件下爲支持羣落成員的成長而應發生的交叉餵養相互作用強度的度量,即物種A生長的可能性取決於物種B的代謝物X。

不同的2型糖尿病疾病組(NGT、IGT、T2D)相對應的腸道代謝基因組產生具有不同代謝結構的羣落。

結 語

MetaGEM具有完善的流程,搭載的工具也是生物信息分析中常用的處理工具,下載很方便,用conda就能完成。無需參考基因組,這也意味着不需要下載動輒幾十Gb的文件。使用Snakemake做流程的自動化管理,運行命令簡單,也可以分步驟運行。

總體而言,MetaGEM可以直接從宏基因組數據中研究複雜微生物羣落中特定樣本(sample-specific)的新陳代謝。

【附錄】

關於文中MetaGEM流程搭建所應用到的宏基因組分析軟件,這其中也有我們常用的軟件,比如fastp、MEGAHIT、bwa、SAMtools、metaWRAP,它們在處理數據時非常的方便也易於上手。

參考文獻:

Zorrilla F, Patil K R, Zelezniak A. metaGEM: reconstruction of genome scale metabolic models directly from metagenomes[J]. bioRxiv, 2021: 2020.12. 31.424982.

相關閱讀:

以呼吸道菌羣研究爲例:探索一步或兩步PCR方案在16SrRNA V3V4與V4區域的偏差

宏基因組測序中短序列的註釋

宏基因組的一些坑和解決方案

相關文章