編者按:

今年的 5 月 20~21 日,達能紐迪希亞和熱心腸研究院聯合搞了一場特別的會——邀請了 8 位重量級專家出鏡發表線上演講,作爲爲期 8 天的第六屆紐迪希亞生命早期營養國際研討會(首屆雲端高峯論壇)的組成部分。

今天我們特別整理併發布王軍老師的演講視頻及圖文實錄,以饗讀者。

以下是圖文實錄:

各位老師同學,大家下午好,非常高興能在這樣一個虛擬的平臺跟大家交流我們自己在微生物組領域的一些見解。

本演講的幻燈片 .pdf 版將在熱心腸菌羣微信羣分享,感興趣的讀者請按以下方法申請入羣:

大家可能聽說了,我們國家現在正在進行新一輪基建。其中非常重要的幾個發展點就是大數據、5G 以及人工智能等方向。關於微生物組的研究其實我們也正在利用這些新的發展點,包括數據的增長,包括人工智能的發展等等。

所以,今天在這裏面給大家講一下我們自己的一些粗淺的見解。

我們現在的生活已經被大數據所包圍了。我們的醫療數據是大數據,我們的出行數據是大數據,我們的經濟行爲、購買行爲都是大數據。

這些大數據不光是能夠給很多我們自己的行爲進行描述,同時也給很多的商家、很多的政府機構提供了一個非常寶貴的機會來進行一些新政策的指導,比如一些刺激消費政策的提出。

同時我們也知道,這種大數據的發展是會持續地發展的,所以我們真正的是在大數據時代的一個最蓬勃發展的時期,但是同時也是相對來講比較初期的這樣一個階段。

大數據有這麼幾個特徵,我們叫做 Big FOUR。

Big FOUR 的話,就是它的量很大,它的 Volume(大量)很大,它的 Velocity(高速)就是速度也會很快,數據傳輸可以實現百兆、千兆,甚至萬兆每秒的這樣一些傳輸速率。

Variety(多樣)是說我們有什麼樣類型的數據,比如說我們看到的這些社交媒體大數據是我們自身交流信息,還有生活狀態的一些內容,包括我們微信朋友圈,還有一些經濟的數據,比如說我們花錢買什麼。

我們自己以及很多做基礎醫學研究的人最關心的其實是人的健康數據,這些數據有多少,牽涉到我們什麼樣的方面,同時我們能用這些數據再去做什麼。

最後一個就是 Veracity(真實性),就是我們能用這些數據,再去延伸做什麼,就是它的這種多樣性、它的這種可用性以及這些數據之中的一些價值。

我們自己在做的主要的兩大類數據:一個是人自身的基因組數據,包括這種基因變異的數據;另一個呢,在微生物所這樣全國領先的微生物研究機構,所研究的微生物組學數據。

在過去的 20 年左右,我們首先對於自身的基因組有了初步並且快速發展的這樣一個認識。我們從最早的幾個人的基因組,慢慢地發展到幾千人、幾萬人,甚至十幾萬人的基因組信息。

在左邊這張圖上,我們可以根據這些信息很明確的分出來各個地域、各個不同民族之間有明顯的這種基因組上的區別,包括一些單鹼基的變異和一些大規模的變異等等。通過這些數據,我們其實就可以反推出他們之間相互的這種親緣關係,以及他們在歷史上的變遷、 相互的通婚和交互等等。

而右邊同樣是高維度的數據,只不過這次我們看到的是宏基因組,也就是我們腸道或者其他地方微生物組的組成以及功能的數據。

比如說在這張圖裏面,我們發現腸道菌羣是我們研究最多的一個菌羣,但它其實並不是最有代表性的一個菌羣,我們的皮膚、我們的呼吸道,甚至生殖道系統等等,它們的菌羣是和消化道完全不一樣的。雖然對於它們的研究相對來講比較少,但是在健康領域,在對人的健康和疾病的影響方向,它們的重要性一點都不遜於腸道微生物組的貢獻。

過去的 10 多年是我們能夠獲取這些數據的能力快速增長的 10 多年,因爲我們有了一個 game changer,這就是在生物醫學領域有着突破性變革的第二代測序技術,或叫下一代測序技術。

在 16S rRNA 作爲宏基因組的主要 Marker 的基礎之上,我們開始對於微生物組全新的、更全面的這種研究也是全靠第二代測序技術。

它的發展使我們能夠獲得與之前相比完全不是一個等級的 16S rRNA 的數據量。

之前我們可能用好幾周,甚至好幾個月的時間才能獲得幾十條、幾百條的細菌的 16S rRNA 的數據。但是我們現在通過一次二代測序就可以獲得幾萬條、幾十萬條,甚至更多的這種數據,我們可以一次獲得很多生境裏面主要的代表性細菌的這種分類學組成,就知道什麼細菌在那個地方。

除了做 16S 這種傳統的、比較保守的生物學 Marker 之外,我們還可以進行全部的宏基因組的 DNA,甚至 RNA 的分析,隨之就產生了宏基因組和宏轉錄組這樣的一些代表性研究。

在這個研究裏面我們通過對 DNA 或者是 RNA 反轉來的 cDNA 這種全部的測序,明確了很多微生物組在更精細的水平上的組成以及它們究竟發揮什麼樣的功能。

在中間還有一個非常小的模塊叫做病毒組學,病毒組學也是隨着二代測序技術的發展逐漸發展起來的這樣一個學科。但是我們現在對它的這種投入以及對它的瞭解還是相對比較少的,主要還是一個方法學上的一些限制。

在生物信息學利用這些數據的歷史上,可能最大的就是人類基因組學的這樣里程碑式的一系列研究。

在本世紀初的時候,我們成功破解了人的基因組,隨後我們從幾個人的基因組,就慢慢發展到了幾十個幾百個,甚至幾千個人的基因組。比如說有一個專門的項目叫做 1k genome project——1 千人基因組的研究。

後來,又有一些國家發展了國民基因組計劃,比如說英國,比如說冰島等等。這些國家相對來講人口要比我們少很多,特別關注整個國民的基因組組成,所以他們提出了非常大的這種測序計劃,包括 Genomics UK 這樣測序超過 1 萬人的基因組測序項目,以及現在仍然在進行的冰島測序項目。

冰島人口相對來講是非常少的,然後通過這個項目他們可以實現整個國民 10%,甚至更多的這種基因組的研究,並且在這個項目裏面也發現了非常多有意思的現象,大家有興趣的可以去看專門的科普報道。

同樣在宏基因組的研究方向,我們也有一系列這種地標性質或者是里程碑式的研究,最有代表性的就是著名的人類微生物組計劃(Human Microbiome Project)。

世界上很多的實驗室和科學家共同解析了人類微生物組的圖譜,包括我們最常見的腸道微生物組,包括我們的呼吸道、生殖道,以及其它地方的微生物組等等。

這是我們第 1 次有概念,我們的腸道、皮膚以及其它地方有多少不同的細菌,然後這些細菌的動態變化是什麼,它們可能編碼的基因又能做什麼,以及對於我們的健康有可能產生一些什麼樣的影響等等。

在那之後,他們又開展了第 2 期的微生物組計劃,叫做 iHMP。樣本量從原始的 300 多一直拓展了後面的將近 2000 人,然後每個人會有各種各樣不同位置的微生物組數據,以及隨着時間變化的數據。在這個裏面,我們也初步看到了很多與疾病相關的一些微生物組的變化等等。

當然,除了這個項目之外,還有很多專門的針對不同疾病以及不同的人羣所建設的微生物組的研究項目。

比如說歐盟和中國華大以及另外的幾個單位一起參與的 MetaHIT 項目。它是專門針對不同國家 2 型糖尿病患者與正常人菌羣的不同,有很多非常著名、非常有影響力的研究成果在這裏面被發現出來,比如說 enterotype 腸型這個概念,以及 mGWAS(微生物組的全基因組關聯)等等。

下面這個圖是一個叫做 TwinsUK 的項目,在這裏面所有的人都是雙胞胎,有一些是同卵雙胞胎,有一些是異卵雙胞胎。這樣的一個設置或者這樣一個人羣就提供了一個非常好的研究基因型對於微生物組以及其它性狀影響的平臺。

我們知道同卵雙胞胎和異卵雙胞胎的生活環境基本上是一致的,但是他們的基因型在異卵雙胞胎裏面是 50%左右,而同卵雙胞胎的話,他們的相似性是 100%。這樣的話,一些性狀如果真的是和基因密切相關的,我們能在這兩類雙胞胎中看出明顯的不同。

而且事實證明,在菌羣方向,我們也確實看到了這兩類的不同,從而確定了人類基因組對於微生物組明顯的影響。

在 2016 年,我們的微生物組研究進入了大數據時代,真正的大人羣時代。

在這一期的 Science 上, 包括我在博後時候的實驗室以及荷蘭的一個研究組各自發表了 1000 人以上的宏基因組數據,以及與各項生活習慣、用藥、血常規,還有其它的一些全面的指標之間的關聯性研究成果。

在這裏面,我們首次利用幾百個指標去對應幾百個不同的細菌成分,這樣的研究真的只能在幾千人以上的這種數據裏面才能實現。

同樣是 2016 年,11 月份的時候 Nature Genetics 也是以封面文章的形式發表了三篇這樣的研究。

在這裏面,我們就初步探究了或者說初步建立了在人類基因組裏面真正影響微生物組的突變位點以及變異的圖譜,找到了非常多的和我們已知的一些疾病非常相關的一些位點。這樣的話,我們就確定了微生物組在很多疾病中可能發揮的這種間接或者是直接的作用。

我們現在可以對於微生物組的這樣一些變異,或者是人與人之間的不同做一些總結。我們知道一些主要的因素怎麼樣去影響微生物的不同,以及這些不同又反過來怎麼影響人類健康。

比如說剛纔提過的我們人和人之間的這種腸型很有可能就是不一樣的,它像我們的血型一樣可以分成不同的型。這種型表現成細菌組成的不同,但同時也表現成疾病發病頻率的不同。

我們現在的研究基本上認爲,這種腸型主要是我們的飲食決定的:長期飲食決定我們腸型。基因有一定的影響,但是比飲食要小一部分。反過來,我們現在也知道,由於飲食導致的微生物組的不同也會影響我們自身的這種健康。

比如,在 Cell 上發表的一系列的文章已經明確我們喫的很多飲食,我們喫的很多肉食性的這種食物會被我們的腸道微生物變成叫做三甲基亞胺以及氧化三甲基胺這樣一些物質。

而這種轉化能力的不同在很多人裏面能夠進一步的影響這些人心血管疾病發病的頻率,因爲氧化三甲基亞胺和三甲基亞胺是非常重要的調節心血管疾病發病率的化學物質,或者說代謝產物。

我們也知道,很多的用藥能夠影響我們微生物組的這種不同,即使這些藥一開始的時候並不是作爲抗生素來使用的。至少有 20%以上的已知常用藥能夠對於微生物產生一些抑制作用,可能會造成腸道的穩態失衡。

可能參會的同學和老師特別關心的一點就是嬰幼兒的這種健康,還有與菌羣之間的關係。這裏我可以給大家推薦兩個非常著名的研究體系,一個叫做 DIABIMMUNE,另外一個是下一張圖的 TEDDY 這樣一個系統。兩個研究都是由美國 Broad Institute 帶頭實施的,在過去的很長一段時間裏特別關注嬰幼兒微生物組的發展以及與健康的關係。

比如說,他們發現抗生素的使用在一些兒童中導致了菌羣的失調,多樣性的降低,而這種多樣性的降低和 1 型糖尿病的發病是有非常明確的關係的。所以在嬰幼兒的發育和成長過程中,怎樣去儘量避免,或者是減少抗生素的使用,怎樣避免腸道菌羣的失衡,以及避免這種自發性免疫性疾病的發生是我們之後要非常關注的一個話題。

還有剛纔說的 TEDDY 項目,TEDDY 是一個更大的研究,所參與的嬰幼兒更多。基於這個研究,我們基本上可以把嬰幼兒的腸道菌羣發育發展分成三個階段:一個就是 3~14 個月的時候,這是一個初始的發展期;然後 15~30 個月的時候是一個轉型期;最後在 31~46 個月的時候,他們才真正的實現穩定。

而在每個階段所發生的人爲的干預、干擾,或者是一些不精心不經意的干預、干擾,都可能對於嬰兒的發展產生不可估量的影響。

嬰幼兒的菌羣比較簡單,容易受到影響,但並不是說青少年之後,成年之後,他們就不受影響了。同樣很多因素在影響菌羣的這種組成和功能,所造成的菌羣失調就有可能導致一些疾病的發生。

我們現在已經知道,菌羣能夠和基因的背景相互作用。

比如說同樣的飲食,一些人喫了就迅速發胖,另外一些人怎麼喫都不胖,那我們就要考慮這個人本身基因型的問題。是不是他的代謝的基礎率會更高一些?第二個,他們是不是有更多代謝時候特別有效率、特別高效的菌羣?這樣的話,我們就能夠去同時兼顧營養、人的基因和菌羣這幾個方向的互作對於人的健康最重要的影響。

並且我們對於嬰幼兒的健康還開始往前推,就是對於孕期母親的健康。我們也發現腸道菌羣、陰道菌羣等等雖然不會直接和嬰幼兒發生接觸,或者說在懷孕的時候不直接發生接觸,但是腸道菌羣的很多代謝產物以及在生產過程中陰道菌羣與兒童這種接觸等等一旦發生改變,我們就能夠看到嬰幼兒腸道菌羣發展的不同以及在健康指標等方向的差異。

這也告訴我們,如果我們是想關注一個人的健康發育的話,其實就應在孕期甚至孕前就開始進行關注整個菌羣的差異和干預以及不同的干擾因素;然後從產後一直到成年,甚至到老年,我們都需要以菌羣作爲其中的一個出發點去關注這個人的健康,去調理或者去影響一個人的健康。

我們怎樣去做這樣一些事情,怎麼樣把它整合成大數據,然後去研究呢?

我們就需要 BioBank ,需要這種生物的樣本庫,需要進行非常系列的長期追蹤,包括剛纔說的從孕期,甚至孕前開始追蹤一系列的人羣,然後不停地收取各種各樣的樣本。

通過不斷積累數據,通過這些數據有針對性的分析,我們才能夠發現越來越多需要去關注的因素,這需要非常大的一些投入,而且很多時候,也是比較耗時間的,但是這些事情真的是需要做。

我們剛纔說了,過去 10 年、20 年生物醫學的進展特別得益於第二代測序技術,就是 NGS 技術的發展。現在我們非常有幸迎來了 TGS,就是第三代測序技術,也就是迎來了單分子實時熒光測序技術的發展和興起。

其中一個代表就是英國牛津納米孔公司所研發的 ONT 系統。這種檢測平臺可以實現 DNA 或者 RNA 分子更長的直接測序,還能夠在一些 DNA 或者是 RNA 分子上看到它們的一些修飾的信息,所以我們能看到更多組學。

我們自己工作組在過去的時間裏面發展了一個叫做 Tri-Ome-Seq 的測序技術,它可以實現宏基因組、宏轉錄組,以及宏甲基化組的同時檢測。我們現在已經在很多的人羣裏面進行這種全面的大數據的積累和分析。

同時,我們利用這個技術已經開始解析人的病毒組,尤其是腸道病毒組。

我們在過去的一段時間裏面,對於病毒組是相對比較忽略的,但是一些基礎性的研究,一些前沿性研究已經表明,尤其是在嬰幼兒裏面,病毒組的發生發展與健康是息息相關的。

同時,在成人裏面,我們也知道很多疾病的發生,不光有微生物組的變化,不光有微生物組的失調,他們的病毒組也發生了非常明顯的變化。

我們工作組最近發表的文章就是利用宏基因組病毒組的這種提取富集技術,結合三代測序進行了全基因組的測序以及拼接工作。利用三代測序我們能夠獲得很多病毒的全基因組,而且是直接獲得,不需要之前的特別複雜那種拼裝。這樣的話節省了很多的計算,也節省了很多時間,有助於我們進行非常多的且深入的病毒組學研究。

最後,除了“大數據”這樣一個比較炫的名詞,大家很有可能也每天都被“人工智能”這樣一個關鍵詞所轟炸。

真正的人工智能現在發展前景非常廣闊。但是我們所謂的這種比較寬泛的、能夠自我思考的這種人工智能,就是在電影 Terminator 裏面所描述的那種,現在還是非常難實現的,甚至有一些專家認爲是基本上不可能實現的。

現在人工智能真正應用的領域都比較窄,是用來解決特殊問題的。所以有的人也非常有意思地稱他們是“人工智障”。也就是說,我想要一個人工智能的算法,或者一個人工智能程序去做一件事情,它就做不了其它。對於人工智能這些算法,我們很多時候需要針對一個問題進行一次編程,針對另外一個問題這一套算法就完全失效了。

比如右邊我去訓練一個算法去判斷一個動物是狗,還是貓。你可以讓電腦訓練非常好的算法,能夠把狗和貓分得特別清楚、特別快,但是這樣一個程序不能去做其它的,比如炒菜或者買菜這樣的一些工作,所以這就是現在這種比較狹義的人工智能的一些限制。

有限制並不是說做不好或者是沒有用,尤其是過去兩年之內,我們看到了人工智能在很多領域的快速發展及應用。在醫學上,我們現在已經用人工智能去非常快、非常準確地分析很多醫學影像數據,或者進行一些新藥的研發等。

比如說最近在 Cell 上的一篇論文,他們用人工智能辦法非常快地挖掘出了一個全新的抗生素,用了可能就十幾天的時間就完成了過去普通製藥行業幾年、幾十年才能完成的一件事情。所以,這些新的算法的應用真的在改變我們基礎醫學還有生命科學領域的面貌。

並且這種機器學習或者說這種深度學習已經在營養學方向被應用,這體現在以色列 Iran Segal 實驗室兩篇代表性的文章。

他們的主要思想或者他們主要的這種技術手段,就是我收集很多人腸道宏基因組的數據,收集他們一些生活的數據,收集他們飲食數據,然後先用這些大規模的組學數據去訓練一個模型,最終實現對於同樣一個人我可以判斷:他喫不同食物所造成的這種餐後血糖的升高,以及不同人對於同樣的食物所擁有的血糖反應。

這樣,對於一些特殊人羣,比如說 2 型糖尿病或者糖尿病前期人羣的血糖控制是非常有意義的。

並且我們相信這種方法也是具有一定的通用性的,只不過我們對於任何的一個研究,或者對於任何的一個指標的預測都需要積累大量的數據才能真正的實現,我們自己的研究組也在涉足這個領域。

我今天的報告就到這裏,非常感謝大家的聆聽!

相關文章