原標題:世見|人類基因組“拼圖”最後8%是如何破譯的?揭開了怎樣的生命密碼?每經專訪論文首發團隊T2T聯盟

每經記者 張凌霄  

人類基因組計劃被譽爲生命科學的 “登月計劃”。1990年,人類基因組計劃由美國能源部和美國國家衛生研究院投資,預期在15年內完成。2001年2月12日,由6國科學家共同參與的國際人類基因組計劃首次公佈人類基因組圖譜及初步分析結果。2003年,研究人員公佈了當時被稱爲完整的人類基因組序列,但其中有大約8%尚未完全破譯,主要是因爲它包含的高度重複的DNA片段難以與其他部分齧合。

近日,《科學》雜誌連續發6篇論文報告,公佈了由國際科學團隊“端粒到端粒(T2T)”聯盟研究出的首個完整無間隙人類基因組序列,填補了近20年來缺失的“拼圖”碎片。

繼2001年人類基因組序列的工作草圖問世後,時隔二十多年,人類基因組測序終於迎來了歷史性的突破。這一科學界的里程碑對於我們普通人來說意味着什麼?這份人類基因“拼圖”有何應用?

《每日經濟新聞》記者(以下簡稱NBD)專訪了T2T聯盟發起人之一、美國加利福尼亞大學聖克魯茲分校基因工程學助理教授凱倫·米加(Karen Miga),以及研究論文的主要作者——約翰斯·霍普金斯大學計算機科學和生物學系教授邁克爾·沙茨(Michael Schatz)以及華盛頓大學基因組科學系博士後研究員格倫尼斯·洛格斯登(Glennis Logsdon),揭祕首個人類基因組完整序列的創新突破和應用前景。

最後的“拼圖”碎片是什麼?

在人類基因組序列中,這部分被遺漏近20年的序列結構極爲複雜,主要是DNA序列高度重複的染色體中間部分的着絲粒、末端的端粒。

(編者注:每條染色體都有一個叫做着絲粒的收縮點。在分裂前期和中期,着絲粒把兩個姐妹染色單體連在一起。

聯盟此次發表的新研究成果則是填補了這部分的空白。“有約90%的新序列實際上來自染色體的着絲粒。”T2T聯盟研究論文的主要作者之一、加利福尼亞大學伯克利分校的博士後Nicolas Altemose介紹。T2T聯盟彙集了全球100多名頂尖科學家。

這些拼圖“碎片”有何作用?這項成果的創新性和突破性在哪兒?

NBD:這份人類基因組完整“拼圖”意味着什麼?

邁克爾·沙茨:基因組對生命的多個方面都有重大意義,它影響着一個人的主要特徵,如身體特徵,也決定着一個人患上不同遺傳疾病的概率。

以前的人類參考基因組GRCh38缺失了約8%的序列,因此幾乎所有以前的遺傳學和基因組學研究都無法探索這些序列如何影響人類特徵。儘管8%似乎是一個小數字,但它仍然可以做出重大貢獻。

另外,新序列糾正了當前參考序列中的數千個結構錯誤,我們由此發現了數百個臨牀相關基因,這包括與肌肉麻痹、心律失常、脊髓性肌萎縮、免疫力、癌症等疾病相關的基因。

凱倫·米加:完整的人類基因組序列將幫助我們加深對人類基因組中最難測序、且高度重複的那部分基因片段的理解。此外,它也將爲科學家研究人類基因組變異、疾病和進化提供一個全面的框架。

格倫尼斯·洛格斯登:人類基因組的完整序列爲我們提供了一個新的視角,隨着最後8%基因組的破譯,我們能夠更全面地檢測這些片段中的致病性基因變體,並開發出有效的治療方法。

NBD:新解鎖的8%基因片段具有什麼樣的功能?

格倫尼斯·洛格斯登:新的基因片段有許多不同的功能。首先,着絲粒是我們每一條染色體上的一大重要區域,它能夠確保每一條染色體在細胞分裂過程中被準確地分割到子細胞中。功能失調的着絲粒可能會導致癌症、不孕不育和先天缺陷。通過確定每個着絲粒的完整序列,我們現在可以開始識別導致染色體分離並導致這些疾病的基因變體,這將幫助我們開發新的治療方法。

其次,我們從多個高度重複的基因片段中發現了許多新的基因,其中就包括182個對疾病有重要影響的新基因。例如,存在一個被稱爲LPA的基因,它反映了冠心病、心血管疾病、動脈粥樣硬化、血栓和中風的遺傳風險。LPA的完整序列能夠幫助我們瞭解該基因中的變體如何促成上述疾病的形成和發展。

邁克爾·沙茨:新的基因序列解析了許多以前沒有被表現出來的片段。細胞需要着絲粒來保證其在分裂時能夠精確地複製DNA(通常是複製兩份,一份來自母親,一份來自父親),這個過程如果出現錯誤,就可能會導致癌症等重大疾病或是其他嚴重的發育障礙。

完整“拼圖”是如何解鎖的?

此前,這最後的8%基因組之所以很難被測序,主要是因爲它由高度重複的DNA“磚塊”構成,“就像是拿着好幾塊相同的拼圖碎片一樣,很難把它和其他的碎片拼在一起。”

T2T聯盟的研究人員通過新的納米機器設備與核心技術,讓小拼圖變成了大拼圖,得到了被稱爲“T2T-CHM13”的無間隙版本參考序列,基因組由30.55億個鹼基對和19969個蛋白質編碼基因組成。

完整“拼圖”是如何解鎖的?背後有什麼技術創新?後續有何研究計劃?

NBD:此次基因組測序取得重大突破的主要原因是什麼?

邁克爾·沙茨:新的技術確實非常重要。在T2T聯盟的研究中,我們使用了太平洋生物科學公司(Pacific Biosciences)和牛津納米孔技術公司(Oxford Nanopore Technology)發明的,被稱爲“長讀長測序技術”的新實驗方法對基因組的不同部分進行了測序,再運用新的算法來分析已經得到的數據,最終首次準確地組裝了基因組。

這個過程類似於組裝拼圖,然而許多“拼圖塊”因爲有着高度相似的着絲粒,就像天空中的雲或者撞碎的波浪,非常難以區分。

凱倫·米加:我認爲,正確的技術、正確的科學家團隊和正確的時間都非常重要。我們的每個細胞中都有數十億個DNA鹼基,而我們目前的技術是無法從頭到尾讀取基因組的。

構建基因組的過程經常被比作拼圖,在過去,研究人員只能對小部分DNA進行測序,得到的拼圖塊也就比較小,可能需要處理10000塊小拼圖塊。而我們使用“長讀長測序技術”,則讓這些小拼圖塊變成了100塊大拼圖塊。

格倫尼斯·洛格斯登:這次研究取得成功源於兩個方面的重大突破,兩者都同等重要。首先是測序技術的發展,“長讀長測序技術”所能提供的短讀數據長100-1000倍,使我們得以首次連貫地讀取一些片段。另一個重大突破是新的統計算法,通過這個算法,我們可以把讀取到的DNA組裝成一個高度精確的序列。

NBD:未來可能的研究方向是什麼?

凱倫·米加:我們的單一完整基因組並不能瞭解人類遺傳變異的全部多樣性。因此,T2T聯盟正在與人類泛基因組參考聯盟合作,致力於集合不同種族或血統的人的基因序列,建立一個能夠代表全人類的高質量參考基因組,這將是T2T聯盟未來幾年的一個重點工作。

邁克爾·沙茨:新的完整人類基因組爲下一步的研究提供了許多新機會。首先,我們可以使用這個新的參考基因組來重新分析現有的數據,包括研究和識別新的遺傳變異,進而認識新的疾病風險因素。第二,我們的研究證明了現在已經存在對人類基因組進行完全測序的技術,基於這一結果,未來可能使用相關技術對其他基因組也進行測序。

基因測序商業化前景如何?

過去幾十年中,伴隨着人類基因組測序進程的推進,基因測序的商業化落地也開始不斷拓展,基因測序在疾病早篩、微生物、遺傳學檢測等領域都是其應用方向。

但值得注意的是,目前基因測序技術的商業化應用比例並不高。Grand View Research的數據顯示,2020年全球基因測序行業下游應用中,54%的應用被學術研究佔據,用於臨牀研究和醫院診斷的比例僅爲18%和14%。

在測序技術逐漸成熟以及測序成本不斷降低的背景下,基因測序市場有其廣闊的前景。根據數據情報公司Precedence Research預測,全球DNA測序市場規模預計將從2020年的84.1億美元增長到2030年的約406.4億美元,2021年至2030年間的複合年增長率(CGRR)爲17.5%。

一邊是商業化程度不足,一邊是廣闊的市場。基因測序在哪些領域商業化應用前景向好?現階段發展又面臨什麼樣的難點?

NBD:基因組測序的研究成果有哪些應用?

邁克爾·沙茨:新的基因組可以有助於識別疾病的新風險等位基因或新的藥物靶點,也可以用於研究許多其他生物系統,尤其是研究作爲人類的藥物或食品的動植物。

另外,在農業領域,基因測序可以幫助育種,讓牛和作物更有生產力,對害蟲和不同的環境條件更有抵抗力。參考我們剛剛組裝的人類基因組,我們的測序技術也可以用於組裝主要農業物種的高質量參考基因組,這將有助於更好地揭示這些物種的基因組和表觀基因組變異。

格倫尼斯·洛格斯登:人類基因組的完整序列將幫助我們檢測導致不孕不育和流產的變異基因,尤其是着絲粒區域內的變異。通過識別這些變異並確定它們如何影響細胞分裂過程中的染色體分離,我們有望研究出降低不孕不育和流產等的風險、提高生育率的醫療策略。

NBD:這份完整的基因“拼圖”可以怎麼用?

格倫尼斯·洛格斯登:目前,許多針對基因疾病的檢測都是使用基因芯片對致病性變體進行檢測,這些檢測都是基於之前的人類參考基因組來進行的。但是之前的參考基因組缺少數億個鹼基,部分變異無法被基因芯片檢測到。有了人類基因組的完整序列,我們可以開始檢測新的致病性變異,但這需要開發新的基因芯片和軟件實現,這可能需要數年才能達成。

NBD:基因測序市場在未來幾年將如何發展?

格倫尼斯·洛格斯登:我預計在未來5-10年內,基於基因測序的個性化醫療市場可以有機會迅速擴張。個性化醫療領域有許多可以商業化的技術,比如智能手機的app,允許個人訪問自己的基因組序列,確定疾病風險,並制定預防措施或開始進行治療。此外,未來幾年基因組測序數據量必然將快速增長,因此用於存儲、處理和臨牀解釋基因組數據的雲平臺也有發展空間。  

相關文章