從首個蛋白的一級結構被公佈,到如今DeepMind打造的AlphaFold系統開始破解人類蛋白組幾乎所有蛋白的空間結構,已經過去了超過70年的時間。AI在結構生物學領域取得的重大突破,不僅提升了我們對蛋白質的理解,還將改變我們對幾乎所有生理過程和人類疾病的認識。

撰文 | 石雲雷

審校 | 吳非

去年年末,人工智能研究實驗室DeepMind的AlphaFold在國際蛋白質結構預測競賽(CASP)上一騎絕塵,首次將蛋白三維結構預測的分數提升至90分。不到8個月後,DeepMind又爲生物學界帶來了兩個重磅消息。7月15日,他們在《自然》雜誌上發佈了關於AlphaFold算法的新論文,實現了原子層面上的蛋白質結構精確預測。僅僅一週之後,他們又和歐洲生物信息學研究所(EMBL-EBI)合作發表了一篇《自然》論文。這次,他們想要完成的是一個更大的目標——破解人類蛋白組中所有蛋白質的三維結構。

氨基酸,蛋白質

從人類首次解析出構成蛋白質的氨基酸序列,到如今可以模擬和解析人體蛋白組中絕大多數蛋白的三維結果,科學家已努力了超過70年。1949年,英國生物化學家弗雷德裏克·桑格(Frederick Sanger)通過水解胰島素,首次確定了組成牛胰島素的氨基酸序列,這也是人類確定的首個蛋白質的氨基酸序列。這些氨基酸序列是牛胰島素的一級結構,如果我們只按照這個序列合成胰島素,得到的產物不會有活性。氨基酸序列需要通過數步摺疊過程,形成複雜的3級結構後,才能成爲具有功能的蛋白質。

1965年,中國科學家首次解析出胰島素的精確結構,人工合成出了具有活性的胰島素。在人類的蛋白組中,胰島素是一種結構簡單的小型蛋白質,它含有兩條肽鏈,有51個氨基酸。對人類等真核生物來說,一個蛋白質中平均含有400多個氨基酸殘基,其中絕大部分蛋白質的空間結構遠比胰島素複雜。

人類基因組草圖公佈後,科學界對蛋白質的研究進入了快車道。經過數十年的努力,研究人員通過解析蛋白質的氨基酸序列、提取純淨和高質量的蛋白質,再加上冷凍電子顯微鏡的應用,至今已經解析出了超過5萬個人源蛋白質的三維結構。無疑,我們獲得蛋白三維結構的速度正在不斷變快。

不過,實驗解析蛋白質也受到諸多限制。由於這一過程過於繁瑣,且稍有不慎就無法獲得較好的蛋白質空間結構,因此仍有大量人源蛋白質結構有待破解。與此同時,一些科學家開始嘗試另一種工具——藉助人工智能(AI)技術來預測蛋白的空間結構。

1994年,計算生物學家約翰·莫爾特(John Moult)等人創立了CASP比賽,讓AI加入到蛋白質三維結構的研究中。不過在此之後的20多年中,各個AI實驗室在這項比賽中的始終缺乏實質性突破。直到DeepMind的加入,徹底改變了這一局面。

2020年,DeepMind開發的一款蛋白質三維結構預測算法“AlphaFold”一舉奪得了當年CASP比賽的最高分(GDT分數爲90分),比第二名的分數高出了15%。GDT分數主要用來評估算法預測三維結構中氨基酸的位置與實際空間結構的差距,分數越高,預測越準。當時AlphaFold就像是一枚投在生物學界的炸彈,當時《自然》《科學》等相繼發文,強調了這是人工智能的一次重大勝利。

從實驗解析到AI預測

在細胞中,蛋白質的摺疊過程需要分子蛋白或輔助蛋白的幫助。而我們能看到的是,一些氨基酸序列通過一系列變化,形成了一個具有三維結構和活性的蛋白質。在蛋白質中,具有相同特性的氨基酸通過特殊的共價鍵(例如二硫鍵)聚集到一起,形成一些特定的螺旋結構,比化學鍵更加微弱的分子間作用力維繫着蛋白質的三維結構。

但是,依靠這些理論還遠遠不足以準確預測蛋白質的三維結構,這也是很多參與CASP比賽的算法分數不高的原因。在今年7月15日一項公佈於《自然》的論文中,DeepMind的研究團隊詳細介紹了AlphaFold成功的原因。這一算法採取了多序列比對和一種新型的神經網絡架構,將重點放在一些關鍵的氨基酸上。此外,這一算法還納入了結構模塊(Structure Module),用於評估預測的蛋白質結構的每個氨基酸殘基與其真實位點的差異。DeepMind的研究團隊還強調,AlphaFold是首個在不知道相似蛋白的結構時,也可以在原子層面上精確預測蛋白質結構的算法。

昨日,在發表於《自然》期刊的一項研究中,他們和EMBL-EBI合作利用AlphaFold做出了一項更有突破性和實用性的研究——直接對人類蛋白組中98.5%的蛋白質完整三維的結構進行了預測。根據他們的估計,雖然蛋白質資料庫(PDB)中公佈的人源蛋白質三維結構佔到了目前人類蛋白組的35%,但是很多蛋白質的空間結構並不完整。實際上,完整的三維蛋白質結構只佔17%。

類似於CASP比賽中的GDT分數,研究人員也爲AlphaFold設置了一個可以評估預測可信度的數值——pLDDT(每個殘基位點的可信度測評,per-residue confidence metric)。當pLDDT值大於90,表示對蛋白質中某個氨基酸殘基位置的預測具有很高的可信度;當pLDDT值大於70,表明預測結果是基本準確的。

在對人體蛋白質組三維結構的預測中,AlphaFold精確預測了35.7%的氨基酸殘基的位點,基本準確地預測了58.0%的氨基酸的位點。在蛋白質水平上,這一算法也能較爲準確地預測人類蛋白組中43.8%的蛋白質至少3/4序列的空間結構。在1290個沒有沒有參考結構的蛋白質中,AlphaFold能較爲準確預測每個蛋白中近200個氨基酸殘基的空間結構(pLDDT≥70)。

一種由WFS1基因編碼的蛋白,突變會導致WFS綜合徵。(圖片來源於論文)

在這次實驗中,AlphaFold還準確預測出由於許多和藥物靶點相關的酶和膜蛋白的三維結構。由於膜蛋白的結構複雜,一直以來,通過實驗方法來解析這類蛋白的結構都極具挑戰性。除此之外,AlphaFold還能較爲準確地預測出此前沒有接受過訓練或不熟悉的蛋白質的三維結構。

除了人源的蛋白質,他們還利用AlphaFold對其他20種模式生物(包括小鼠、玉米和瘧原蟲)蛋白組中的蛋白進行了預測。根據《自然》官網的消息,這些預測的蛋白質三維結構數據已通過EMBL-EBI託管的公用數據庫免費向公衆開放,目前有近36.5萬個蛋白質結構已在該數據庫中發佈,而到今年年底,這一數值有望增長到1.3億。DeepMind和EMBL-EBI的研究人員強調,目前這部分工作還只是一個開始。他們想要進一步驗證這些預測的結果,更重要的是,將它們應用到迄今爲止不可能實現的實驗中。

重大意義

近70年來,解析蛋白質的空間結構一直是一項極具科學意義的難題。如果基因組是一個“指令官”,那麼蛋白質就是基因功能的“執行者”,可以說蛋白質幾乎參與人體內所有的生理過程和疾病過程。如果我們能掌握蛋白質的精確結構,就像解析了一把精密的鎖的內部結構。對於人類來說,也更容易開發出一把甚至多把能打開這些“鎖”的鑰匙,而這將會改變我們在分子水平上對自身的認知,治療現今絕大多數的人類疾病。

DeepMind聯合創始人兼首席執行官傑米斯·哈薩比斯(Demis Hassabis)認爲,這是人工智能系統迄今爲止對推進科學發展作出的最大貢獻。此外,對於一些AlphaFold無法準確預測的蛋白結構,一些科學家也發表了自己的見解。一部分人認爲,在人類等真核生物中,相當一部分蛋白質區域本身就是無序的,這或許是爲了與其他的蛋白分子相互作用,也可能還有一些我們還不知道的作用。

值得一提的是,在《自然》於上週發表AlphaFold論文的次日,《科學》雜誌也公佈了另一項蛋白質預測算法——RoseTTAFold。這個算法由華盛頓大學醫學院蛋白質設計研究所和哈佛大學、劍橋大學等機構聯合開發。它採用和AlphaFold2不同的深度學習算法,但具有AlphaFold2可媲美的超高準確率,而且速度更快、對計算機處理能力的需求也較少,能在短短的10分鐘內計算出一個蛋白的結構。目前,研究人員正在用這一算法研究一些和人類健康直接相關的蛋白質的結構。

這兩項算法的出現無疑標誌着在結構生物學領域,AI的時代已經到來。

封面圖來源:PROTEIN DATA BANK

參考鏈接:

https://www.nature.com/articles/s41586-021-03828-1

https://www.nature.com/articles/d41586-021-02025-4

https://www.nature.com/articles/s41586-021-03819-2

本文轉自環球科學

相關文章