一直以來,從氨基酸序列出發預測蛋白質的三維結構是結構生物信息學中最具挑戰性的問題。但幾年前,由谷歌旗下公司DeepMind創建的基於深度學習的人工智能測序式模型AlphaFold解決了這個問題。

北京時間5月8日(週三)晚間,《自然》雜誌刊登了DeepMind的AlphaFold團隊和倫敦藥物研發公司IsomorphicLabs共同署名的論文,介紹了AlphaFold3,這是AlphaFold的第三代版本,全新的蛋白質結構預測系統能以前所未有的精度預測“蛋白質數據庫(ProteinDataBank)”內幾乎所有分子類型的複合物結構。

論文稱,AlphaFold3是一款革命性的系統。對於蛋白質與其他分子類型的相互作用,AlphaFold3在基準測試中的準確率比現有最好的傳統方法高出50%,且無需輸入任何結構信息,這使得AlphaFold3成爲首個在生物分子結構預測方面超越基於物理工具的方法的人工智能系統。

實際上,自初代AlphaFold問世以來,結構生物學家們對其能力邊界的討論就從未停止。此前有研究證實AlphaFold還無法預測新的突變對蛋白質的影響。不過,這仍無法掩蓋AlphaFold在預測生物結構方面前所未有的強大能力。美國洛斯·阿拉莫斯國家實驗室研究員、新墨西哥州聯盟高級科學家ThomasC.Terwilliger在去年11月發表於《自然》雜誌上的論文中稱,儘管AlphaFold的預測並非全部準確,但其提供了可信的假說,可以用作提示機制。所有這些能力很可能只是人工智能方法在結構生物學中日益廣泛應用的開端。

自初代AlphaFold問世以來,結構生物學家們對其能力邊界的討論就從未停止。圖爲由AlphaFold模擬的一種人類蛋白質的結構。視覺中國圖

AlphaFold3準確率比現有最好方法高50%

論文稱,基於AlphaFold2能力的提升,AlphaFold3如今能預測蛋白質與蛋白質、核酸、小分子、離子、修飾蛋白質殘基的複合物以及抗體-抗原相互作用,其預測準確性顯著超過當前預測工具,包括AlphaFold-Multimer。DeepMind團隊稱,這意味着AlphaFold3將人類帶到了蛋白質之外的更廣泛的生物分子領域。這一飛躍可能開啓更多變革性的科學,從開發生物可再生材料和更具彈性的材料,到加速藥物設計和基因組學研究等。

AlphaFold2於2020年問世,可根據蛋白質的氨基酸(蛋白質的基本成分)序列預測其3D結構。論文第一作者、DeepMind高級研究科學家JohnJumper和同事稱,到目前爲止,全球數以百萬計的研究人員已經使用AlphaFold2在瘧疾疫苗、癌症治療和酶設計等領域取得了進展。同時,AlphaFold2據稱已被用於預測數以億計的結構,而按照目前全球的結構生物學實驗的速度,這需要花費數億年的研究時間。

據悉,AlphaFold3的核心是深度學習模塊Evoformer的改進版,Evoformer是AlphaFold2的基礎架構。論文稱,只要給定分子輸入列表,AlphaFold3就會使用一個類似於人工智能圖像生成器的融合網絡來組合預測結果,不僅能生成它們的聯合三維結構,還能揭示分子是如何結合在一起的。

論文稱,AlphaFold3在預測類似藥物的相互作用(包括蛋白質與配體的結合以及抗體與目標蛋白質的結合)方面達到了前所未有的準確性。在基準測試中,AlphaFold3的準確率比現有最好的傳統方法高出50%,且無需輸入任何結構信息,這使得AlphaFold3成爲首個在生物分子結構預測方面超越基於物理工具的方法的人工智能系統。

DeepMind團隊認爲,AlphaFold3有能力將生物界帶到前所未有的高度。該系統能夠使科學家看到細胞系統的所有複雜性,包括結構、相互作用和修飾,同時揭示了它們是如何相互聯繫的,並有助於理解這些聯繫是如何影響生物功能的——比如藥物的作用、激素的產生和DNA修復的健康保護過程。

AlphaFold3的表現表明,開發正確的深度學習框架可以大量減少在這些任務中獲得生物學相關性能所需的數據量,並擴大已經收集的數據的影響。DeepMind預計結構建模將繼續改進,這不僅是因爲深度學習的進步,而且還因爲實驗結構確定方法的持續進步,例如低溫電子顯微鏡和斷層掃描的巨大改進,將提供豐富的新訓練數據,以進一步提高此類模型的泛化能力。實驗和計算方法的並行發展有望推動人們更快速地進入一個對分子結構和疾病治療更加了解的時代。

論文同時介紹,DeepMind新推出的AlphaFold服務器是全球預測蛋白質如何與細胞內其他分子相互作用的最準確的工具。

AlphaFold服務器是一個免費的平臺,生物學家可以利用AlphaFold3的強大功能來模擬由蛋白質、DNA、RNA以及一系列配體、離子和化學修飾物組成的結構。“AlphaFold服務器的影響將通過它們如何使科學家加速發現生物學和新研究領域的開放性問題來實現。我們剛剛開始挖掘AlphaFold3的潛力,迫不及待地想看看未來會發生什麼。”DeepMind團隊在論文中寫道。

而且,AlphaFold服務器可以幫助科學家提出新的假設,並在實驗室中進行測試,從而加快工作進度,實現進一步的創新。如果採用傳統方法,要實現蛋白質結構預測,不僅需要博士級別的知識水平,還要花費數十萬美元才能完成。谷歌雲平臺pl@orm還爲研究人員提供了生成預測的便捷方法,即使研究人員沒有計算資源或不掌握機器學習方面的專業知識也能操作。據悉,IsomorphicLabs正將AlphaFold3與一套互補的內部人工智能模型相結合,爲內部項目以及製藥合作伙伴進行藥物設計,以期加快並提高藥物設計的成功率。

AlphaFold並非完全準確,但可作爲提示機制

AlphaFold在不斷迭代中展現出了強大的性能,而科學界對這一預測系統的邊界探討也一直存在。

美國洛斯·阿拉莫斯國家實驗室研究員、新墨西哥州聯盟高級科學家ThomasC.Terwilliger在去年11月發表於《自然》雜誌上的論文中稱,AlphaFold的預測是有價值的假設,雖然可以加速藥物的發現,但並不能取代實驗結構確定工作。Terwilliger團隊的研究顯示,雖然AlphaFold的預測通常驚人的準確,但他們發現AlphaFold預測的許多部分與相應晶體結構的實驗數據不兼容。

另外,一些研究人員也曾嘗試將AlphaFold應用於會破壞蛋白質天然結構的各類突變,包括與早期乳腺癌有關的一個突變,但結果發現,AlphaFold還無法預測新的突變對蛋白質的影響,因爲沒有演化上相關的序列可以用來研究。

不過需要指出的是,Terwilliger團隊在上述論文中仍對AlphaFold的能力給出了非常正面的評價。該團隊寫道——儘管存在侷限性,但AlphaFold預測已經在改變蛋白質結構假設的產生和檢驗方式。儘管AlphaFold預測並非完全準確,但它們提供了可信的假說,可以作爲提示機制,並允許設計具有特定預期結果的實驗。

“所有這些能力很可能只是人工智能方法在結構生物學中日益廣泛應用的開端。人工智能方法必將從蛋白質擴展到核酸、配體、共價修飾、環境條件,以及所有這些實體之間的相互作用以及多種結構狀態。隨着更多因素的加入以及序列和結構信息數據庫的擴大,這些預測的準確性以及與之相關的不確定性很可能會不斷提高。預測結果將成爲越來越有用的結構假說,爲生物系統的實驗和理論分析奠定堅實的基礎。”Terwilliger團隊補充道。

相關文章