由於對所有生物結構和功能至關重要,蛋白質通常被稱爲生命的基石,它們幾乎參與了細胞內的每一個過程,包括生長、分裂和修復。蛋白質由長的氨基酸鏈構成,氨基酸的序列決定其三維形狀,這些形狀又與蛋白質的功能密切相關。因此,瞭解蛋白質的結構可以更好地理解其作用和工作原理,這也是解決許多生命科學問題的關鍵,例如爲疾病設計新的療法或疫苗,或解決糧食安全問題和環境污染問題。

在過去的兩年裏,機器學習已經徹底改變了蛋白質結構預測,但幾乎所有實驗表徵的從頭蛋白質設計都是使用基於物理的方法生成的,如RoseTTA,這是一款用於模擬大分子結構的軟件。2022年7月28日,DeepMind宣佈其開發的AlphaFold已能預測出100萬個物種超過2億個蛋白質的結構,幾乎涵蓋了地球上所有已知蛋白質。然而,這些所描述的方法並不足以應對當前蛋白質設計的所有挑戰,

最近,《Science》上發表的三篇論文再度掀起了蛋白質設計領域的革命。

2022年9月15日,發表在《Science》上的一項新研究中,來自華盛頓大學醫學院著名的生物化學家David Baker教授實驗室的研究團隊表明,機器學習可以比以前更快速和更精確地創造蛋白質分子。這一進步有望帶來更多新的治療方法、碳捕獲工具和可持續的生物材料。

Baker表示,蛋白質是整個生物學的基礎,但迄今爲止,在每一種動物、植物和微生物中發現的全部蛋白質所佔比例可能遠遠不到所有蛋白質的1%。

爲了超越自然界中發現的蛋白質,Baker的團隊將應對蛋白質設計的挑戰分爲“三部曲”,併爲每一部開發新的軟件解決方案。

第一部,需要生成一個新的蛋白質形狀。

2022年7月21日,發表在《Science》上的一篇研究中,該團隊展示了人工智能可以通過兩種方法生成新的蛋白質形狀

第一種方法名爲“受限幻覺”(constrained hallucination),它可以優化序列,使其預測的結構包含所需的功能位點。第二種方法名爲“修復”(inpainting),它從功能位點開始,填充額外的序列和結構,通過專門訓練的RoseTTAFold網絡,在單次前向傳遞中創建可行的蛋白質支架。這有點兒類似於搜索引擎中的自動完成功能。

在最新的研究中,作爲“三部曲”的第二部分,該團隊設計了一種基於深度學習的蛋白質序列設計方法ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。

具體而言,ProteinMPNN解決序列設計問題的時間比Rosetta等基於物理的方法所需的時間要少得多(運行時間約爲1秒),在天然骨架上實現更高的蛋白質序列恢復,並挽救了之前使用RoseTTA或AlphaFold對蛋白質單體、組裝體和蛋白質-蛋白質接口進行的失敗設計。

總之,ProteinMPNN實驗設計成功率高,計算效率高,適用於幾乎所有的蛋白質序列設計問題,而且不需要專家定製即可運行。因此,在蛋白質設計中具有廣泛的應用價值。

在第三部分,該團隊在《Science》同期一篇背靠背研究中使用AlphaFold來獨立評估他們提出的氨基酸序列是否有可能摺疊成預期的形狀,並證實新機器學習工具的組合可以可靠地生成在實驗室中發揮作用的新蛋白質。

預測蛋白質結構的軟件是解決方案的一部分,但它無法提出任何新的東西。Baker表示,ProteinMPNN之於蛋白質設計,就像AlphaFold之於蛋白質結構預測。

他們發現,使用ProteinMPNN製造的蛋白質更有可能按預期摺疊,並且可以使用這些方法創造非常複雜的蛋白質組裝體。

在製造出的新蛋白質中,有一種是納米級的環,研究人員認爲這種環可以成爲定製納米機器的部件。

總之,這些方法機器學習在蛋白質設計中的真正開端。Baker表示,在接下來的幾個月裏,他的實驗室將努力改進這些工具,以創造出更有活力和功能的蛋白質。有了這些新的軟件工具,科學家們就可以爲長期以來在醫學、能源和技術方面的挑戰找到解決方案。

論文鏈接:

https://www.science.org/doi/10.1126/science.add2187

https://www.science.org/doi/10.1126/science.add1964

https://www.science.org/doi/10.1126/science.abn2100

舉報/反饋
相關文章