摘要:DeepMind利用其最新版本的AlphaFold系統,發現幾種與新冠病毒(SARS-CoV-2)相關的蛋白質的結構預測,並在今天對所有人公開。但DeepMind也補充道,只提供了缺乏合適模板或模板建模困難的蛋白質的預測,這些未被科學家研究的蛋白質,可能不是當前的焦點,但可能有助於研究人員理解SARS-CoV-2。

​​​​​​ 本文 授權轉載自公衆號:量子位(ID:QbitAI)丨​作者:乾明

疫情全球化蔓延之下,世界最頂級的AI研究機構加入抗疫陣列。

DeepMind利用其最新版本的AlphaFold系統,發現幾種與新冠病毒(SARS-CoV-2)相關的蛋白質的結構預測,並在今天對所有人公開。

他們表示,這些蛋白質結構還尚未被專家研究,希望能夠對抗疫科研作出貢獻。

“在共享的蛋白質數據庫中,我們的系統準確地爲SARS-CoV-2刺突蛋白提供了預測實驗,這使我們相信,我們對其他蛋白質的模型預測可能是有用的。”DeepMind在博客文章中寫道。

DeepMind的底氣,來自於AlphaFold——這個2018年12月問世便驚呆科學家的系統,它主要功能是用人工智能加速科學發現。

在2018年的“蛋白質結構預測奧運會”CASP比賽中,力壓其他97個參賽者,是第二名成績的8倍還要多。

所以在華盛頓大學利用蛋白質遊戲Foldit,集衆智對抗新冠病毒之後,不少人紛紛發問:爲什麼AlphaFold沒有出現?

現在,它來了。

DeepMind出手,用AlphaFold抗疫

“我們感激許多其他實驗室的工作,如果沒有全球各地的研究人員的努力,這項工作是不可能的,”DeepMind表示。

正是在全球各地,尤其是中國公開新冠病毒研究資料的情況下,他們才能夠得以發現如此成果。

AlphaFold問世以來,DeepMind一直在優化系統,希望其能夠更加強大。對SARS-CoV-2相關蛋白結構預測,是他們最新研究成果的體現。

他們的模型中,還包括每個殘差的置信度,來幫助指出結構的哪些部分更有可能是正確的。

但DeepMind也補充道,只提供了缺乏合適模板或模板建模困難的蛋白質的預測,這些未被科學家研究的蛋白質,可能不是當前的焦點,但可能有助於研究人員理解SARS-CoV-2。

通常情況下,瞭解一種蛋白質的結構,能爲理解它的功能提供重要的資源,但要確定這種結構,可能需要幾個月甚至更長時間的實驗。

現在,DeepMind已經將他們的蛋白結構預測放到了網絡上,供全球各地研究人員免費下載(鏈接在文末)。

DeepMind爲什麼能夠這麼快?背後的力量來自於AlphaFold。

AlphaFold如何實現加速度?

與傳統預測蛋白質3D結構的方法不同,AlphaFold僅僅基於蛋白質的基因序列,就能預測蛋白質的3D結構。

這是一個非常複雜任務。

基因序列中只包含蛋白質組成部分氨基酸殘基的序列信息,這些氨基酸殘基會形成長鏈。預測這些長鏈如何摺疊成複雜的3D結構,被稱爲“蛋白質摺疊問題”(protein folding problem)。

蛋白質越大,氨基酸之間的相互作用越多,建模也就更復雜,困難度也會成倍上升。

正如利文索爾佯謬(Levinthal’s paradox)中指出的那樣,在找到一個蛋白質正確的3D結構之前,要列舉一個典型的蛋白質所有可能的構型,需要的時間比宇宙存在的時間還要長。

DeepMind引入神經網絡來解決這些問題。

首先,他們訓練了一個神經網絡,用來預測蛋白質中每對殘基之間的距離分佈。然後,將這些概率組合成一個分數,用來估計一個蛋白質結構的準確度。

此外,DeepMind還訓練了一個單獨的神經網絡,基於所有距離的總和,來評估初步給出的蛋白質結構與正確答案的接近程度,並基於這些評分函數,去找到符合預測的結構。

神經網絡模型的加持,以及龐大的算力驅動,AlphaFold不僅用時更短,而且結果比以前的任何模型都要精確,2018年亮相之後一舉引發全球關注。

從那時到現在,DeepMind一直在投入資源優化AlphaFold。

現在疫情全球化肆虐,各大科技巨頭紛紛捲入其中,沒有誰能夠獨善其身,也是時候貢獻力量共同抗疫了。

而且,這同樣是對他們技術的一次驗證:實驗中效果很強,但實際中怎麼樣呢?

該出來遛遛了~

DeepMind新冠病毒相關蛋白結構預測下載地址:

https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip

*文章經作者授權發佈,不代表PingWest品玩立場,如需轉載請聯繫原作者。

相關文章