來源:果殼

衆所周知,蛋白質就是一串氨基酸而已。

可是,拿到氨基酸的排列順序,你能猜出它會摺疊出怎樣的三維結構麼?恐怕很難。就算是天天研究蛋白質的科學家們,也被這個問題困擾了50年。

如今有隻AI,能以前所未有的準確率預測蛋白結構。它給出的答案與蛋白質的真實結構之間,大約只差一個原子的寬度:

這隻AI名叫AlphaFold,來自谷歌DeepMind,和會下棋的AlphaGo師出同門。它剛剛在蛋白結構預測比賽CASP14上,超越所有對手獲得優勝。

消息發表之後,學界備受鼓舞。AlphaFold的存在,彷彿讓科學家擁有了上帝視角。Nature把馬普所生物學家Andrei Lupas的一句評論當做了新聞標題:它會改變一切。

怎樣的一場比賽

拿到一個氨基酸序列,每隻AI都會給出自己預測的三維結構。

那麼,擁有近100位參賽選手的CASP挑戰賽,是依靠什麼來衡量各位選手的得分?

首先,標準答案是通過低溫電子顯微鏡(Cryo-EM)等等學界標配的實驗方法檢測蛋白質本身,得出的相對精確的三維結構。

然後,對比標答和選手答案之間的相似度,利用的方法叫做Global Distance Test(全球距離測試,簡稱GDT)。GDT滿分爲100,通常只要選手得分超過90,就認爲一道題目做對了。

把所有題目算在一起,AlphaFold得分的中位數達到了92.4,大約2/3的題目都做對了。這個成績比其他選手高出一大截。

即便在最難的一組題目“自由建模(Free-Modelling Category)”當中,AlphaFold的中位數也有87.0分,比第二名高出25分。

CASP挑戰賽兩年一屆,從1994年開始至今已經舉辦了14屆,大致相當於蛋白結構預測界的奧林匹克。

比賽創辦人之一、馬里蘭大學教授John Moult毫不吝惜對這隻AI的讚美。他說,從某種程度上看,(蛋白結構預測)問題已經解決了。

對於那些AlphaFold預測與標答出現分歧的題目,Moult教授也認爲,並不能確定是AI預測出了差錯,還是實驗室結果本身有問題。

AI是怎樣煉成的

那麼,AlphaFold的工作原理是怎樣的?

DeepMind研究團隊說,一個摺疊的蛋白質可以視爲一張空間圖(Spatial Graph):構成蛋白質的每個殘基(residue)都是圖中一個節點(node),然後有邊(edge)把距離相近的節點連在一起。

如此一來,過往已知結構的那些蛋白質,都可以用這樣的眼光來看待。在日復一日的訓練之中,AI逐漸熟悉了圖上節點相連的規律。再遇到陌生考題的時候,便可以按照之前摸出的規律,連出一幅新的圖來。

2018年,AlphaFold官宣之初,便拿下了CASP13冠軍。雖然,那時它的得分中位數沒有達到90,也就是總體上沒達到系統判定正確的分數線,卻也遠遠超越了其他選手。

從那時起,歡呼和質疑一併到來了。許多人都擔心,這隻AI用某種人們不知道的方式作了弊。

不過,在一種名叫Orf3a的蛋白質上,AlphaFold證明了自己。加州大學伯克利分校的分子神經生物學家Stephen Brohawn說,AI預測出的蛋白結構,和後來實驗室用低溫電子顯微鏡做出的成像十分接近。

那麼,AI擁有這樣的能力,到底意味着什麼?

影響了誰的工作

大約半個世紀以前,有位名叫克里斯蒂安·安芬森的科學家,在研究RNA酶的時候發現:對一些蛋白質來說,只要環境不變,它的天然結構便只由氨基酸序列決定。

換句話說,給定一個氨基酸序列,理論上就可以預測出蛋白質的三維結構。

安芬森因此獲得了1972年的諾貝爾化學獎。他提出的這條假說也有了個響亮的名號:安芬森原則。

後來的幾十年間,科學家們在預測蛋白結構的路上艱難地前行,希望有朝一日能把“理論上”這幾個字去掉。

畢竟,蛋白質的功能,要靠摺疊成特定的結構才能實現。

而那些設計新藥或者新酶的科學家們,如果能瞭解某種蛋白質的結構,便可以更好地預判某種蛋白質能不能和特定的分子結合,進而帶來他們希望看到的反應。

假如AI能夠準確預測蛋白質的結構,許多科學家的工作(沒有被取代的話)可能都會變得更高效。

相關文章