隨着OpenAI、微軟、百度等大廠競相發佈ChatGPT大模型產品,AIGC的落地應用逐漸成爲新的關注焦點。大廠以外,初創公司已經率先將探索的觸角伸向了生命科學領域。日前,創業企業百圖生科發佈了其基於生命科學大模型xTrimo的AIGP(AI Generated Protein)平臺

與依靠人力設計、動物模型篩選等方法進行的傳統蛋白質生成模式相比,百圖生科CEO劉維對《科創板日報》記者指出,AIGP在針對“難成藥”靶點的蛋白設計上,有機會向傳統的蛋白質設計模式發起挑戰

“傳統上,蛋白質篩選主要依靠動物實驗,後者已形成了非常成熟的體系。如果用AIGP去替代它們的部分工作流程,意義相對有限;而對於難成藥靶點,傳統方式已經很難有所突破,AIGP有了更大的應用意義:它也許不能完全答對,但可以提出相關性預測,再通過多輪的迭代就能找到答案。”劉維稱。

《科創板日報》記者從發佈會現場獲悉,該平臺已構建了千億級參數的預訓練模型以及多組學免疫圖譜,目前有40餘個在研項目正經由AI技術在推進研發中,另已在內測中爲某創新免疫調控藥物提供了多個高性能彈頭、新功能傳感器

在算法端,更多的應用及反饋數據有助於大模型算法的迭代升級。百圖生科也計劃將AIGP平臺的部分成熟功能對專業用戶開源。劉維在現場預計稱,該平臺會在今年6月迭代至1.5版本,並將部分功能模塊進一步向專業用戶開放;年內,該平臺將進一步迭代至2.0版本,並向更多合作伙伴推薦使用。

進一步資料顯示,百圖生科成立於2020年11月,由李彥宏牽頭創立並出任董事長; 2021年7月,百圖生科宣佈完成上億美元的A輪融資,融資由GGV資本領投,百度、君聯資本、藍馳創投、真知資本、襄禾資本跟投,公司創始人李彥宏繼續追加投資。

記者獲悉,目前百圖生科正擬進行新一輪融資。

▌難以成藥靶點成新突破點

難成藥靶點指的是,那些因爲其獨特的生物學特性、藥物設計上的挑戰、臨牀研究上的難度等原因,而難以成藥的靶點。它是當前生物醫藥領域的一個熱點研究領域,也是科學家們想要挑戰的聖盃。

近年來,利用人工智能技術等新工具和方法來進行難成藥靶點新藥的研發逐漸在圈內流行,不少AI企業以及一些Biotech們都試圖通過在該類型靶點上進行突破而“出圈”。因此,百圖生科的選擇並不讓人意外。

在發佈會現場,劉維對該問題的態度也顯得很坦然:“大模型對於難成藥靶點有泛化能力的,可以爲科學家們進行賦能,反過來,來自專家的經驗也可以進一步幫助算法模型繼續優化迭代,進而形成正向循環。”

而且,進一步來看,由於缺少有效的開發方法,科學家們就難成藥靶點與AI企業進行跨界合作的意願也會更強。這是因爲,“對於難成藥靶點,其蛋白本身就難以製備,科學家們或許已經窮盡了傳統的研究方法,進展卻非常有限,對於新方法的接受度也會更高。”劉維稱,目前與百圖生科進行合作的夥伴,大部分是圍繞難成藥靶點所進行的。

合作數據上,百圖生科稱,已有近20家合作伙伴和百圖生科開展了AIGP聯合研發合作,方向覆蓋高性能彈頭設計、新功能蛋白質設計、靶點挖掘和調控蛋白設計等領域,其中多個項目取得了階段性的發現成果

除生物醫藥外,百圖生科也計劃將AIGP技術應用到環保、材料、消費等更多場景。

▌蛋白質設計開啓新市場

針對難成藥靶點的蛋白設計爲什麼能由AI來“代筆”呢?在現場,百圖生科的CTO宋樂給出了一個生動的解釋。

以ChatGPT類比來看,ChatGPT通過大量的語料預訓練,其訓練邏輯是26個字母-詞語-句子-段落-文章,預訓練後,再通過人的評分反饋以及強化學習算法,反覆迭代,最終ChatGPT能夠“自然流暢”地與人對話。

而蛋白質的自動生成,也存在着類似的邏輯鏈路。

“生命科學裏中,最重要的語言是蛋白質,蛋白質是由20種氨基酸串成的一條鏈,前者類似於單詞,後者則像句子一樣。各個氨基酸鏈之間摺疊成三維的蛋白質結構,再與其他蛋白質互相作用,這不就是聯繫上下文嗎?進而又產生了複雜的蛋白質相互作用網絡,形成細胞功能。”宋樂解釋稱,如果仔細研究人體,會發現各種細胞分子之間的作用關係非常有趣,“有點像詞、句、段落的嵌套結構。”

據介紹,百圖生科AIGP平臺設置了3類功能模塊,分別是Function to Protein Design(F2P,根據結構、功能、可開發性等功能指標設計/優化蛋白質)、Protein to Protein Design(P2P,給定抗原等目標蛋白,設計與之以特定方式結合的抗體等蛋白),以及Cell to Protein Design(C2P,給定細胞,發現調控細胞功能的靶點蛋白並設計相應的調控蛋白)。記者注意到,相較於其他同類型企業,與百度頗有淵源的百圖生科或在大模型非常依賴的算力解決方案上更有優勢。

▌大數據仍然關鍵

從數據上來看,百圖生科現有的數據量達到了千億級別。記者在現 場瞭解到,該數據中90%來自於公開和半公開的數據整理。

不同於日常語境下的聊天數據,AI企業要獲取生命科學領域的數據,其壁壘較高,而且數據的整理也更加複雜、成本更大。

“我們做了世界上最大的生命科學的數據圖譜。公開數據整理聽起來很容易,但是過程很難。因爲這些數據散落在不同的數據集,甚至不是結構化數據,是論文、專利,怎麼把它們抽取出來?它們表面看似不相關但在更底層卻是有連接的,怎麼關聯起來?我們有大量的專業人員,整理了幾億、幾十億的蛋白質實體,釐清了幾百億蛋白質的關係,這些都是給大模型非常重要的語料數據。”劉維表示。

宋樂則進一步補充稱,要訓練出千億參數級別的大模型,需要近一千個GPU運行數月時間,才能夠訓練一版比較好的模型,成本較大。“從當前的角度來說,我們能夠達到最好的模型是大概是千億級的參數,也許在未來一年或者三年時間,我們會訓練到萬億級別。”

在現場,劉維也坦言稱,企業在NLP算法以及算力上也和百度有相應的合作。

▌未來或可實現自動化蛋白質工廠

基於此,劉維向《科創板日報》記者描繪了一座“蛋白質工廠”:

由科研人員輸入對目標蛋白質的各種參數需求,算法在生成蛋白質後,該蛋白質可以被自動打印出來,這一系列工作可全部自動化完成。科研人員只拿着由算法自動化生產出來的蛋白質進一步科學驗證即可。

這樣一來,蛋白質設計、生產的整個流程將被極大簡化:“花大約幾十分鐘、幾個小時的時間來設計蛋白,用高通量的蛋白打印系統,幾天時間能把蛋白製備出來。”劉維稱,這一速度已經是業內領先的。

據悉,百圖生科已經在蘇州建立了高通量的蛋白打印中心,一年可實現幾萬個複雜蛋蛋白質的打印、製備、測定工作。“我們以後希望把這個能量再進一步擴展,從而支撐大量的研發項目。”劉維稱。

如此一來,百圖生科實現了自身業務從設計到生產再到驗證的閉環。

關於商業模式,劉維表示,百圖生科AIGP平臺,最終目的不是面向商業客戶收取服務費,而是尋找公測的合作伙伴,利用AIGP領先的蛋白質從頭設計能力和合作夥伴在生命科學領域的其他能力,包括擴展到石油、環保等其他領域的專業能力,來共同建立前沿的藥物研發項目,或者獨特的生命科學/環保健康等等產品的研發項目,通過雙方的合作,讓這些研發項目更快取得成功,這樣既可創造社會效益,也可獲得經濟效益回報。

本文來自財聯社,作者:金小莫,36氪經授權發佈。

相關文章