資料來源:Thor Swift/Berkeley Lab

肉香滿滿的素漢堡和用於美容的合成膠原蛋白都來自一個充滿潛力的研究領域——合成生物學。在該領域,科學家們可以設計出符合規範的生物系統,例如用於生產抗癌藥劑的微生物。然而,傳統的生物工程方法費時費力,而且需要不斷試錯。

現在,美國能源部勞倫斯伯克利國家實驗室(Berkeley Lab)的科學家們開發出了一種新工具,使機器學習算法可以適應合成生物學的需求,從而系統地指導生物製品的開發。

這項創新意味着,科學家們不必再花費數年時間對細胞的每個部分以及細胞的功能進行細緻的瞭解再對其進行操作。取而代之,通過有限的訓練數據集,算法就能夠預測細胞的DNA或生物化學變化將如何影響其行爲,然後對下一個工程週期提出建議,並對實現預期目標的概率進行預測。

伯克利實驗室生物系統和工程(BSE)部門的研究人員Hector Garcia Martin說:“要知道,研發抗瘧疾藥物青蒿素花了150年。如果你能在幾周或幾個月內創造出符合要求的新細胞,就能在生物工程領域掀起一場革命。”

該團隊與BSE數據科學家Tijana Radivojevic以及一個國際研究小組合作,開發並演示了這種名爲“自動推薦工具”(A machine learning Automated Recommendation Tool for synthetic biology,以下簡稱ART)的算法,並在近日發表於《自然•通訊》雜誌上的兩篇論文上對此進行了描述。

在第一篇論文中,研究人員針對合成生物學領域的特殊性定製了算法:小的訓練數據集、對不確定性的量化需求以及遞歸循環。此外,來自此前代謝工程項目的模擬和歷史數據也證明了該算法的能力。

在第二篇論文中,該團隊嘗試利用ART指導代謝工程,以提高色氨酸的產量。爲了進行實驗,他們選取5個基因,每個基因由不同的基因啓動子和細胞內其他機制控制,總共代表了近8000種潛在的生物途徑組合。研究人員獲取了其中250條路徑的實驗數據,並將這些數據用於訓練算法。之後,通過統計推斷,該工具能夠推斷出剩餘的7000多個組合如何影響色氨酸的產生。

最終,它推薦的設計方案得到的色氨酸產量比最先進的參考菌株高106%,比用於訓練模型的最佳設計高17%。

“這清楚地證明了,讓機器學習來指導生物工程是可行的。”Garcia Martin說,“這僅僅是個開始,而此次我們證明了代謝工程具有可替代性方法。算法可以自動執行研究的常規部分,而研究者則可以把時間花在更具創造性的方面,例如:決定重要的問題、設計實驗、鞏固已獲得的知識。”

研究人員表示,僅通過少量數據就能達到如此效果令他們感到驚訝。不過要想真正實現合成生物學的潛力,還需要更多數據訓練算法,以及更多機器學習方面的專業人才。合成生物學對於衆多領域都具有應用前景,例如:食品、醫藥、農業、氣候、能源和材料,目前其市場規模仍在不斷壯大。

科界原創

編譯:橘子

審稿:西莫

責編:陳之涵

期刊來源:《自然•通訊》

期刊編號:2041-1723

原文鏈接:

https://phys.org/news/2020-09-machine-synthetic-biology-algorithms-bioengineer.html

版權聲明:本文由科界平臺原創編譯,中文內容僅供參考,一切內容以英文原版爲準。轉載請註明來源科技工作者之家—科界App。

相關文章