本文轉自:解放日報

AI育種大模型“豐登”問世 爲糧食安全提供科技支撐

俞陶然

本報訊(記者 俞陶然)上海人工智能實驗室昨天聯合崖州灣國家實驗室和中國農業大學,發佈了我國首個種業大語言模型“豐登”(SeedLLM)。在上海人工智能實驗室研發的大語言模型“書生·浦語”2.0基礎上,科研團隊輸入了科技文獻、產業實踐報告等海量專業數據,訓練出具有強大理解和分析能力的種業大模型。它能降低育種領域的學習門檻,提升從業人員的研究和實踐效率,也爲“人工智能+生物育種”開闢了探索路徑,將爲我國糧食安全提供科技支撐。

科研團隊介紹,科學高效的生物育種對糧食安全和經濟效益意義重大,但由於作物和畜類品種的多樣性,育種信息一直缺乏統一的平臺,數據知識呈現出“孤島式”分佈,給育種知識普及造成了壁壘。同時,由於生物育種涉及生物學、遺傳學、氣象學、土壤學等多學科交叉,專業人員在從事育種工作時不得不查閱衆多領域的文獻和數據,甚至需要編寫代碼進行數據訪問,工作效率受到很大限制。

爲此,上海人工智能實驗室聯合團隊提出了大模型賦能生物育種這一思路,把“豐登”訓練成具有“AI研究員”潛力的大模型。它可通過自主學習,發掘生物、遺傳、氣象和土壤間的複雜關聯,形成新的知識結構。育種領域涉及的知識資源包含學術文獻、田間日誌和政府公示等,呈分散狀態。針對這種情況,科研人員對相關知識進行了深度挖掘,將文本信息中提煉出的知識匯聚到模型權重中,再將分散在不同文獻中的同一知識點進行整合歸納,最終使育種專業知識以結構化的方式呈現。

經聯合攻關,這個大模型已具備品種選育、農藝性狀、栽培技術、推廣區域等4個領域的解釋和回答能力。它採用自然語言對話接口,用戶可直接提出問題,並獲得易於理解的信息。

種業領域的標準化人工評估評測顯示,這個大模型在最佳答案個數和綜合分數上的表現超出預期,超越了業界公認的高性能大模型Claude 3和GPT-4,其綜合得分是相關專業本科生的4.87倍。目前,隆平高科、正大集團、中國科學院、中國農業科學院、上海市農業科學院、廣東省農業科學院、華中農業大學、華南農業大學、復旦大學等單位已加入“豐登”測試。

相關文章