AI育種大模型“豐登”問世爲糧食安全提供科技支撐

本文轉自：解放日報

俞陶然

本報訊（記者俞陶然）上海人工智能實驗室昨天聯合崖州灣國家實驗室和中國農業大學，發佈了我國首個種業大語言模型“豐登”（SeedLLM）。在上海人工智能實驗室研發的大語言模型“書生·浦語”2.0基礎上，科研團隊輸入了科技文獻、產業實踐報告等海量專業數據，訓練出具有強大理解和分析能力的種業大模型。它能降低育種領域的學習門檻，提升從業人員的研究和實踐效率，也爲“人工智能+生物育種”開闢了探索路徑，將爲我國糧食安全提供科技支撐。

科研團隊介紹，科學高效的生物育種對糧食安全和經濟效益意義重大，但由於作物和畜類品種的多樣性，育種信息一直缺乏統一的平臺，數據知識呈現出“孤島式”分佈，給育種知識普及造成了壁壘。同時，由於生物育種涉及生物學、遺傳學、氣象學、土壤學等多學科交叉，專業人員在從事育種工作時不得不查閱衆多領域的文獻和數據，甚至需要編寫代碼進行數據訪問，工作效率受到很大限制。

爲此，上海人工智能實驗室聯合團隊提出了大模型賦能生物育種這一思路，把“豐登”訓練成具有“AI研究員”潛力的大模型。它可通過自主學習，發掘生物、遺傳、氣象和土壤間的複雜關聯，形成新的知識結構。育種領域涉及的知識資源包含學術文獻、田間日誌和政府公示等，呈分散狀態。針對這種情況，科研人員對相關知識進行了深度挖掘，將文本信息中提煉出的知識匯聚到模型權重中，再將分散在不同文獻中的同一知識點進行整合歸納，最終使育種專業知識以結構化的方式呈現。

經聯合攻關，這個大模型已具備品種選育、農藝性狀、栽培技術、推廣區域等4個領域的解釋和回答能力。它採用自然語言對話接口，用戶可直接提出問題，並獲得易於理解的信息。

種業領域的標準化人工評估評測顯示，這個大模型在最佳答案個數和綜合分數上的表現超出預期，超越了業界公認的高性能大模型Claude 3和GPT-4，其綜合得分是相關專業本科生的4.87倍。目前，隆平高科、正大集團、中國科學院、中國農業科學院、上海市農業科學院、廣東省農業科學院、華中農業大學、華南農業大學、復旦大學等單位已加入“豐登”測試。