據 IT 之家 1 月 15 日報道,谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集,並利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。 谷歌研究人員表示,由於過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數據集,因此他們創建了一項名爲“BIG-Bench Mistake”的專用基準數據集用於評估測試。 據悉,研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了 5 項任務,之後將生成的“思維鏈(Chain-of-Thought)”軌跡修改加入“邏輯錯誤”部分,之後重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。谷歌研究人員聲稱,這一 BIG-Bench Mistake 數據集有利於改善模型自我糾錯能力,經過相關測試任務微調後的模型,“即便是小型模型表現也通常比零樣本提示的大模型更好”。
相關文章