谷歌推出 BIG-Bench Mistake 數據集，可協助 AI 語言模型改善自我糾錯能力

據 IT 之家 1 月 15 日報道，谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集，並利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。谷歌研究人員表示，由於過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數據集，因此他們創建了一項名爲“BIG-Bench Mistake”的專用基準數據集用於評估測試。據悉，研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了 5 項任務，之後將生成的“思維鏈（Chain-of-Thought）”軌跡修改加入“邏輯錯誤”部分，之後重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。谷歌研究人員聲稱，這一 BIG-Bench Mistake 數據集有利於改善模型自我糾錯能力，經過相關測試任務微調後的模型，“即便是小型模型表現也通常比零樣本提示的大模型更好”。

谷歌推出 BIG-Bench Mistake 數據集，可協助 AI 語言模型改善自我糾錯能力

熱門新聞

週熱門

谷歌推出 BIG-Bench Mistake 數據集，可協助 AI 語言模型改善自我糾錯能力

前BNB Chain增長主管加入Match Chain

OpenAI和谷歌對於AI助手的行爲方式存在分歧

今日跌幅TOP榜05-19 04:03

今日漲幅TOP榜05-19 04:03

今日漲幅TOP榜05-19 00:02

全網BTC合約未平倉頭寸增至333.89億美元，24H漲幅2.75%

某巨鯨約1小時前拋售732,481枚WIF和716,344枚POPCAT，三天虧損超40萬美元

本週現貨比特幣ETF流入總額達9.39億美元

Ton鏈上游戲Catizen現已支持遊戲內Notcoin支付

Blast鏈上meme項目PEW 24小時募集3435 ETH，超募16倍

今日漲幅TOP榜05-18 20:03

今日跌幅TOP榜05-18 20:03

fantasy.top跌出十大加密協議行列，Pump排名第10

ether.fi質押TVL達45.22億美元，流動性TVL達5.69億美元，創歷史新高

Vitalik：以太坊沒有試圖阻止人們說出自己想法的文化

熱門新聞

週熱門