據品玩 12 月 8 日報道,Arxiv 頁面顯示,Meta 近日聯合 HuggingFace 和 AutoGPT 等機構,推出了一款名爲 GAIA 的基準測試,可用於對通用 AI 助手性能進行測試。 作者表示,GAIA 測試涵蓋了一系列現實世界的問題,需要 AI 助手具備推理、多模態處理、網絡瀏覽和一般工具使用能力等基本技能。GAIA 的問題對人類來說很簡單,但對大多數先進的 AI 來說具有挑戰性。研究顯示,人類受訪者的回答正確率爲 92%,而先進的 AI 助手回答正確率只有 15%。
相關文章