微軟聯手北大發布大模型測試基準“PPTC”

據品玩 11 月 6 日報道，微軟研究院聯手北京大學，共同發佈了一款名爲 PPTC 的大模型測試基準，可以用於測試大模型在 PPT 生成方面的能力。研究團隊表示，PPTC 包含 279 個涵蓋不同主題的多回合會話和數百條涉及多模式操作的說明。研究團隊還提出了 PPTX-Match 評估系統，該系統根據預測文件而不是標籤 API 序列來評估大語言模型是否完成指令，因此它支持各種 LLM 生成的 API 序列。此外，研究團隊表示，當前大語言模型在生成 PPT 內容方面主要存在三個方面的不足，包括多輪會話中的錯誤累積、長 PPT 模板處理和多模態感知問題。