台湾 || 语言: 大陆简体港澳繁體台灣正體

全都不及格！斯坦福 100 页论文给大模型透明度排名，GPT-4 仅排第三

IT之家 2023-10-19 15:13

试问百模大战的当下，谁家大模型的透明度最高？

（例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。）

现在，这个问题终于有解了。

因为斯坦福大学 HAI 等研究机构最新共同发布了一项研究 ——

专门设计了一个名为基础模型透明度指标（The Foundation Model Transparency Index）的评分系统。

它从 100 个维度对国外 10 家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。

结果可谓是大跌眼镜！

若是以 60 分作为及格线，那么“参赛”的大模型们可以说是全军覆没，没有一个及格的……

来感受下这个 feel：

排名第一的 Llama 2，分数仅为 54；紧随其后的便是 BLOOMZ，得分 53。

而 GPT-4 分数仅仅为 48，排名第三；来自亚马逊的 Titan Text 成绩垫底，仅取得 12 分。

不仅如此，在斯坦福 HAI 官方的博客中，负责人 Rishi Bommasani 直言不讳地把 OpenAI 单拎出来说到：

总而言之，团队认为大模型发展到现阶段，它们的透明度是一个非常重要的关键点，直接与是否可信挂钩。

而且更深层次的，他们认为这也从侧面反映了人工智能行业从根本上缺乏透明度。

那么这个排名到底是怎么来的？

在成绩公布的同时，团队也把一篇厚达 100 多页的论文晒了出来。

正如我们刚才提到的，这次排名一共涉及到了 100 个指标维度。

若是“归拢归拢”着来看，可以将这些指标大致分为三大类，分别是：

将 10 大模型此次的成绩，按照上面的三大维度来看，得分细节如下：

从结果上来看，“上游”类指标的得分差异较为明显；例如 BLOOMZ 的“上游”类指标在整体得分中的占比较高。

而像 Jurassic-2、Inflection-1 和 Titan Text，这三个模型的“上游”类指标得分直接为 0。

如果将“上游”、“模型”和“下游”视为三个“顶级域”，那么团队在它们基础之上，还分了更精细、更深入的 13 个“子域”：

13 个“子域”划分下的细节得分情况如下：

至于完整的 100 个指标维度，可以参考下面这张图表：

当然，对于大模型领域最具热度话题之一的“开源闭源之争”，也在此次的研究中有所涉足。

团队将广泛可下载的模型标记为开源模型，“参赛选手”中有三位属于此列，分别是 Llama 2、BLOOMZ 和 Stable Diffusion 2。

从排名结果中显而易见地可以看出，开源模型的得分普遍遥遥领先，唯有 GPT-4 的得分比 Stable Diffusion 2 高出了 1 分。

对此，研究人员也做出了解释：

此次模型透明度排名的更多细节内容，可参考文末的论文。

针对这个问题，斯坦福 HAI 在官方博客中也做出了相应说明。

例如在负责人 Rishi Bommasani 看来：

MIT 博士 Shayne Longpre 认为，随着大模型越发的火热并且在各行各业中迅速落地，科学家们有必要了解它们是如何设计的，尤其是“上游”的那些指标。

对于产业界来说，亦是如此，决策者们在面对“用哪个大模型、怎么用”等问题时，都需要建立在模型透明度的基础之上。

那么你对于这次大模型的透明度排名有怎样的看法呢？欢迎在评论区留言交流~

论文地址：

https://crfm.stanford.edu/fmti/fmti.pdf

参考链接：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

相关文章