台湾 || 语言: 大陆简体港澳繁體台灣正體

全都不及格！斯坦福 100 頁論文給大模型透明度排名，GPT-4 僅排第三

IT之家 2023-10-19 15:13

試問百模大戰的當下，誰家大模型的透明度最高？

（例如模型是如何構建的、如何工作、用戶如何使用它們的相關信息。）

現在，這個問題終於有解了。

因爲斯坦福大學 HAI 等研究機構最新共同發佈了一項研究 ——

專門設計了一個名爲基礎模型透明度指標（The Foundation Model Transparency Index）的評分系統。

它從 100 個維度對國外 10 家主流的大模型做了排名，並在透明度這一層面上做了全面的評估。

結果可謂是大跌眼鏡！

若是以 60 分作爲及格線，那麼“參賽”的大模型們可以說是全軍覆沒，沒有一個及格的……

來感受下這個 feel：

排名第一的 Llama 2，分數僅爲 54；緊隨其後的便是 BLOOMZ，得分 53。

而 GPT-4 分數僅僅爲 48，排名第三；來自亞馬遜的 Titan Text 成績墊底，僅取得 12 分。

不僅如此，在斯坦福 HAI 官方的博客中，負責人 Rishi Bommasani 直言不諱地把 OpenAI 單拎出來說到：

總而言之，團隊認爲大模型發展到現階段，它們的透明度是一個非常重要的關鍵點，直接與是否可信掛鉤。

而且更深層次的，他們認爲這也從側面反映了人工智能行業從根本上缺乏透明度。

那麼這個排名到底是怎麼來的？

在成績公佈的同時，團隊也把一篇厚達 100 多頁的論文曬了出來。

正如我們剛纔提到的，這次排名一共涉及到了 100 個指標維度。

若是“歸攏歸攏”着來看，可以將這些指標大致分爲三大類，分別是：

將 10 大模型此次的成績，按照上面的三大維度來看，得分細節如下：

從結果上來看，“上游”類指標的得分差異較爲明顯；例如 BLOOMZ 的“上游”類指標在整體得分中的佔比較高。

而像 Jurassic-2、Inflection-1 和 Titan Text，這三個模型的“上游”類指標得分直接爲 0。

如果將“上游”、“模型”和“下游”視爲三個“頂級域”，那麼團隊在它們基礎之上，還分了更精細、更深入的 13 個“子域”：

13 個“子域”劃分下的細節得分情況如下：

至於完整的 100 個指標維度，可以參考下面這張圖表：

當然，對於大模型領域最具熱度話題之一的“開源閉源之爭”，也在此次的研究中有所涉足。

團隊將廣泛可下載的模型標記爲開源模型，“參賽選手”中有三位屬於此列，分別是 Llama 2、BLOOMZ 和 Stable Diffusion 2。

從排名結果中顯而易見地可以看出，開源模型的得分普遍遙遙領先，唯有 GPT-4 的得分比 Stable Diffusion 2 高出了 1 分。

對此，研究人員也做出瞭解釋：

此次模型透明度排名的更多細節內容，可參考文末的論文。

針對這個問題，斯坦福 HAI 在官方博客中也做出了相應說明。

例如在負責人 Rishi Bommasani 看來：

MIT 博士 Shayne Longpre 認爲，隨着大模型越發的火熱並且在各行各業中迅速落地，科學家們有必要了解它們是如何設計的，尤其是“上游”的那些指標。

對於產業界來說，亦是如此，決策者們在面對“用哪個大模型、怎麼用”等問題時，都需要建立在模型透明度的基礎之上。

那麼你對於這次大模型的透明度排名有怎樣的看法呢？歡迎在評論區留言交流~

論文地址：

https://crfm.stanford.edu/fmti/fmti.pdf

參考鏈接：

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章