機器之心報道

編輯:蛋醬、張倩在追求 SOTA 之前,研究者們或許更應該認真審視「基準」本身。

在基準數據集上比較模型性能是人工智能領域衡量和推動研究進展的重要方式之一。研究者通常基於模型在基準數據集上的一個或一組性能指標進行評估,雖然這樣可以快速進行比較,但如果這些指標不能充分涵蓋所有性能特徵,就可能帶來模型性能反映不充分的風險。

目前我們還不清楚這會在多大程度上影響當前的基準測試工作。爲了解決這個問題,來自維也納人工智能與決策研究所的研究者對過往 3867 篇論文中機器學習模型的性能指標進行了分析,所用數據均來自機器學習開放平臺「Papers with Code」。

研究結果表明,目前用於評估分類 AI 基準任務的絕大多數指標都有一些缺陷,無法充分反映分類器的性能,特別是用於不平衡的數據集時。

在這次分析中,研究人員查看了 2000 年到 2020 年 6 月期間發表的 3867 篇論文中的 32209 個基準結果,這些結果來自 2298 個數據集。他們發現,這些研究總共使用了 187 個不同的 top-level 指標,其中最常用的指標是「準確率(Accuracy)」,佔據基準數據集的 38%。第二和第三常見的指標是「精度(Precision)」、「相關實例在檢索到的實例中的佔比」和「F 值」(即精度和召回率的加權平均值)。

除此之外,就涵蓋自然語言處理的論文子集而言,三個最常見的標準是 BLEU 評分(用於摘要和文本生成等)、ROUGE 評價指標(視頻字幕和摘要)和 METEOR(問答)。

研究者表示,超過三分之二(77.2%)的已分析基準數據集中僅使用了一個性能指標,一小部分(14.4%)有兩個 top-level 指標,6% 的數據集有三個指標。

論文中提到,這些指標還存在一些不合規的地方,例如將「area under the curve」簡稱爲「AUC」。「area under the curve」是用來衡量準確率的標準,可以根據其繪製的內容分成不同的類別:如果繪製的是精度和召回率,就是 PR-AUC;如果繪製的是召回率和假陽性率,就是 ROC-AUC。

同樣的,有幾篇論文提到了自然語言處理的基準 ROUGE,但未指出使用的是哪種變體。

除了不一致的問題,還有很多論文中使用的基準都是有問題的。準確率通常被用於評估二元和多元分類器模型,當處理不平衡的語料庫,並且該語料庫在每個類的實例數上存在很大差異時,就不會產生有意義的結果。例如,如果給定的「類別 A」佔所有實例的 95%,那麼,即使模型把所有實例都預測爲「類別 A」,也還是能達到 95% 的準確率。

精度和召回率也是有侷限性的,因爲它們僅關注分類器預測爲正(positive)的實例或者真正例(True Positives)。二者都忽略了模型精準預測負實例的能力。至於 F 分數(F-score),有時它們給精度的權重比召回率大,爲偏向預測佔絕對優勢類別的分類器提供了具有誤導性的結果。

在自然語言處理領域,研究者重點介紹了 BLEU 和 ROUGE 等基準測試的問題。BLEU 不會考慮到召回率問題,也不會與人類對機器翻譯質量的判斷相關聯,並且 ROUGE 沒有充分涵蓋依賴大量 paraphrasing 的任務,比如說包含許多不同發言者的生成式摘要和抽取式摘要,像會議記錄這種。

在所有分析的論文中,都沒有使用更好的度量替代方法。例如 Matthews 相關係數、Fowlkes-Mallows 指數,這些度量方法能夠解決準確率和 F 分數指標中的一些缺點。實際上,在 83.1% 使用了「準確率」top-level 指標的基準數據集中,沒有任何其他的 top-level 指標,而在 60.9% 的數據集中,F 值是唯一的指標。自然語言處理領域的指標也是如此,被證明與人類跨任務判斷強相關的 METEOR 僅使用了 13 次,用來評估生成文本與「正常」語言用法契合程度的 GLEU 僅出現了 3 次。

在論文中,研究者也提到了,分析預印本論文而不是科學期刊接收論文可能會影響到研究結論。但有一點是沒有疑問的:當前用於評估 AI 基準任務的大多數指標都可能存在無法充分反映分類器性能的問題,尤其是在和不平衡數據集一起使用的時候。

越來越多的學者在呼籲,應該將重點放在人工智能的科研進展上,而不是在基準上取得更好的性能。谷歌大腦團隊的前成員 Denny Britz 在今年六月的一次採訪中表示,追求 SOTA 不是最明智的做法,因爲存在着太多令人困惑的變量,更適合像 OpenAI、DeepMind 等資金雄厚的實驗室去攻克。

同時,他也提到:「實驗室缺乏資金也許是一件好事,這迫使研究者進行深入思考並找到成本更低且可行的替代技術。」

相關文章