自動評估基準 | 基礎概念
基礎概念
這是 自動評估基準 系列文章的第一篇,敬請關注系列文章:
- 基礎概念
- 設計你的自動評估任務
- 一些評估測試集
- 技巧與提示
注:本文內容與我寫的 通用評估博客 存在部分重疊
什么是自動評估基準?
自動化基準測試通常按照以下方式工作:你希望了解你的模型在某些方面的表現。這些“某些方面”可以是一個明確定義的具體任務,例如“我的模型在垃圾郵件分類中的表現如何?”,也可以是一個更抽象和通用的能力,例如“我的模型的數學能力有多強?”。
基于此,你可以通過以下方式構建評估:
數據集:
數據集由多個樣本組成。這些樣本包含模型的輸入,有時還包括一個參考答案(稱為“gold”),用于與模型的輸出進行比較。
樣本的設計通常是為了盡量模擬你想測試模型的場景。例如,如果你在研究電子郵件分類,你可以創建一個包含垃圾郵件和非垃圾郵件的樣本數據集,并嘗試加入一些具有挑戰性的邊界案例等。
評估指標:
評估指標用于對模型進行評分。例如:你的模型對垃圾郵件的分類準確度如何?正確分類的樣本得分為1,錯誤分類的得分為0。
評估指標使用模型的輸出來進行評分。在大型語言模型(LLMs)的情況下,人們主要關注兩種輸出:
模型根據輸入生成的文本(生成式評估,generative evaluation)
提供給模型的一個或多個序列的對數概率(多項選擇評估,有時稱為 MCQA,或者困惑度評估 perplexity evaluations)
有關更多信息,請查看模型推理與評估頁面。
在模型沒有見過 (即未出現在訓練集) 的數據上進行評估會更有意義,得出的模型 泛化性 結論才更準確。比如在只見過假冒銀行垃圾郵件的模型上測試其能否正確分類與 “健康” 相關的垃圾郵件。
注:模型只能在訓練數據上預測效果良好 (沒有隱式地學習到更高層次的通用范式) 的現象叫做 過擬合。這就類似于一個學生死記硬背了考試題目,卻沒有理解背后的知識點。所以只用訓練集中的數據測試評估 LLM 得到的分數指標實際上是模型不具備的能力。
自動評估基準的優劣勢
優勢:
- 一致性和可重復性:在同一個模型上運行相同的自動評估基準 10 次,測試結果也是相同的 (除非受到硬件或模型自身隨機性的影響)。所以相同任務下,多個模型的測試排名結果是公正的。
- 低成本規模效益:目前自動評估基準是評估模型成本最低的方式之一。
- 易于理解:大部分自動化方式的評價指標理解起來都非常容易。
例如:精確匹配可以理解為生成文本跟參考文本是否完全一致;準確率可以理解為做出的選項有多大程度是正確的 (不過對于像BLEU或ROUGE這種評價方式,理解難度會稍微高一些)。 - 高質量測試集:許多自動評估基準的測試集都來自專家級生成數據集或現有的高質量數據集 (如 MMLU 或 MATH)。當然也不是說這些測試集就完美無瑕,例如 MMLU 就被發現存在一些解析錯誤以及事實謬誤,所以后來出現了一批改進的數據集,如 MMLU-Pro 和 MMLU-Redux。
劣勢:
- 復雜任務難以保證效果:自動評估基準通常在測試效果容易定義和評估的任務上表現良好 (如分類任務)。一旦任務比較復雜而且難以拆分為目標明確的子任務時,表現可能不及預期。
例如:測試模型的 “數學能力” 任務。具體是算術、還是邏輯、亦或是推演新數學概念的能力?
所以出現了一些無需拆分為子任務的 通用性 評估方式,由此評估出的模型整體表現就是評估目標的 優良代理。 - 數據污染:網絡上的數據一旦以純文本的形式公開,那么由于數據爬蟲,這些數據總歸會出現在模型訓練集中。所以在評估時很難保證模型真的沒有見過測試集。
原文作者: clefourrier
譯者: SuSung-boy
審校: adeenayakup

浙公網安備 33010602011771號