<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      自動評估基準 | 基礎概念

      基礎概念

      這是 自動評估基準 系列文章的第一篇,敬請關注系列文章:

      • 基礎概念
      • 設計你的自動評估任務
      • 一些評估測試集
      • 技巧與提示

      注:本文內容與我寫的 通用評估博客 存在部分重疊

      什么是自動評估基準?

      自動化基準測試通常按照以下方式工作:你希望了解你的模型在某些方面的表現。這些“某些方面”可以是一個明確定義的具體任務,例如“我的模型在垃圾郵件分類中的表現如何?”,也可以是一個更抽象和通用的能力,例如“我的模型的數學能力有多強?”。

      基于此,你可以通過以下方式構建評估:

      數據集:
      數據集由多個樣本組成。這些樣本包含模型的輸入,有時還包括一個參考答案(稱為“gold”),用于與模型的輸出進行比較。
      樣本的設計通常是為了盡量模擬你想測試模型的場景。例如,如果你在研究電子郵件分類,你可以創建一個包含垃圾郵件和非垃圾郵件的樣本數據集,并嘗試加入一些具有挑戰性的邊界案例等。

      評估指標:
      評估指標用于對模型進行評分。例如:你的模型對垃圾郵件的分類準確度如何?正確分類的樣本得分為1,錯誤分類的得分為0。
      評估指標使用模型的輸出來進行評分。在大型語言模型(LLMs)的情況下,人們主要關注兩種輸出:

      模型根據輸入生成的文本(生成式評估,generative evaluation)
      提供給模型的一個或多個序列的對數概率(多項選擇評估,有時稱為 MCQA,或者困惑度評估 perplexity evaluations)
      有關更多信息,請查看模型推理與評估頁面

      在模型沒有見過 (即未出現在訓練集) 的數據上進行評估會更有意義,得出的模型 泛化性 結論才更準確。比如在只見過假冒銀行垃圾郵件的模型上測試其能否正確分類與 “健康” 相關的垃圾郵件。

      注:模型只能在訓練數據上預測效果良好 (沒有隱式地學習到更高層次的通用范式) 的現象叫做 過擬合。這就類似于一個學生死記硬背了考試題目,卻沒有理解背后的知識點。所以只用訓練集中的數據測試評估 LLM 得到的分數指標實際上是模型不具備的能力。

      自動評估基準的優劣勢

      優勢:

      • 一致性和可重復性:在同一個模型上運行相同的自動評估基準 10 次,測試結果也是相同的 (除非受到硬件或模型自身隨機性的影響)。所以相同任務下,多個模型的測試排名結果是公正的。
      • 低成本規模效益:目前自動評估基準是評估模型成本最低的方式之一。
      • 易于理解:大部分自動化方式的評價指標理解起來都非常容易。
        例如:精確匹配可以理解為生成文本跟參考文本是否完全一致;準確率可以理解為做出的選項有多大程度是正確的 (不過對于像 BLEUROUGE 這種評價方式,理解難度會稍微高一些)。
      • 高質量測試集:許多自動評估基準的測試集都來自專家級生成數據集或現有的高質量數據集 (如 MMLU 或 MATH)。當然也不是說這些測試集就完美無瑕,例如 MMLU 就被發現存在一些解析錯誤以及事實謬誤,所以后來出現了一批改進的數據集,如 MMLU-Pro 和 MMLU-Redux。

      劣勢:

      • 復雜任務難以保證效果:自動評估基準通常在測試效果容易定義和評估的任務上表現良好 (如分類任務)。一旦任務比較復雜而且難以拆分為目標明確的子任務時,表現可能不及預期。
        例如:測試模型的 “數學能力” 任務。具體是算術、還是邏輯、亦或是推演新數學概念的能力?
        所以出現了一些無需拆分為子任務的 通用性 評估方式,由此評估出的模型整體表現就是評估目標的 優良代理
      • 數據污染:網絡上的數據一旦以純文本的形式公開,那么由于數據爬蟲,這些數據總歸會出現在模型訓練集中。所以在評估時很難保證模型真的沒有見過測試集。

      英文原文: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/basics.md

      原文作者: clefourrier

      譯者: SuSung-boy

      審校: adeenayakup

      posted @ 2024-12-26 14:02  HuggingFace  閱讀(283)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 综合在线 亚洲 成人 欧美| 好男人视频免费| 中文字幕在线精品人妻| 九九热在线免费播放视频| 国产成人午夜精品影院| 永登县| 亚洲国产成人精品女久久| 精品九九人人做人人爱| 免费观看全黄做爰大片国产| 国产精品天天看天天狠| 日本免费人成视频在线观看| 亚洲av二区伊人久久| 虎白女粉嫩尤物福利视频| 久久久久国产精品熟女影院| 一本精品中文字幕在线| 人妻av一区二区三区av免费| 老司机亚洲精品一区二区| 亚洲最大天堂在线看视频| 污网站大全免费| 精品国产av一二三四区| 久视频久免费视频久免费| 免费拍拍拍网站| 国内精品人妻无码久久久影院导航| 国产精品天干天干综合网| 亚洲欧洲日韩国内高清| 午夜福利院一区二区三区| 国产suv精品一区二区33| 亚洲视频一区| 不卡AV中文字幕手机看| 亚洲精品在线二区三区| 国产极品视频一区二区三区| 蜜芽久久人人超碰爱香蕉| 亚洲精品入口一区二区乱| 国产精品中文第一字幕| 国产精品成人无码久久久| 亚洲综合不卡一区二区三区 | 免费人成网站免费看视频| 狠狠躁夜夜躁人人爽天天5| 91老肥熟女九色老女人| 国产精品天干天干综合网| 亚洲另类激情专区小说图片|