讓 LLM 來評判 | 技巧與提示
這是 讓 LLM 來評判 系列文章的第六篇,敬請關注系列文章:
LLM 評估模型已知偏差及緩解措施:
- 缺乏內部一致性:同一 prompt 輸入評估模型執行多次得到的結果可能不一樣 (如果溫度參數不設為 0)。
- 緩解措施:遵循 “自我一致性 (self-consistency)” 設置 prompt,輸入模型執行多次并保留多數結果
- 自我偏好:LLM 評估模型更 偏好自己的輸出模式,因此會對模式相似的結果評分偏高。
- 緩解措施:采用陪審團機制
- 輸入擾動不敏感:評估模型對 擾動輸入 的辨識效果較差,難以提供一致的評分范圍 (更多實驗結果可以參考 這個鏈接)。例如對于施加了相同程度噪聲的文本,使用評估模型評估文本質量的評分無法反映噪聲的程度。
- 緩解措施:
- 要求模型先輸出詳細的推理過程 再輸出評分
- 在 prompt 中添加一致的評分標準
- 緩解措施:
- 位置偏差:評估模型更 偏好特定位置的答案。例如在成對比較時,Claude 和 GPT3.5 在多次測試中通常會偏好某一個位置,例如第一個或第二個答案。
- 緩解措施:
- 隨機調整答案位置
- 計算所有選項的對數概率并歸一化
- 緩解措施:
- 冗長偏好 (長度偏差):評估模型更偏好冗長的答案。
- 緩解措施:考慮答案中的長度差異
- 難以對齊人類答案:
- 在所有評估中,人工評估是否可以作為一個不錯的基線尚有爭議。例如在某些特定領域 (如醫學、法律、數學等),如果標注員專業性不夠,那么得到的結果可能跟直接采用 LLM 一樣差。
- 格式偏差:如果輸入模型的 prompt 格式與其訓練數據的格式 相差甚遠,可能導致模型的評估結果不準確。例如,成對比較模型的訓練集數據格式中提供了參考答案,如果在評估時沒有給定參考答案或者給定的參考答案格式有誤,那么評估結果就不可信。
- 緩解措施:仔細遵循評估模型訓練集 prompt 格式 (比如指令微調模型的格式)。
選擇合適的 LLM 評估任務
LLM 評估特性:
- 很難識別幻覺:尤其是部分幻覺 (與事實非常相近,僅有微小的區別而導致錯誤)。(可以參考這兩篇論文:鏈接 1 和 鏈接 2)。
- 許多任務上與人工評估一致性不高:如 總結任務 (也可以參考 這篇)、輸入遵循忠實度,更多任務請參考 這篇論文。
英文原文: evaluation-guidebook/contents/model-as-a-judge/tips-and-tricks.md
原文作者: clefourrier
譯者: SuSung-boy
審校: adeenayakup

浙公網安備 33010602011771號