Transformers 雜碎知識點

訓練過程中更新的步驟
- 首先以某種方式計算出epoch，每個epoch包含steps_in_epoch
- 然后計算出total_updates，表示參數更新次數
- 在每一次參數更新的時候，算出來此次參數更新所涉及的大batch的數量num_batches
- 根據num_batches取出batch_samples（一個列表，每個元素是一個小batch），并計算出大batch中有效位置的數量num_items_in_batch（也就是不為-100的id的數量）
  - 最后的損失是按照num_items_in_batch來進行平均的
- 接著取出batch_size個樣本（一個小batch）進行損失計算
  - 各個樣本以及各個設備會平均，并且由于梯度累積，會除以self.current_gradient_accumulation_steps（也就是小batch的數量），所以這一步得到的損失相當于一個位置的交叉熵除以self.current_gradient_accumulation_steps
- 然后執行反向傳播累計梯度
  - 會累積self.current_gradient_accumulation_steps次，最后得到的梯度就相當于一個位置的損失產生的梯度
- （不嚴謹地）每gradient_accumulation_steps步進行一次更新參數并打日志
  - 日志顯示的損失是一個位置的平均損失
  - 最后不足gradient_accumulation_steps步的時候，會在最后一步進行特殊判斷更新；此時current_gradient_accumulation_steps就不等于gradient_accumulation_steps，而是等于最后兩次更新之間進行計算的批次數目（應該也就是self.current_gradient_accumulation_steps）
任何時候都不要直接去修改Transformers庫（除了打印調試語句）
- 如果想要在某個函數里面實現新功能，最好能夠寫一個子類
Transformers的trainer.py中，有一個參數叫做``
輸出文件
- adapter_config.json：PEFT 適配器（例如 LoRA 或類似方法）的配置文件
- adapter_model.safetensors：PEFT 適配器的權重
- added_tokens.json：列出了在訓練或預處理期間添加到分詞器原始詞匯表之外的任何令牌
- all_results.json：合并了所有階段（訓練、評估以及可能的預測）的指標。它聚合了來自 compute_metrics 的結果，如損失、準確率或自定義指標
  - 這里面的train_loss不是最后時刻的訓練損失，而是整個過程訓練損失的平均，所以肯定比最后時刻的損失更高
- chat_template.jinja：用于在分詞器中格式化聊天或多輪對話的 Jinja2 模板文件。它定義了用戶/助手消息的結構
- eval_results.json：包含來自驗證數據集的評估指標
- merges.txt：包含字節對編碼（BPE）或類似子詞分詞器合并規則的文本文件
- README.md：用作模型卡片或文檔。它可能包含關于模型、訓練設置、使用說明或限制的詳細信息
- special_tokens_map.json：映射特殊令牌（例如，[PAD], [EOS], [BOS]）到它們的令牌 ID 或字符串
- tokenizer_config.json：供 Hugging Face 的 Transformers 庫在使用 AutoTokenizer.from_pretrained() 或 PreTrainedTokenizer.from_pretrained() 等方法加載分詞器時，用于正確實例化和配置分詞器
- train_results.json：包含訓練指標
- trainer_log.jsonl：記錄訓練事件，例如每步的損失、學習率或警告
- trainer_state.json：捕獲 Trainer 的內部狀態，包括全局步數、當前周期、日志歷史（例如，每步的損失）、最佳指標（如果使用早停）以及恢復信息
- training_args.bin：序列化訓練所用 TrainingArguments 對象的二進制文件。它存儲所有超參數（例如，學習率、批大小、周期數、DeepSpeed 配置）
- training_loss.png：繪制損失曲線
- vocab.json：包含分詞器的詞匯表，將單詞/子詞映射到索引
- 檢查點中的文件
  - 如果有文件與上面提到的文件同名，那么就是代表當前這個檢查點下的對應的文件
  - latest：文本文件，指示 DeepSpeed 檢查點中的最新或當前狀態
  - rng_state_x.pth：PyTorch .pth 文件，保存每個進程（例如，CPU/GPU）的隨機數生成器（RNG）狀態。確保分布式訓練中的可復現性
  - scheduler.pt：PyTorch .pt 文件，保存學習率調度器的狀態（例如，上一個周期、基礎學習率）。允許從精確點恢復調度器
  - zero_to_fp32.py：由 DeepSpeed 提供的 Python 腳本，用于將 ZeRO 優化的檢查點（該檢查點將優化器狀態分片存儲在多個 GPU 上以提高內存效率）轉換回完整的 FP32（32位浮點）模型狀態字典。在訓練后用于將分片文件合并為單個可用的模型文件。從檢查點目錄運行它
  - bf16_zero_pp_rank_x_mp_rank_xx_optim_states：存儲了模型和優化器的分片（分區）狀態，以節省內存并支持跨多個 GPU 的高效恢復訓練
  - zero_pp_rank_x_mp_rank_xx_model_states.pt：包含模型權重的本地分片（不包括優化器）。此處沒有 bf16_ 前綴，表明模型狀態以默認精度（可能為 FP32 或按配置）保存，而優化器使用 BF16
Transformers的Trainer類包含了從檢查點恢復和保存模型權重的邏輯
- 只會保存標準的模型組件，如果自己新增了的話，需要添加新邏輯
  - 添加新邏輯的時候，記得把Trainer類作為上下文給模型（注意Agent是否可以讀取工作區之外的文件，copilot不太行，所以最好復制粘貼到工作區里，同時給出路徑），同時要把啟動的配置文件和標準生成文件的名字給模型
- 拓展了詞匯表的話，Trainer類是可以自動保存的，但是新詞的嵌入向量會保存到adapter_model.safetensors里面

posted @ 2025-10-30 09:43 最愛丁珰閱讀(6) 評論(0) 收藏舉報

刷新頁面返回頂部

最愛丁珰

Transformers 雜碎知識點

公告