<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Transformers 雜碎知識點

      • 訓練過程中更新的步驟

        • 首先以某種方式計算出epoch,每個epoch包含steps_in_epoch
        • 然后計算出total_updates,表示參數更新次數
        • 在每一次參數更新的時候,算出來此次參數更新所涉及的大batch的數量num_batches
        • 根據num_batches取出batch_samples(一個列表,每個元素是一個小batch),并計算出大batch中有效位置的數量num_items_in_batch(也就是不為-100的id的數量)
          • 最后的損失是按照num_items_in_batch來進行平均的
        • 接著取出batch_size個樣本(一個小batch)進行損失計算
          • 各個樣本以及各個設備會平均,并且由于梯度累積,會除以self.current_gradient_accumulation_steps(也就是小batch的數量),所以這一步得到的損失相當于一個位置的交叉熵除以self.current_gradient_accumulation_steps
        • 然后執行反向傳播累計梯度
          • 會累積self.current_gradient_accumulation_steps次,最后得到的梯度就相當于一個位置的損失產生的梯度
        • (不嚴謹地)每gradient_accumulation_steps步進行一次更新參數并打日志
          • 日志顯示的損失是一個位置的平均損失
          • 最后不足gradient_accumulation_steps步的時候,會在最后一步進行特殊判斷更新;此時current_gradient_accumulation_steps就不等于gradient_accumulation_steps,而是等于最后兩次更新之間進行計算的批次數目(應該也就是self.current_gradient_accumulation_steps

        image

      • 任何時候都不要直接去修改Transformers庫(除了打印調試語句)

        • 如果想要在某個函數里面實現新功能,最好能夠寫一個子類
      • Transformers的trainer.py中,有一個參數叫做``

      • 輸出文件

        • adapter_config.json:PEFT 適配器(例如 LoRA 或類似方法)的配置文件
        • adapter_model.safetensors:PEFT 適配器的權重
        • added_tokens.json:列出了在訓練或預處理期間添加到分詞器原始詞匯表之外的任何令牌
        • all_results.json:合并了所有階段(訓練、評估以及可能的預測)的指標。它聚合了來自 compute_metrics 的結果,如損失、準確率或自定義指標
          • 這里面的train_loss不是最后時刻的訓練損失,而是整個過程訓練損失的平均,所以肯定比最后時刻的損失更高
        • chat_template.jinja:用于在分詞器中格式化聊天或多輪對話的 Jinja2 模板文件。它定義了用戶/助手消息的結構
        • eval_results.json:包含來自驗證數據集的評估指標
        • merges.txt:包含字節對編碼(BPE)或類似子詞分詞器合并規則的文本文件
        • README.md:用作模型卡片或文檔。它可能包含關于模型、訓練設置、使用說明或限制的詳細信息
        • special_tokens_map.json:映射特殊令牌(例如,[PAD], [EOS], [BOS])到它們的令牌 ID 或字符串
        • tokenizer_config.json:供 Hugging Face 的 Transformers 庫在使用 AutoTokenizer.from_pretrained() 或 PreTrainedTokenizer.from_pretrained() 等方法加載分詞器時,用于正確實例化和配置分詞器
        • train_results.json:包含訓練指標
        • trainer_log.jsonl:記錄訓練事件,例如每步的損失、學習率或警告
        • trainer_state.json:捕獲 Trainer 的內部狀態,包括全局步數、當前周期、日志歷史(例如,每步的損失)、最佳指標(如果使用早停)以及恢復信息
        • training_args.bin:序列化訓練所用 TrainingArguments 對象的二進制文件。它存儲所有超參數(例如,學習率、批大小、周期數、DeepSpeed 配置)
        • training_loss.png:繪制損失曲線
        • vocab.json:包含分詞器的詞匯表,將單詞/子詞映射到索引
        • 檢查點中的文件
          • 如果有文件與上面提到的文件同名,那么就是代表當前這個檢查點下的對應的文件
          • latest:文本文件,指示 DeepSpeed 檢查點中的最新或當前狀態
          • rng_state_x.pth:PyTorch .pth 文件,保存每個進程(例如,CPU/GPU)的隨機數生成器(RNG)狀態。確保分布式訓練中的可復現性
          • scheduler.pt:PyTorch .pt 文件,保存學習率調度器的狀態(例如,上一個周期、基礎學習率)。允許從精確點恢復調度器
          • zero_to_fp32.py:由 DeepSpeed 提供的 Python 腳本,用于將 ZeRO 優化的檢查點(該檢查點將優化器狀態分片存儲在多個 GPU 上以提高內存效率)轉換回完整的 FP32(32位浮點)模型狀態字典。在訓練后用于將分片文件合并為單個可用的模型文件。從檢查點目錄運行它
          • bf16_zero_pp_rank_x_mp_rank_xx_optim_states:存儲了模型和優化器的分片(分區)狀態,以節省內存并支持跨多個 GPU 的高效恢復訓練
          • zero_pp_rank_x_mp_rank_xx_model_states.pt:包含模型權重的本地分片(不包括優化器)。此處沒有 bf16_ 前綴,表明模型狀態以默認精度(可能為 FP32 或按配置)保存,而優化器使用 BF16
      • Transformers的Trainer類包含了從檢查點恢復和保存模型權重的邏輯

        • 只會保存標準的模型組件,如果自己新增了的話,需要添加新邏輯
          • 添加新邏輯的時候,記得把Trainer類作為上下文給模型(注意Agent是否可以讀取工作區之外的文件,copilot不太行,所以最好復制粘貼到工作區里,同時給出路徑),同時要把啟動的配置文件和標準生成文件的名字給模型
        • 拓展了詞匯表的話,Trainer類是可以自動保存的,但是新詞的嵌入向量會保存到adapter_model.safetensors里面
      posted @ 2025-10-30 09:43  最愛丁珰  閱讀(6)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 成人无码潮喷在线观看| 日韩国产欧美精品在线| 中文字幕日韩精品有码| 999久久久免费精品播放| 手游| 中文字幕亚洲精品乱码| 亚洲国模精品一区二区| 亚洲欧洲日韩国内高清 | 日韩精品自拍偷拍一区二区| 人妻中文字幕精品系列| 国产一区二区三区激情视频| 护士张开腿被奷日出白浆| 免费人成网站免费看视频| 国产福利视频区一区二区| 日本成熟少妇喷浆视频| 久9re热视频这里只有精品免费| 国精品无码一区二区三区在线看 | 香蕉久久久久久av成人| 99中文字幕国产精品| 久久www免费人成一看片| 亚洲一区在线观看青青蜜臀| 国产精品99中文字幕| 国产精品一区二区三区蜜臀| 久女女热精品视频在线观看| 国产精品国产自产拍在线| 美女一区二区三区亚洲麻豆| 伊人精品成人久久综合97| 日韩亚av无码一区二区三区| 午夜福利看片在线观看| 精品国产这么小也不放过| 亚洲国产欧美一区二区好看电影| 国产精品美女一区二区三| 干中文字幕| 久青草国产在视频在线观看| 亚洲国产精品成人综合色| 亚洲区综合区小说区激情区| 亚洲欧美一区二区成人片| 亚洲www永久成人网站| 无码AV中文字幕久久专区| 欧美老人巨大XXXX做受视频| 国产精品久久露脸蜜臀|