摘要:
背景 需要對3B模型進(jìn)行蒸餾,一張4090的卡無法完成實驗。完成這個實驗的前提是需要兩張卡,一張用來加載學(xué)生模型,一張用來加載教師模型。 多卡使用 這里的多卡使用并不是像以往的方式,使用dataloaderparallel等方式,這種是數(shù)據(jù)并行的策略,不適合蒸餾的場景,因為蒸餾是一個模型做推理,一個 閱讀全文
posted @ 2025-01-20 14:43
蔚藍(lán)色の天空
閱讀(51)
評論(0)
推薦(0)
浙公網(wǎng)安備 33010602011771號