摘要:
最近看到一篇推文是在不量化、不損失精度的情況下使用一張16G的顯卡推理70B的大模型。方案來自于kaggle的一個方案,具體流程為: 1.創(chuàng)建一個空的(例如,沒有權(quán)重的)模型 2.決定每一層將要去哪里(當(dāng)有多個設(shè)備可用時) 3.在內(nèi)存中加載其權(quán)重的一部分 4.在空模型中加載這些權(quán)重 5.將權(quán)重移動到 閱讀全文
posted @ 2023-10-19 14:20
sunshine丶23
閱讀(712)
評論(0)
推薦(0)

浙公網(wǎng)安備 33010602011771號