開源大模型占GPU顯存計算方法
運行大模型GPU占用計算公式:
\(M=\frac{(P * 4B)}{32 / Q} * 1/2\)
- M : 以GB標識的GPU內存
- P : 模型中的參數數量,例如一個7B模型有70億參數
- 4B : 4個字節,表示用于每個參數的字節
- 32 : 4個字節中有32位
- Q : 應該用于加載模型的位數,例如16位、8位、4位
- 1.2 : 表示在GPU內存中加載其他內容的20%開銷
常用大模型內存占用
| 大小(billion) | 模型位數 | 顯存占用(GB) |
|---|---|---|
| 1.5B | 4 | 0.9 |
| 1.5B | 8 | 1.8 |
| 1.5B | 16 | 3.6 |
| 7B | 4 | 4.2 |
| 7B | 8 | 8.4 |
| 7B | 16 | 16.8 |
| 9B | 4 | 5.4 |
| 9B | 8 | 10.8 |
| 9B | 16 | 21.6 |
| 40B | 4 | 24 |
| 40B | 8 | 48 |
| 40B | 16 | 96 |
| 70B | 4 | 42 |
| 70B | 8 | 84 |
| 70B | 16 | 168 |
量化大模型的標準寫法
經常看到量化大模型后面帶著q2_k 、ft16 、 q5_k_s 、q8_0 等寫法。這類寫法代表著大模型的量化后的指標,釋義如下:
傳統量化
包括q4_0、q4_1、q8_0等方法。
如q4_0。代表模型位數=4,0表示保留0位小數。即數據會被量化到0-255之間的整數
K值量化
如q2_k、q5_k_s 等方法。實際上就是不同層用不同精度量化,以比傳統量化更智能的方式分配bit。解壓縮方式與傳統量化類似,同樣快速

浙公網安備 33010602011771號