显存估算 · 量化助手
大模型显存计算器
根据参数量与量化位宽快速估算 GPU 占用,包含 20% 额外开销。
参数数量 P
十亿(B,10^9)
直接输入个数
量化位宽 Q(bit)
4 bit
8 bit
16 bit
32 bit(全精度)
自定义
公式(已含 20% 冗余)
M = (P × 4B) / (32 / Q) × 1.2
M 以 GB 表示;P 为参数数量;Q 为加载位宽(bit);4B 表示每个参数 4 字节。
立即计算
显存占用(GB,十进制)
--
等待输入
显存占用(GiB,1024 进制)
--
等待输入
所需字节(含 20% 冗余)
--
等待输入
请填写参数数量与位宽。
如何确定量化位宽 Q(bit)
看文件名
:GGUF/GGML 常见后缀 q4_0/q4_K=4bit,q5_1=5bit,q6_K=6bit,q8_0=8bit;f16=16bit,f32=32bit。
量化方案映射
:GPTQ-4bit/8bit → 4/8;AWQ W4A16 → 权重 4bit;EXL2 标注 4.0bpw/5.0bpw → 4/5;“w16”/“f16” → 16。
在 LM Studio/下载目录查看
:打开模型文件所在目录,直接看文件名后缀即可确认 Q。
看模型页说明
:Hugging Face/GitHub 发布页 README 通常会写明量化格式(如 Q4_K_M、GPTQ-4bit)。
选用哪个文件就填哪个位宽
:加载列表里选择的量化文件,对应位宽就是 Q。