显存估算 · 量化助手

大模型显存计算器

根据参数量与量化位宽快速估算 GPU 占用,包含 20% 额外开销。

M = (P × 4B) / (32 / Q) × 1.2

M 以 GB 表示;P 为参数数量;Q 为加载位宽(bit);4B 表示每个参数 4 字节。

显存占用(GB,十进制)

--
等待输入

显存占用(GiB,1024 进制)

--
等待输入

所需字节(含 20% 冗余)

--
等待输入

请填写参数数量与位宽。

如何确定量化位宽 Q(bit)

  • 看文件名:GGUF/GGML 常见后缀 q4_0/q4_K=4bit,q5_1=5bit,q6_K=6bit,q8_0=8bit;f16=16bit,f32=32bit。
  • 量化方案映射:GPTQ-4bit/8bit → 4/8;AWQ W4A16 → 权重 4bit;EXL2 标注 4.0bpw/5.0bpw → 4/5;“w16”/“f16” → 16。
  • 在 LM Studio/下载目录查看:打开模型文件所在目录,直接看文件名后缀即可确认 Q。
  • 看模型页说明:Hugging Face/GitHub 发布页 README 通常会写明量化格式(如 Q4_K_M、GPTQ-4bit)。
  • 选用哪个文件就填哪个位宽:加载列表里选择的量化文件,对应位宽就是 Q。