Spanvero How it works Find a model Compare models Pricing

AI models that run on 16 GB of VRAM

340 open models fit in 16 GB of VRAM at their default quant — enough for a mid-range card like an RTX 4060 Ti 16 GB / 4070 Ti Super. Most capable first; run any of them for $0 on your own hardware.

gpt oss safeguard 20b — 21.5B, openai · ~16 GB VRAM
gpt-oss-20b — 21B, OpenAI · ~15 GB VRAM
gpt oss 20b BF16 — 20.9B, unsloth · ~15 GB VRAM
NVIDIA Nemotron 3 Nano 30B A3B NVFP4 — 18.2B, nvidia · ~13 GB VRAM
Qwen3 30B A3B NVFP4 — 17.5B, RedHatAI · ~13 GB VRAM
Qwen3 32B NVFP4 — 17.2B, nvidia · ~15 GB VRAM
Param2 17B A2.4B Thinking — 17.2B, bharatgenai · ~12 GB VRAM
deepseek moe 16b base — 16.4B, deepseek-ai · ~12 GB VRAM
deepseek moe 16b chat — 16.4B, deepseek-ai · ~12 GB VRAM
LLaDA2.0 mini — 16.3B, inclusionAI · ~12 GB VRAM
Ling mini 2.0 — 16.3B, inclusionAI · ~12 GB VRAM
Moonlight 16B A3B Instruct — 16B, moonshotai · ~13 GB VRAM
DeepSeek-Coder-V2-Lite Instruct — 15.7B, DeepSeek · ~11 GB VRAM
DeepSeek V2 Lite Chat — 15.7B, deepseek-ai · ~15 GB VRAM
DeepSeek V2 Lite — 15.7B, deepseek-ai · ~15 GB VRAM
Qwen3 30B A3B NVFP4 — 15.6B, nvidia · ~12 GB VRAM
Qwen3 Coder 30B A3B Instruct FP4 — 15.6B, NVFP4 · ~12 GB VRAM
Qwen2.5 Coder 14B Instruct — 14.8B, Qwen · ~14 GB VRAM
Qwen2.5 14B Instruct — 14.8B, Qwen · ~14 GB VRAM
Qwen3 14B — 14.8B, Qwen · ~13 GB VRAM
DeepSeek R1 Distill Qwen 14B — 14.8B, deepseek-ai · ~14 GB VRAM
Qwen2.5 14B Instruct — 14.8B, unsloth · ~14 GB VRAM
phi 4 quantized.w4a16 — 14.8B, RedHatAI · ~14 GB VRAM
Qwen2.5 14B — 14.8B, Qwen · ~14 GB VRAM
Qwen2.5 Coder 14B — 14.8B, Qwen · ~14 GB VRAM
Qwen3 14B Base — 14.8B, Qwen · ~13 GB VRAM
Qwen3 14B Instruct — 14.8B, OpenPipe · ~13 GB VRAM
HyperCLOVAX SEED Think 14B — 14.7B, naver-hyperclovax · ~13 GB VRAM
Qwen1.5 MoE A2.7B — 14.3B, Qwen · ~12 GB VRAM
Phi-4 — 14B, Microsoft · ~13 GB VRAM
Nemotron Labs Diffusion 14B — 13.5B, nvidia · ~13 GB VRAM
talkie 1930 13b it hf — 13.3B, lewtun · ~11 GB VRAM
Llama 2 13b chat hf — 13B, meta-llama · ~16 GB VRAM
HarmBench Llama 2 13b cls — 13B, cais · ~11 GB VRAM
NVIDIA Nemotron Nano 12B v2 — 12.3B, nvidia · ~15 GB VRAM
Vikhr Nemo 12B Instruct R 21 09 24 — 12.2B, Vikhrmodels · ~12 GB VRAM
mistralai Mistral Nemo Instruct 2407 — 12.2B, SillyTilly · ~12 GB VRAM
MN 12B Mag Mell R1 — 12.2B, inflatebot · ~12 GB VRAM
gemma 3 12b it heretic — 12.2B, DreamFast · ~15 GB VRAM
gemma 3 12b it heretic v2 — 12.2B, DreamFast · ~15 GB VRAM
Mellum2 12B A2.5B Thinking — 12.1B, JetBrains · ~9.0 GB VRAM
Mellum2 12B A2.5B Base — 12.1B, JetBrains · ~9.0 GB VRAM
Gemma 3 12B — 12B, Google · ~13 GB VRAM
pythia 12b — 12B, EleutherAI · ~10 GB VRAM
Gemma 4 12B OBLITERATED — 12B, OBLITERATUS · ~14 GB VRAM
gemma 4 12B agentic fable5 composer2.5 v2 3.5x tau2 — 12B, yuxinlu1 · ~14 GB VRAM
gemma 4 12B coder fable5 composer2.5 v1 — 12B, yuxinlu1 · ~14 GB VRAM
Huihui gemma 4 12B agentic fable5 abliterated — 12B, huihui-ai · ~14 GB VRAM
Apertus 70B Instruct 2509 quantized.w4a16 — 11.3B, RedHatAI · ~14 GB VRAM
Bielik 11B v3.0 Instruct — 11.2B, speakleash · ~14 GB VRAM
Bielik 11B v2.3 Instruct — 11.2B, speakleash · ~12 GB VRAM
SOLAR 10.7B Instruct v1.0 — 10.7B, upstage · ~9.0 GB VRAM
Falcon3-10B Instruct — 10B, TII · ~10 GB VRAM
Darwin 9B NEG — 9.7B, ansulev · ~12 GB VRAM
SeeClick — 9.7B, cckevinn · ~12 GB VRAM
Qwythos 9B v2 — 9.7B, empero-ai · ~12 GB VRAM
Qwythos 9B Claude Mythos 5 1M — 9.4B, empero-ai · ~12 GB VRAM
Qwable 9B Claude Fable 5 — 9.4B, empero-ai · ~12 GB VRAM
gemma 2 9b it — 9.2B, unsloth · ~9.0 GB VRAM
gemma 2 9b — 9.2B, google · ~11 GB VRAM
Gemma 2 9B Instruct — 9B, Google · ~9.0 GB VRAM
NVIDIA Nemotron Nano 9B v2 — 8.9B, nvidia · ~10 GB VRAM
NVIDIA Nemotron Nano 9B v2 Japanese — 8.9B, nvidia · ~10 GB VRAM
granite 4.1 8b — 8.8B, ibm-granite · ~9.0 GB VRAM
Fanar 1 9B Instruct — 8.8B, QCRI · ~8.0 GB VRAM
internlm3 8b instruct — 8.8B, internlm · ~8.0 GB VRAM
llm jp 4 8b thinking — 8.6B, llm-jp · ~9.0 GB VRAM
Nemotron Labs Diffusion 8B Base — 8.5B, nvidia · ~7.0 GB VRAM
Nemotron Labs Diffusion 8B — 8.5B, nvidia · ~9.0 GB VRAM
GDN primed HQwen3 8B Instruct — 8.5B, amazon · ~9.0 GB VRAM
LFM2.5 8B A1B — 8.5B, LiquidAI · ~7.0 GB VRAM
gemma 7b — 8.5B, google · ~11 GB VRAM
LFM2 8B A1B — 8.3B, LiquidAI · ~7.0 GB VRAM
rnj 1 — 8.3B, EssentialAI · ~9.0 GB VRAM
Qwen3-8B — 8.2B, Alibaba · ~9.0 GB VRAM
Qwen3 8B Base — 8.2B, Qwen · ~9.0 GB VRAM
DeepSeek R1 0528 Qwen3 8B — 8.2B, deepseek-ai · ~9.0 GB VRAM
Qwen3 8B — 8.2B, unsloth · ~9.0 GB VRAM
MiniCPM4.1 8B — 8.2B, openbmb · ~7.0 GB VRAM
Qwen3 14B NVFP4 — 8.2B, nvidia · ~9.0 GB VRAM
granite 3.1 8b instruct — 8.2B, ibm-granite · ~9.0 GB VRAM
MiniCPM4 8B — 8.2B, openbmb · ~7.0 GB VRAM
T lite it 2.1 — 8.2B, t-tech · ~9.0 GB VRAM
Qwen3Guard Gen 8B — 8.2B, Qwen · ~9.0 GB VRAM
granite 3.0 8b instruct — 8.2B, ibm-granite · ~7.0 GB VRAM
granite 3.3 8b instruct — 8.2B, ibm-granite · ~9.0 GB VRAM
Qwen Marketing — 8.2B, marketeam · ~10 GB VRAM
mythos 9b unhinged — 8.2B, King3Djbl · ~9.0 GB VRAM
Apertus 8B Instruct 2509 — 8.1B, swiss-ai · ~9.0 GB VRAM
Nemotron H 8B Base 8K — 8.1B, nvidia · ~10 GB VRAM

Our shortlist: Best LLMs for 16 GB VRAM →

Other GPU budgets

8 GB of VRAM · 24 GB of VRAM · 48 GB of VRAM · All models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.