Spanvero How it works Find a model Compare models Pricing

AI models that run on 24 GB of VRAM

381 open models fit in 24 GB of VRAM at their default quant — enough for a high-end card like an RTX 3090 / 4090. Most capable first; run any of them for $0 on your own hardware.

Laguna XS.2 — 33.4B, poolside · ~24 GB VRAM
Laguna XS 2.1 — 33.4B, poolside · ~24 GB VRAM
sarvam 30b — 32.2B, sarvamai · ~22 GB VRAM
llm jp 4 32b a3b thinking — 32.1B, llm-jp · ~23 GB VRAM
NVIDIA Nemotron 3 Nano 30B A3B BF16 — 31.6B, nvidia · ~22 GB VRAM
Nemotron Cascade 2 30B A3B — 31.6B, nvidia · ~22 GB VRAM
Qwen3 30B A3B — 30.5B, Qwen · ~22 GB VRAM
Qwen3 Coder 30B A3B Instruct — 30.5B, Qwen · ~22 GB VRAM
Qwen3 30B A3B Instruct 2507 — 30.5B, Qwen · ~22 GB VRAM
Qwen3 30B A3B abliterated — 30.5B, mlabonne · ~22 GB VRAM
Qwen3 30B A3B Thinking 2507 — 30.5B, Qwen · ~22 GB VRAM
Tongyi DeepResearch 30B A3B — 30.5B, Alibaba-NLP · ~22 GB VRAM
Qwen3 30B A3B Base — 30.5B, Qwen · ~22 GB VRAM
lynx instruct 30b — 30.5B, bineric · ~22 GB VRAM
North Mini Code 1.0 — 30.5B, CohereLabs · ~22 GB VRAM
granite 4.1 30b — 28.9B, ibm-granite · ~24 GB VRAM
Gemma 2 27B Instruct — 27B, Google · ~22 GB VRAM
Qwen3.6 27B OBLITERATED — 26.9B, OBLITERATUS · ~22 GB VRAM
qwen27B Agent R2 abliterated preview — 26.9B, hotdogs · ~22 GB VRAM
Trinity Mini — 26.1B, arcee-ai · ~19 GB VRAM
LFM2 24B A2B — 23.8B, LiquidAI · ~18 GB VRAM
Mistral Small 3 (24B, 2501) — 23.6B, Mistral AI · ~20 GB VRAM
EuroLLM 22B Instruct 2512 — 22.6B, utter-project · ~19 GB VRAM
solar pro preview instruct — 22.1B, upstage · ~17 GB VRAM
gpt oss safeguard 20b — 21.5B, openai · ~16 GB VRAM
gpt-oss-20b — 21B, OpenAI · ~15 GB VRAM
gpt oss 20b BF16 — 20.9B, unsloth · ~15 GB VRAM
gpt neox 20b — 20.7B, EleutherAI · ~17 GB VRAM
Qwen3.6 27B Claude Opus Sonnet Distilled NVFP4 MTP — 19.6B, Brian6145 · ~23 GB VRAM
Qwen3.6 27B AEON Ultimate Uncensored Multimodal NVFP4 MTP — 19.6B, AEON-7 · ~23 GB VRAM
Qwen3.6 27B AEON Ultimate Uncensored NVFP4 — 19.1B, AEON-7 · ~23 GB VRAM
Agents A1 NVFP4 — 18.9B, r0b0tlab · ~22 GB VRAM
Qwen3.6 35B A3B NVFP4 — 18.7B, nvidia · ~22 GB VRAM
GLM 4.7 Flash NVFP4 — 18.4B, GadflyII · ~19 GB VRAM
NVIDIA Nemotron 3 Nano 30B A3B NVFP4 — 18.2B, nvidia · ~13 GB VRAM
Qwen3.6 27B NVFP4 — 18.2B, nvidia · ~21 GB VRAM
Qwen3 30B A3B NVFP4 — 17.5B, RedHatAI · ~13 GB VRAM
Qwen3 32B NVFP4 — 17.2B, nvidia · ~15 GB VRAM
Param2 17B A2.4B Thinking — 17.2B, bharatgenai · ~12 GB VRAM
Qwen3.6 27B NVFP4 — 17.1B, ocicek · ~20 GB VRAM
Huihui Qwen3.6 27B abliterated NVFP4 MTP — 17.1B, sakamakismile · ~20 GB VRAM
Qwen3.6 27B AEON Ultimate Uncensored Multimodal NVFP4 MTP XS — 17.1B, AEON-7 · ~20 GB VRAM
Qwen3.6 27B Text NVFP4 MTP — 16.7B, sakamakismile · ~20 GB VRAM
deepseek moe 16b base — 16.4B, deepseek-ai · ~12 GB VRAM
deepseek moe 16b chat — 16.4B, deepseek-ai · ~12 GB VRAM
LLaDA2.0 mini — 16.3B, inclusionAI · ~12 GB VRAM
Ling mini 2.0 — 16.3B, inclusionAI · ~12 GB VRAM
Moonlight 16B A3B Instruct — 16B, moonshotai · ~13 GB VRAM
starcoder — 15.8B, bigcode · ~19 GB VRAM
DeepSeek-Coder-V2-Lite Instruct — 15.7B, DeepSeek · ~11 GB VRAM
DeepSeek V2 Lite Chat — 15.7B, deepseek-ai · ~15 GB VRAM
DeepSeek V2 Lite — 15.7B, deepseek-ai · ~15 GB VRAM
Qwen3 30B A3B NVFP4 — 15.6B, nvidia · ~12 GB VRAM
Qwen3 Coder 30B A3B Instruct FP4 — 15.6B, NVFP4 · ~12 GB VRAM
Gemma 4 26B A4B it NVFP4 — 15.1B, bg-digitalservices · ~18 GB VRAM
Gemma 4 26B A4B it Uncensored NVFP4 — 15.1B, AEON-7 · ~18 GB VRAM
Qwen2.5 Coder 14B Instruct — 14.8B, Qwen · ~14 GB VRAM
Qwen2.5 14B Instruct — 14.8B, Qwen · ~14 GB VRAM
Qwen3 14B — 14.8B, Qwen · ~13 GB VRAM
DeepSeek R1 Distill Qwen 14B — 14.8B, deepseek-ai · ~14 GB VRAM
Qwen2.5 14B Instruct — 14.8B, unsloth · ~14 GB VRAM
phi 4 quantized.w4a16 — 14.8B, RedHatAI · ~14 GB VRAM
Qwen2.5 14B — 14.8B, Qwen · ~14 GB VRAM
Qwen2.5 Coder 14B — 14.8B, Qwen · ~14 GB VRAM
Qwen3 14B Base — 14.8B, Qwen · ~13 GB VRAM
Qwen3 14B Instruct — 14.8B, OpenPipe · ~13 GB VRAM
HyperCLOVAX SEED Think 14B — 14.7B, naver-hyperclovax · ~13 GB VRAM
Gemma 4 26B A4B NVFP4 — 14.4B, nvidia · ~17 GB VRAM
diffusiongemma 26B A4B it NVFP4 — 14.4B, nvidia · ~17 GB VRAM
Qwen1.5 MoE A2.7B — 14.3B, Qwen · ~12 GB VRAM
Phi-4 — 14B, Microsoft · ~13 GB VRAM
Nemotron Labs Diffusion 14B — 13.5B, nvidia · ~13 GB VRAM
talkie 1930 13b it hf — 13.3B, lewtun · ~11 GB VRAM
Llama 2 13b chat hf — 13B, meta-llama · ~16 GB VRAM
HarmBench Llama 2 13b cls — 13B, cais · ~11 GB VRAM
NVIDIA Nemotron Nano 12B v2 — 12.3B, nvidia · ~15 GB VRAM
Vikhr Nemo 12B Instruct R 21 09 24 — 12.2B, Vikhrmodels · ~12 GB VRAM
mistralai Mistral Nemo Instruct 2407 — 12.2B, SillyTilly · ~12 GB VRAM
MN 12B Mag Mell R1 — 12.2B, inflatebot · ~12 GB VRAM
gemma 3 12b it heretic — 12.2B, DreamFast · ~15 GB VRAM
gemma 3 12b it heretic v2 — 12.2B, DreamFast · ~15 GB VRAM
Mellum2 12B A2.5B Thinking — 12.1B, JetBrains · ~9.0 GB VRAM
Mellum2 12B A2.5B Base — 12.1B, JetBrains · ~9.0 GB VRAM
Gemma 3 12B — 12B, Google · ~13 GB VRAM
pythia 12b — 12B, EleutherAI · ~10 GB VRAM
Gemma 4 12B OBLITERATED — 12B, OBLITERATUS · ~14 GB VRAM
gemma 4 12B agentic fable5 composer2.5 v2 3.5x tau2 — 12B, yuxinlu1 · ~14 GB VRAM
gemma 4 12B coder fable5 composer2.5 v1 — 12B, yuxinlu1 · ~14 GB VRAM
Huihui gemma 4 12B agentic fable5 abliterated — 12B, huihui-ai · ~14 GB VRAM
Apertus 70B Instruct 2509 quantized.w4a16 — 11.3B, RedHatAI · ~14 GB VRAM

Our shortlist: Best LLMs for 24 GB VRAM →

Other GPU budgets

8 GB of VRAM · 16 GB of VRAM · 48 GB of VRAM · All models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.