Spanvero How it works Find a model Compare models Pricing

The best open LLMs you can run on 24 GB of VRAM

Open LLMs that fit in 24 GB of VRAM at their default quant — the RTX 3090 / 4090 / 7900 XTX tier where serious local models like 32B-class checkpoints become runnable. Ranked by popularity/recognition within the set that fits, with honest $0-local and rent-a-GPU costs. We guarantee the fit; you judge the quality.

How this is ranked: Objective fit filter only. 'Best' = 'runs on a 24 GB card.' VRAM is engine-computed; ordering by popularity/recognition within the fit set, never a quality verdict; the 24 GB VRAM hub lists every fitting model, largest first.

1. Llama 3.1 8B Instruct — Meta, 8B · ~8.0 GB VRAM · $0.07/1M API · commercial OK
2. Qwen2.5 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.15/1M API · commercial OK
3. Qwen3 0.6B — Qwen, 800M · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
4. Mistral 7B Instruct v0.3 — Mistral AI, 7.2B · ~8.0 GB VRAM · $0.20/1M API · commercial OK
5. Qwen2.5-Coder 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
6. gpt-oss-20b — OpenAI, 21B · ~15 GB VRAM · $0.08/1M API · commercial OK
7. Qwen3 4B — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
8. Qwen2.5 3B Instruct — Qwen, 3.1B · ~4.0 GB VRAM · $0.12/1M API est. · non-commercial
9. Gemma 2 9B Instruct — Google, 9B · ~9.0 GB VRAM · $0.06/1M API · commercial OK
10. Llama 3.2 3B Instruct — Meta, 3B · ~5.0 GB VRAM · $0.19/1M API · commercial OK
11. Qwen2.5 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
12. gemma 3 270m — google, 300M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
13. Phi-4 — Microsoft, 14B · ~13 GB VRAM · $0.11/1M API · commercial OK
14. Qwen3-8B — Alibaba, 8.2B · ~9.0 GB VRAM · $0.29/1M API · commercial OK
15. Gemma 3 12B — Google, 12B · ~13 GB VRAM · $0.10/1M API · commercial OK
16. Qwen3 1.7B — Qwen, 2B · ~5.0 GB VRAM · $0.12/1M API est. · commercial OK
17. Gemma 2 27B Instruct — Google, 27B · ~22 GB VRAM · $0.65/1M API · commercial OK
18. BGE-M3 — BAAI, 567M · ~3.0 GB VRAM · $0.10/1M API est. · commercial OK
19. Mistral Small 3 (24B, 2501) — Mistral AI, 23.6B · ~20 GB VRAM · $0.07/1M API · commercial OK
20. Qwen3 4B Instruct 2507 — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
21. Qwen2.5 0.5B Instruct — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
22. Qwen2.5 Coder 14B Instruct — Qwen, 14.8B · ~14 GB VRAM · $0.22/1M API est. · commercial OK
23. Qwen2 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
24. Llama 3.2 1B Instruct — Meta, 1.2B · ~3.0 GB VRAM · $0.11/1M API · commercial OK
25. Llama 3.2 1B — meta-llama, 1.2B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
26. Qwen2.5 0.5B — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
27. Phi-3.5-mini Instruct — Microsoft, 3.8B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
28. Qwen2-VL 7B Instruct — Alibaba, 8B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
29. gemma 3 1b it — google, 1B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
30. Qwen3 30B A3B — Qwen, 30.5B · ~22 GB VRAM · $0.31/1M API · commercial OK
31. Qwen2.5 14B Instruct — Qwen, 14.8B · ~14 GB VRAM · $0.22/1M API est. · commercial OK
32. TinyLlama 1.1B Chat v1.0 — TinyLlama, 1.1B · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
33. Rio 3.0 Open Mini — prefeitura-rio, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
34. Qwen3.6 35B A3B NVFP4 — nvidia, 18.7B · ~22 GB VRAM · $0.25/1M API est. · commercial OK
35. Qwen3 14B — Qwen, 14.8B · ~13 GB VRAM · $0.57/1M API · commercial OK
36. gpt2 large — openai-community, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
37. Qwen3 Coder 30B A3B Instruct — Qwen, 30.5B · ~22 GB VRAM · $0.18/1M API · commercial OK
38. NVIDIA Nemotron 3 Nano 30B A3B BF16 — nvidia, 31.6B · ~22 GB VRAM · $0.35/1M API est. · non-commercial
39. OpenELM 1 1B Instruct — apple, 1.1B · ~3.0 GB VRAM · $0.11/1M API est. · non-commercial
40. DeepSeek-Coder-V2-Lite Instruct — DeepSeek, 15.7B · ~11 GB VRAM · $0.23/1M API est. · commercial OK

Showing the top 40 of 392. See all →

Want every model that fits? All 392 models that run on 24 GB of VRAM →

More: all "best" lists · Outcome Lab · all models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.