Spanvero How it works Find a model Compare models Pricing

The best open LLMs you can run on 8 GB of VRAM

Every open LLM in our catalog whose weights plus KV-cache actually fit in 8 GB of VRAM at its default quant — the size of an RTX 3060/4060 or an 8 GB laptop GPU. Ranked by popularity and recognition within the set that fits (the most-run models first), with the honest $0-on-your-own-hardware cost for each. You pick the one whose quality you like; we just guarantee it fits.

How this is ranked: Pure objective filter: 'best' = 'fits your 8 GB card.' VRAM is computed by our shared cost engine from params, quant and context — not a quality opinion. Within the fit set we order by popularity/recognition (real Hugging Face downloads — a recognized shortlist) and never claim a #1 is 'smartest.' Quality judgment is the user's; the 8 GB VRAM hub lists every fitting model, largest first.

1. Llama 3.1 8B Instruct — Meta, 8B · ~8.0 GB VRAM · $0.07/1M API · commercial OK
2. Qwen2.5 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.15/1M API · commercial OK
3. Qwen3 0.6B — Qwen, 800M · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
4. Mistral 7B Instruct v0.3 — Mistral AI, 7.2B · ~8.0 GB VRAM · $0.20/1M API · commercial OK
5. Qwen2.5-Coder 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
6. Qwen3 4B — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
7. Qwen2.5 3B Instruct — Qwen, 3.1B · ~4.0 GB VRAM · $0.12/1M API est. · non-commercial
8. Llama 3.2 3B Instruct — Meta, 3B · ~5.0 GB VRAM · $0.19/1M API · commercial OK
9. Qwen2.5 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
10. gemma 3 270m — google, 300M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
11. Qwen3 1.7B — Qwen, 2B · ~5.0 GB VRAM · $0.12/1M API est. · commercial OK
12. BGE-M3 — BAAI, 567M · ~3.0 GB VRAM · $0.10/1M API est. · commercial OK
13. Qwen3 4B Instruct 2507 — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
14. Qwen2.5 0.5B Instruct — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
15. Qwen2 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
16. Llama 3.2 1B Instruct — Meta, 1.2B · ~3.0 GB VRAM · $0.11/1M API · commercial OK
17. Llama 3.2 1B — meta-llama, 1.2B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
18. Qwen2.5 0.5B — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
19. Phi-3.5-mini Instruct — Microsoft, 3.8B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
20. Qwen2-VL 7B Instruct — Alibaba, 8B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
21. gemma 3 1b it — google, 1B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
22. TinyLlama 1.1B Chat v1.0 — TinyLlama, 1.1B · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
23. Rio 3.0 Open Mini — prefeitura-rio, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
24. gpt2 large — openai-community, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
25. OpenELM 1 1B Instruct — apple, 1.1B · ~3.0 GB VRAM · $0.11/1M API est. · non-commercial
26. Hermes 3 — Llama 3.1 8B — Nous Research, 8B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
27. PowerMoE 3b — ibm-research, 3.4B · ~4.0 GB VRAM · $0.13/1M API est. · commercial OK
28. Mistral 7B Instruct v0.2 — mistralai, 7.2B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
29. Phi 4 mini instruct — microsoft, 3.8B · ~6.0 GB VRAM · $0.22/1M API · commercial OK
30. Qwen2.5 1.5B — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
31. NVIDIA Nemotron 3 Nano 4B BF16 — nvidia, 4B · ~6.0 GB VRAM · $0.13/1M API est. · non-commercial
32. h2ovl mississippi 800m — h2oai, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
33. h2ovl mississippi 2b — h2oai, 2.2B · ~4.0 GB VRAM · $0.12/1M API est. · commercial OK
34. Nomic Embed Text v1.5 — Nomic AI, 137M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
35. Llama 3.1 8B Instruct (Abliterated) — mlabonne (community), 8B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
36. Qwen2 0.5B — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
37. SmolLM 1.7B Instruct quantized.w4a16 — nm-testing, 1.8B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
38. Qwen2.5 1.5B quantized.w8a8 — RedHatAI, 1.8B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
39. LLaDA 8B Instruct — GSAI-ML, 8B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
40. Qwen2.5 Math 1.5B — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK

Showing the top 40 of 231. See all →

Want every model that fits? All 231 models that run on 8 GB of VRAM →

More: all "best" lists · Outcome Lab · all models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.