Spanvero How it works Find a model Compare models Pricing

The best open LLMs you can run on 12 GB of VRAM

Open LLMs that fit in 12 GB of VRAM at their default quant — the sweet spot for an RTX 3060 12 GB, 4070, or 6700 XT. Ranked by popularity/recognition within the set that fits, with the honest $0-local, rent-a-GPU, and your-own-API-key cost for each. We guarantee the fit; you judge which one you like best.

How this is ranked: Objective fit filter only (fills the gap between the 8 and 16 GB tiers). 'Best' means 'runs on a 12 GB card.' VRAM is engine-computed; ordering is by popularity/recognition (a real signal), not a quality ranking we'd have to invent.

1. Llama 3.1 8B Instruct — Meta, 8B · ~8.0 GB VRAM · $0.07/1M API · commercial OK
2. Qwen2.5 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.15/1M API · commercial OK
3. Qwen3 0.6B — Qwen, 800M · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
4. Mistral 7B Instruct v0.3 — Mistral AI, 7.2B · ~8.0 GB VRAM · $0.20/1M API · commercial OK
5. Qwen2.5-Coder 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
6. Qwen3 4B — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
7. Qwen2.5 3B Instruct — Qwen, 3.1B · ~4.0 GB VRAM · $0.12/1M API est. · non-commercial
8. Gemma 2 9B Instruct — Google, 9B · ~9.0 GB VRAM · $0.06/1M API · commercial OK
9. Llama 3.2 3B Instruct — Meta, 3B · ~5.0 GB VRAM · $0.19/1M API · commercial OK
10. Qwen2.5 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
11. gemma 3 270m — google, 300M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
12. Qwen3-8B — Alibaba, 8.2B · ~9.0 GB VRAM · $0.29/1M API · commercial OK
13. Qwen3 1.7B — Qwen, 2B · ~5.0 GB VRAM · $0.12/1M API est. · commercial OK
14. BGE-M3 — BAAI, 567M · ~3.0 GB VRAM · $0.10/1M API est. · commercial OK
15. Qwen3 4B Instruct 2507 — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
16. Qwen2.5 0.5B Instruct — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
17. Qwen2 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
18. Llama 3.2 1B Instruct — Meta, 1.2B · ~3.0 GB VRAM · $0.11/1M API · commercial OK
19. Llama 3.2 1B — meta-llama, 1.2B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
20. Qwen2.5 0.5B — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
21. Phi-3.5-mini Instruct — Microsoft, 3.8B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
22. Qwen2-VL 7B Instruct — Alibaba, 8B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
23. gemma 3 1b it — google, 1B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
24. TinyLlama 1.1B Chat v1.0 — TinyLlama, 1.1B · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
25. Rio 3.0 Open Mini — prefeitura-rio, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
26. gpt2 large — openai-community, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
27. OpenELM 1 1B Instruct — apple, 1.1B · ~3.0 GB VRAM · $0.11/1M API est. · non-commercial
28. DeepSeek-Coder-V2-Lite Instruct — DeepSeek, 15.7B · ~11 GB VRAM · $0.23/1M API est. · commercial OK
29. Hermes 3 — Llama 3.1 8B — Nous Research, 8B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
30. PowerMoE 3b — ibm-research, 3.4B · ~4.0 GB VRAM · $0.13/1M API est. · commercial OK
31. Meta Llama 3 8B Instruct — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK
32. Mistral 7B Instruct v0.2 — mistralai, 7.2B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
33. Llama 3.1 8B — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK
34. Meta Llama 3 8B — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK
35. Phi 4 mini instruct — microsoft, 3.8B · ~6.0 GB VRAM · $0.22/1M API · commercial OK
36. Qwen2.5 1.5B — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
37. NVIDIA Nemotron 3 Nano 4B BF16 — nvidia, 4B · ~6.0 GB VRAM · $0.13/1M API est. · non-commercial
38. h2ovl mississippi 800m — h2oai, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
39. h2ovl mississippi 2b — h2oai, 2.2B · ~4.0 GB VRAM · $0.12/1M API est. · commercial OK
40. Nomic Embed Text v1.5 — Nomic AI, 137M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK

Showing the top 40 of 304. See all →

More: all "best" lists · Outcome Lab · all models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.