Spanvero How it works Find a model Compare models Pricing

The best open LLMs you can run on 16 GB of VRAM

Open LLMs that fit in 16 GB of VRAM at their default quant — enough for an RTX 4060 Ti 16 GB, 4070 Ti Super, or a 16 GB Mac. Ranked by popularity/recognition within the set that fits, with the honest $0-local cost. We confirm the fit; quality is yours to judge.

How this is ranked: Objective filter: 'best' = 'fits 16 GB.' Engine-computed VRAM, ordered by popularity/recognition within the fit set. No subjective quality claim; the 16 GB VRAM hub lists every fitting model, largest first.

1. Llama 3.1 8B Instruct — Meta, 8B · ~8.0 GB VRAM · $0.07/1M API · commercial OK
2. Qwen2.5 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.15/1M API · commercial OK
3. Qwen3 0.6B — Qwen, 800M · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
4. Mistral 7B Instruct v0.3 — Mistral AI, 7.2B · ~8.0 GB VRAM · $0.20/1M API · commercial OK
5. Qwen2.5-Coder 7B Instruct — Alibaba, 7B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
6. gpt-oss-20b — OpenAI, 21B · ~15 GB VRAM · $0.08/1M API · commercial OK
7. Qwen3 4B — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
8. Qwen2.5 3B Instruct — Qwen, 3.1B · ~4.0 GB VRAM · $0.12/1M API est. · non-commercial
9. Gemma 2 9B Instruct — Google, 9B · ~9.0 GB VRAM · $0.06/1M API · commercial OK
10. Llama 3.2 3B Instruct — Meta, 3B · ~5.0 GB VRAM · $0.19/1M API · commercial OK
11. Qwen2.5 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
12. gemma 3 270m — google, 300M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
13. Phi-4 — Microsoft, 14B · ~13 GB VRAM · $0.11/1M API · commercial OK
14. Qwen3-8B — Alibaba, 8.2B · ~9.0 GB VRAM · $0.29/1M API · commercial OK
15. Gemma 3 12B — Google, 12B · ~13 GB VRAM · $0.10/1M API · commercial OK
16. Qwen3 1.7B — Qwen, 2B · ~5.0 GB VRAM · $0.12/1M API est. · commercial OK
17. BGE-M3 — BAAI, 567M · ~3.0 GB VRAM · $0.10/1M API est. · commercial OK
18. Qwen3 4B Instruct 2507 — Qwen, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
19. Qwen2.5 0.5B Instruct — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
20. Qwen2.5 Coder 14B Instruct — Qwen, 14.8B · ~14 GB VRAM · $0.22/1M API est. · commercial OK
21. Qwen2 1.5B Instruct — Qwen, 1.5B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
22. Llama 3.2 1B Instruct — Meta, 1.2B · ~3.0 GB VRAM · $0.11/1M API · commercial OK
23. Llama 3.2 1B — meta-llama, 1.2B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
24. Qwen2.5 0.5B — Qwen, 500M · ~2.0 GB VRAM · $0.10/1M API est. · commercial OK
25. Phi-3.5-mini Instruct — Microsoft, 3.8B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
26. Qwen2-VL 7B Instruct — Alibaba, 8B · ~7.0 GB VRAM · $0.16/1M API est. · commercial OK
27. gemma 3 1b it — google, 1B · ~3.0 GB VRAM · $0.11/1M API est. · commercial OK
28. Qwen2.5 14B Instruct — Qwen, 14.8B · ~14 GB VRAM · $0.22/1M API est. · commercial OK
29. TinyLlama 1.1B Chat v1.0 — TinyLlama, 1.1B · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
30. Rio 3.0 Open Mini — prefeitura-rio, 4B · ~5.0 GB VRAM · $0.13/1M API est. · commercial OK
31. Qwen3 14B — Qwen, 14.8B · ~13 GB VRAM · $0.57/1M API · commercial OK
32. gpt2 large — openai-community, 800M · ~2.0 GB VRAM · $0.11/1M API est. · commercial OK
33. OpenELM 1 1B Instruct — apple, 1.1B · ~3.0 GB VRAM · $0.11/1M API est. · non-commercial
34. DeepSeek-Coder-V2-Lite Instruct — DeepSeek, 15.7B · ~11 GB VRAM · $0.23/1M API est. · commercial OK
35. Hermes 3 — Llama 3.1 8B — Nous Research, 8B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
36. PowerMoE 3b — ibm-research, 3.4B · ~4.0 GB VRAM · $0.13/1M API est. · commercial OK
37. Meta Llama 3 8B Instruct — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK
38. Mistral 7B Instruct v0.2 — mistralai, 7.2B · ~8.0 GB VRAM · $0.16/1M API est. · commercial OK
39. Llama 3.1 8B — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK
40. Meta Llama 3 8B — meta-llama, 8B · ~10 GB VRAM · $0.16/1M API est. · commercial OK

Showing the top 40 of 350. See all →

Want every model that fits? All 350 models that run on 16 GB of VRAM →

More: all "best" lists · Outcome Lab · all models

The weekly price index

A short email of real AI price moves, straight from the daily log — no hype. We're collecting the list now; the first issue goes out when it opens. Unsubscribe with one click.

Joining the list needs JavaScript — or just email support@spanvero.com and we'll add you.