Which local LLM is best for a beginner?

Llama 3.1 8B at Q4_K_M quantization is the most popular starting point. It requires only ~4 GB VRAM, runs fast on any GPU with 6 GB+, and offers strong general-purpose performance. Mistral 7B and Qwen 2.5 7B are excellent alternatives.

What is the difference between dense and MoE models?

Dense models activate all parameters for every token. MoE (Mixture of Experts) models have multiple expert sub-networks; only a subset activates per token. MoE models offer better quality per active parameter but require more total VRAM since all experts must be loaded. For example, Mixtral 8×7B has 46.7B total params (loaded) but only 12.9B active per token.

How much VRAM do I need to run a local LLM?

At Q4_K_M quantization (most popular), figure roughly 0.5 GB per billion parameters plus 1-2 GB overhead. A 7B model needs ~4-5 GB, a 13B needs ~7-8 GB, a 32B needs ~17-18 GB, and a 70B needs ~37-38 GB. Use the PCPARTGUIDE VRAM Calculator for exact numbers with your specific context length.

What is the largest model I can run on a consumer GPU?

With a 24 GB GPU (RTX 3090/4090/RX 7900 XTX), you can run 32B-35B models fully on GPU at Q4_K_M, or 70B models at Q3 with partial CPU offloading. With 32 GB (RTX 5090), 70B at Q4 fits entirely. For MoE models like Mixtral 8×7B (46.7B total), 24 GB runs them at Q4 with partial offloading.

How do I choose between model families?

Llama models offer the broadest ecosystem and tooling support. Mistral models excel at multilingual tasks and fast inference. Qwen models (especially Qwen 3.5+) are leading benchmarks with hybrid architectures. DeepSeek MoE models offer exceptional quality at high VRAM cost. Gemma and Phi are optimized for efficient on-device use. Match the family to your hardware, language needs, and task type.

Local LLM Models Directory

Name: Local LLM Models Directory
Creator: PCPARTGUIDE

Complete reference of 94 open-source local LLMs across 21 model families. Compare parameters, architecture, layers, context length, and Q4_K_M VRAM requirements.

Models

Families

Dense

MoE

GPU Tier:

Showing 94 of 94 models

Model	Family	Params	Arch	Layers	Max Context	Q4_K_M VRAM	Calculator
Qwen 2.5 0.5B	Qwen	490M	Dense	24	32K	228 MB	Calc
Qwen 3 0.6B Apache 2.0. Thinking mode toggle. Tied embeddings.	Qwen	600M	Dense	28	32K	279 MB	Calc
Qwen 3.5 0.8B Apache 2.0. Hybrid DeltaNet+Attn (25% layers KV cache). 262K→1M ctx.	Qwen	800M	Dense	6	256K	373 MB	Calc
Gemma 3 1B	Gemma	1.0B	Dense	26	32K	466 MB	Calc
LFM2 1.2B LFM Open License (Apache 2.0 based). On-device hybrid model. Fast CPU/mobile inference.	Liquid	1.2B	Dense	24	32K	559 MB	Calc
Llama 3.2 1B	Llama	1.2B	Dense	16	128K	577 MB	Calc
Qwen 2.5 1.5B	Qwen	1.5B	Dense	28	32K	717 MB	Calc
DeepSeek R1 Distill Qwen 1.5B Reasoning distilled into Qwen 2.5 1.5B base.	DeepSeek	1.5B	Dense	28	32K	717 MB	Calc
Qwen 3 1.7B Apache 2.0. Thinking mode toggle.	Qwen	1.7B	Dense	28	32K	801 MB	Calc
Qwen 3.5 2B Apache 2.0. Hybrid DeltaNet+Attn (25% layers KV cache). 262K→1M ctx.	Qwen	2.0B	Dense	6	256K	931 MB	Calc
Granite 3.1 2B Apache 2.0. Enterprise RAG, code, safety.	IBM Granite	2.0B	Dense	32	128K	931 MB	Calc
Ministral 3 3B Apache 2.0. Cascade-distilled from Mistral Small 3.1.	Mistral	3.0B	Dense	26	256K	1.4 GB	Calc
SmolLM3 3B Apache 2.0. Tiny model for CPU/browser/phone. Educational use.	SmolLM	3.0B	Dense	32	8K	1.4 GB	Calc
Qwen 2.5 3B	Qwen	3.1B	Dense	36	32K	1.4 GB	Calc
Llama 3.2 3B	Llama	3.2B	Dense	28	128K	1.5 GB	Calc
Phi-4-mini 3.8B	Phi	3.8B	Dense	32	16K	1.8 GB	Calc
Qwen 3.5 4B Apache 2.0. Hybrid DeltaNet+Attn (25% layers KV cache). 262K→1M ctx.	Qwen	4.0B	Dense	8	256K	1.9 GB	Calc
Gemma 3 4B	Gemma	4.0B	Dense	34	32K	1.9 GB	Calc
Nemotron 3 Nano 4B Nemotron Open Model License. Hybrid Mamba2-Transformer. Laptop/workstation friendly.	Nvidia	4.0B	Dense	32	256K	1.9 GB	Calc
Qwen 3 4B Apache 2.0. Thinking mode toggle. Great small local model.	Qwen	4.0B	Dense	36	32K	1.9 GB	Calc
Gemma 4 E2B Effective 2.3B active via PLE. Hybrid local+global attn. Audio+image. 128K ctx.	Gemma	5.1B	Dense	35	128K	2.4 GB	Calc
Phi-4-multimodal 5.6B MIT license. Image + audio + text multimodal. Good compact multimodal local.	Phi	5.6B	Dense	36	16K	2.6 GB	Calc
OLMo 3 7B Fully open data/code/weights. Transparent research model.	AI2 OLMo	7.0B	Dense	32	32K	3.3 GB	Calc
StarCoder2 7B OpenRAIL BigCode license. Code completion/instruct. Mature local code base.	BigCode	7.0B	Dense	32	16K	3.3 GB	Calc
Mistral 7B v0.3	Mistral	7.3B	Dense	32	32K	3.4 GB	Calc
Qwen 2.5 7B	Qwen	7.6B	Dense	28	128K	3.5 GB	Calc
Qwen 2.5 Coder 7B Apache 2.0. Mature GGUF/MLX support. Excellent laptop coding.	Qwen	7.6B	Dense	28	32K	3.5 GB	Calc
DeepSeek R1 Distill Qwen 7B Reasoning distilled into Qwen 2.5 7B base. Great local reasoning.	DeepSeek	7.6B	Dense	28	32K	3.5 GB	Calc
Ministral 3 8B Apache 2.0. Cascade-distilled from Mistral Small 3.1.	Mistral	8.0B	Dense	34	256K	3.7 GB	Calc
Gemma 4 E4B Effective 4.5B active via PLE. Hybrid local+global attn. Audio+image. 128K ctx.	Gemma	8.0B	Dense	42	128K	3.7 GB	Calc
Llama-Nemotron 8B Nvidia fine-tune of Llama 3.1 8B for reasoning.	Nvidia	8.0B	Dense	32	128K	3.7 GB	Calc
Granite 3.1 8B Apache 2.0. Enterprise chat, code, safety. Mature local deployments.	IBM Granite	8.0B	Dense	40	128K	3.7 GB	Calc
MiniCPM 4 8B Open weights. On-device agents + MCP tool use. Good local tools/agents.	MiniCPM	8.0B	Dense	32	32K	3.7 GB	Calc
Llama 3.1 8B	Llama	8.0B	Dense	32	128K	3.7 GB	Calc
Qwen 3 8B Apache 2.0. Hybrid reasoning. Strong all-round local model.	Qwen	8.2B	Dense	36	128K	3.8 GB	Calc
Qwen 3.5 9B Apache 2.0. Hybrid DeltaNet+Attn (25% layers KV cache). 13x smaller than gpt-oss-120b.	Qwen	9.0B	Dense	8	256K	4.2 GB	Calc
Nemotron-Nano 9B v2 NVIDIA Open Model License. Unified reasoning/non-reasoning. 128K ctx.	Nvidia	9.0B	Dense	40	128K	4.2 GB	Calc
Yi-Coder 9B Apache 2.0. Chinese/English coding. Mature GGUF support.	Yi	9.0B	Dense	40	32K	4.2 GB	Calc
Mistral NeMo 12B Apache 2.0. Quantization-aware. NVIDIA collaboration. 128K context.	Mistral	12.0B	Dense	40	128K	5.6 GB	Calc
Gemma 3 12B	Gemma	12.0B	Dense	48	32K	5.6 GB	Calc
Ministral 3 14B Apache 2.0. Includes vision encoder. Strong laptop coding option.	Mistral	14.0B	Dense	40	256K	6.5 GB	Calc
DeepCoder 14B RL-derived code reasoning. Good local coding reasoner class.	Coding	14.0B	Dense	40	32K	6.5 GB	Calc
Qwen 2.5 14B	Qwen	14.7B	Dense	48	128K	6.8 GB	Calc
Qwen 2.5 Coder 14B Apache 2.0. Strong local coding with mature runtime support.	Qwen	14.7B	Dense	48	32K	6.8 GB	Calc
DeepSeek R1 Distill Qwen 14B Reasoning distilled into Qwen 2.5 14B base.	DeepSeek	14.7B	Dense	48	32K	6.8 GB	Calc
Phi-4 14B MIT license. Math/reasoning specialist. High quality for size.	Phi	14.7B	Dense	40	16K	6.8 GB	Calc
Qwen 3 14B Apache 2.0. Dense 14B. Excellent workstation model.	Qwen	14.8B	Dense	40	128K	6.9 GB	Calc
StarCoder2 15B OpenRAIL BigCode license. Strong code completion with responsible-use clauses.	BigCode	15.0B	Dense	40	16K	7.0 GB	Calc
Granite 3.1 20B Apache 2.0. Strong enterprise local option.	IBM Granite	20.0B	Dense	52	128K	9.3 GB	Calc
gpt-oss 20B (MoE) Apache 2.0. MoE: 32 experts, top-4 routing. Fits 16GB at MXFP4. Strong local reasoning.	OpenAI	21.0B3.6B active	MoE	24	128K	9.8 GB	Calc
Mistral Small 3.1 24B Apache 2.0. Runs on RTX 4090 / 32GB Mac. Vision + function calling.	Mistral	24.0B	Dense	56	128K	11.2 GB	Calc
Magistral Small 24B Apache 2.0. Reasoning-focused dense model. Good workstation option.	Mistral	24.0B	Dense	56	128K	11.2 GB	Calc
Gemma 4 26B-A4B (MoE) MoE: 128 experts, 8 active + 1 shared. Sliding window 1K. 256K ctx.	Gemma	25.2B3.8B active	MoE	30	256K	11.7 GB	Calc
Qwen 3.5 27B Apache 2.0. Dense 27B. Hybrid DeltaNet+Attn (25% layers KV cache). 262K ctx.	Qwen	27.0B	Dense	16	256K	12.6 GB	Calc
Qwen 3.6 27B Apache 2.0. Dense 27B coding specialist. Hybrid DeltaNet+Attn (25% KV cache layers).	Qwen	27.0B	Dense	16	256K	12.6 GB	Calc
Gemma 3 27B	Gemma	27.0B	Dense	64	128K	12.6 GB	Calc
Qwen 3 30B-A3B (MoE) Apache 2.0. MoE: efficient local model. 3B active per token.	Qwen	30.0B3.0B active	MoE	48	128K	14.0 GB	Calc
Nemotron 3 Nano 30B-A3B (MoE) Nemotron Open Model License. MoE. Up to 1M context. Efficient local reasoning/agents.	Nvidia	30.0B3.0B active	MoE	40	256K	14.0 GB	Calc
Gemma 4 31B Dense 31B. Hybrid local+global attn. Dual RoPE. TurboQuant 3-bit KV. 256K ctx. #3 open model on Arena.	Gemma	30.7B	Dense	60	256K	14.3 GB	Calc
OLMo 3 32B Fully open research model. Instruction/thinking variants.	AI2 OLMo	32.0B	Dense	64	32K	14.9 GB	Calc
Qwen 2.5 32B	Qwen	32.5B	Dense	64	128K	15.1 GB	Calc
Qwen 2.5 Coder 32B Apache 2.0. Top local coding model with mature support.	Qwen	32.5B	Dense	64	32K	15.1 GB	Calc
DeepSeek R1 Distill Qwen 32B Reasoning distilled into Qwen 2.5 32B base. Top local reasoning.	DeepSeek	32.5B	Dense	64	32K	15.1 GB	Calc
Qwen 3 32B Apache 2.0. Dense 32B. Top-tier workstation coding/general.	Qwen	32.8B	Dense	64	128K	15.3 GB	Calc
Qwen 3.5 35B-A3B (MoE) Apache 2.0. MoE: 256 experts, 8+1 active. DeltaNet+MoE hybrid. 3.5 tok/s on RTX 4090.	Qwen	35.0B3.0B active	MoE	10	256K	16.3 GB	Calc
Qwen 3.6 35B-A3B (MoE) Apache 2.0. MoE: 256 experts, 8+1 active. DeltaNet+GA hybrid. 262K ctx, ext to ~1M with YaRN. SWE-bench 73.4.	Qwen	35.0B3.0B active	MoE	10	256K	16.3 GB	Calc
Command R 35B CC-BY-NC. RAG, multilingual, tool use specialist. 128K context.	Cohere	35.0B	Dense	40	128K	16.3 GB	Calc
Mixtral 8x7B (MoE) MoE: 8 experts, 2 active. All 46.7B params loaded.	Mistral	46.7B12.9B active	MoE	32	32K	21.7 GB	Calc
Llama 3.1 70B	Llama	70.6B	Dense	80	128K	32.9 GB	Calc
Llama 3.3 70B	Llama	70.6B	Dense	80	128K	32.9 GB	Calc
DeepSeek R1 Distill Llama 70B Reasoning distilled into Llama 3.3 70B base. Workstation class.	DeepSeek	70.6B	Dense	80	32K	32.9 GB	Calc
Qwen 2.5 72B	Qwen	72.7B	Dense	80	128K	33.9 GB	Calc
Command R+ 104B	Cohere	104.0B	Dense	64	125K	48.4 GB	Calc
Llama 4 Scout (MoE) MoE: 16 experts, 2 active. All 109B params loaded into VRAM.	Llama	109.0B17.0B active	MoE	48	256K	50.8 GB	Calc
gpt-oss 120B (MoE) Apache 2.0. MoE: 128 experts, top-4 routing. Single 80GB GPU capable. 128K YaRN context.	OpenAI	117.0B5.1B active	MoE	36	128K	54.5 GB	Calc
Qwen 3.5 122B-A10B (MoE) Apache 2.0. MoE: 256 experts. DeltaNet+MoE hybrid. Server/high-end workstation.	Qwen	122.0B10.0B active	MoE	12	256K	56.8 GB	Calc
Devstral 2 123B Modified MIT. Agentic coding dense model. 256K context. Server class.	Mistral	123.0B	Dense	96	256K	57.3 GB	Calc
DBRX 132B (MoE) Databricks Open Model License. Older but important open MoE.	Databricks	132.0B36.0B active	MoE	40	32K	61.5 GB	Calc
Mixtral 8x22B (MoE) MoE: 8 experts, 2 active. All 141B params loaded.	Mistral	141.0B39.0B active	MoE	56	64K	65.7 GB	Calc
Qwen 3 235B-A22B (MoE) Apache 2.0. MoE flagship. Server class.	Qwen	235.0B22.0B active	MoE	96	128K	109.4 GB	Calc
DeepSeek V4-Flash (MoE) April 2026. 284B total / 13B active. 1M context. Economical V4 variant. High-memory server class.	DeepSeek	284.0B13.0B active	MoE	48	1.0M	132.2 GB	Calc
GLM-4.5 (MoE) MIT license. MoE. 200K context. Server class.	GLM	355.0B32.0B active	MoE	64	200K	165.3 GB	Calc
Qwen 3.5 397B-A17B (MoE) Apache 2.0. MoE flagship: 512 experts. DeltaNet+MoE hybrid. Server class.	Qwen	397.0B17.0B active	MoE	15	256K	184.9 GB	Calc
Llama 4 Maverick (MoE) MoE: 128 experts, 16 active. All ~400B params loaded.	Llama	400.0B40.0B active	MoE	48	256K	186.3 GB	Calc
Llama 3.1 405B Server/cluster class. Full precision impractical for consumer hardware.	Llama	405.0B	Dense	126	128K	188.6 GB	Calc
Qwen 3 Coder 480B-A35B (MoE) Apache 2.0. Agentic coding MoE. Up to 1M extrapolated ctx. Server class.	Qwen	480.0B35.0B active	MoE	96	256K	223.5 GB	Calc
Snowflake Arctic (MoE) Apache 2.0. Enterprise SQL/coding MoE. Server class.	Snowflake	480.0B17.0B active	MoE	64	32K	223.5 GB	Calc
DeepSeek R1 (MoE) MoE: 256 experts, 8 active. MLA compresses KV cache ~95%. All 671B loaded.	DeepSeek	671.0B37.0B active	MoE	61	64K	312.5 GB	Calc
DeepSeek V3 (MoE) Same architecture as R1. Non-reasoning variant.	DeepSeek	671.0B37.0B active	MoE	61	64K	312.5 GB	Calc
Mistral Large 3 (MoE) Apache 2.0. MoE: 128 experts, top-4 routing. Server class.	Mistral	675.0B41.0B active	MoE	88	256K	314.3 GB	Calc
DeepSeek V3 0324 (MoE) March 2024 update. 685B total params. MLA compressed KV cache.	DeepSeek	685.0B37.0B active	MoE	61	64K	319.0 GB	Calc
GLM-5.1 (MoE) MIT license. MoE: DSA attention. FP8 repo ~1.5 TB. Agentic engineering. Server class.	GLM	754.0B32.0B active	MoE	80	128K	351.1 GB	Calc
Kimi K2.6 (MoE) Modified MIT. MoE: 384 experts, 8+1 active. MLA for KV compression. Multimodal (MoonViT 400M). Server class. 1T total params.	Kimi	1.0T32.0B active	MoE	61	256K	465.7 GB	Calc
DeepSeek V4-Pro (MoE) April 2026 preview. 1.6T total / 49B active. 1M context. DSA + token compression. Cluster class.	DeepSeek	1.6T49.0B active	MoE	80	1.0M	745.1 GB	Calc

Qwen 2.5 0.5B

Qwen

Dense

Params

490M

Q4_K_M VRAM

228 MB

Layers

Max Context

32K

Hidden Dim

896

KV Heads

Local LLM Models Directory

About This Data