Modelos IA open-source para correr local: comparativa por hardware (Abril 2026)
Correr modelos local te da: cero costos por call, privacidad total de datos, y latencia sin red. Pero la pregunta correcta no es "qué modelo es el mejor" sino "qué modelo cabe en mi hardware y rinde para mi caso". Esta página cruza el benchmark con requisitos de RAM/VRAM reales para Mac M-series, NVIDIA DGX Spark, GPUs dedicadas y servers.
⚠️ Importante: "open-source" tiene matices. Apache 2.0 (Mistral, Devstral, Qwen base) podés usar comercialmente sin restricción. Llama 3 tiene cláusulas (limitada para 700M+ MAU). GPT-OSS es Apache 2.0 también. Verificá la licencia para tu caso comercial.
Mejores modelos open-source por hardware
Mac M2/M3/M4 con 16GB RAM
| Modelo | Quant | Score | License | Notas |
|---|---|---|---|---|
| Devstral Small (24B) | Q4_K_M (~14GB) | 7.35 | Apache 2.0 | Tight pero corre |
| Mistral Small 4 (24B) | Q4_K_M (~14GB) | 7.54 | Apache 2.0 | Mejor calidad/tamaño |
| Qwen 3.6 Base (14B) | Q4_K_M (~9GB) | — | Apache 2.0 | Holgado |
| Phi-4 (14B) | Q4_K_M (~9GB) | — | MIT | Excelente para judge tasks |
Mac M-series 32GB RAM
| Modelo | Quant | Score | License | Notas |
|---|---|---|---|---|
| Mistral Small 4 (24B) | Q5_K_M (~17GB) | 7.54 | Apache 2.0 | Top calidad/recursos |
| Devstral 2 (Dic 2025) | Q5_K_M (~22GB) | 7.22 | Apache 2.0 | Coding profesional |
| Qwen 3.6 Base (32B) | Q4_K_M (~20GB) | — | Apache 2.0 | Versatil |
| Llama 3.3 70B | Q3_K_M (~30GB) | 7.64* | Llama 3 | * Score con Groq, no local |
NVIDIA DGX Spark (128GB unified) o servers GPU 80GB+
| Modelo | Quant | Score | License | Notas |
|---|---|---|---|---|
| GPT-OSS 120B | Q4_K_M (~70GB) | 7.41 | Apache 2.0 | Top open-source large |
| Llama 3.3 70B | Q5_K_M (~50GB) | 7.64* | Llama 3 | * Score Groq, local más lento |
| Qwen 3 80B Next | Q4_K_M (~48GB) | — | Apache 2.0 | Reciente, prometedor |
| Nemotron Ultra 253B | Q4_K_M (~150GB) | — | Open weights | Demasiado grande para Spark |
¿Qué modelo elegir según tu caso local?
Privacidad de datos crítica (LegalTech, HealthTech)
Mistral Small 4 (Apache 2.0) cubre el 80% de casos sin que ningún byte salga de tu hardware. Para modelos más grandes con alguna privacidad: GPT-OSS 120B en DGX Spark.
Coding offline para tus proyectos
Devstral Small (24B Apache 2.0) en Mac M-series 16GB+. Para proyectos grandes: Devstral 2 (Dic 2025) en 32GB+. Ambos optimizados para código.
Generación de contenido en español sin API costs
Qwen 3.6 Base (Apache 2.0) en Mac M-series. Para mejor calidad y hardware potente: Qwen 3.5 397B Cloud via Ollama Cloud (incluido en suscripción ~$30/mes sin costo per call). Caso real: Cristian usa este último para ecosistemastartup.com.
Agente N8N self-hosted
Mistral Small 4 via Ollama (puerto 11434) — N8N apunta su nodo OpenAI Chat al
localhost:11434/v1. Cero latencia de red, cero costo per call. Detalles en
modelos para N8N.
LLM-as-Judge / evaluación de outputs
Phi-4 (Microsoft, 14B, MIT) — exactamente lo que usa este benchmark como juez. Cero conflicto de interés (no es de ningún proveedor evaluado), cabe en 9GB y la rúbrica está en español publicada en el repo.
Preguntas frecuentes
¿Cómo instalo Ollama y descargo un modelo?
Mac/Linux: curl -fsSL https://ollama.com/install.sh | sh. Después
ollama pull mistral-small:24b-instruct-2503-q5_K_M. Para correr:
ollama run mistral-small. API OpenAI-compatible expuesta en
http://localhost:11434/v1.
¿Qué pasa con la velocidad local vs API?
Local en Mac M3 Max ~30-50 tok/s, en M4 Max ~50-70 tok/s. Comparado con Groq (270 tok/s) o Gemini Flash (165 tok/s) es mucho más lento. Pero la latencia de primer token (TTFT) local es 0ms vs ~200-500ms del API — para chat conversacional la sensación es similar.
¿Open-source local sirve para producción comercial?
Sí, con Apache 2.0/MIT (Mistral, Devstral, Qwen base, GPT-OSS, Phi-4). Llama 3 tiene cláusula de >700M MAU pero para 99% de startups latinas no es problema. Verificá siempre la licencia del modelo específico antes de comercializar.
¿NVIDIA DGX Spark vale la pena para emprendedores?
Depende del volumen. DGX Spark (~$3,000) cuesta ~$80/mes amortizado a 3 años. Si tu uso de API es >$80/mes Y los datos son sensibles, sí. Si es <$50/mes, OpenRouter sigue ganando. Cristian tiene DGX Spark llegando — esta página se actualizará con benchmarks locales reales.
¿Quantization Q3 vs Q4 vs Q5 — cuánto pierdo?
Q5_K_M: pérdida casi imperceptible (~1-2% en métricas). Q4_K_M: pérdida ~3-5%, balance recomendado. Q3_K_M: pérdida 8-15%, sólo si necesitás meter el modelo en RAM justa. Para casos comerciales, mantenete en Q4 o Q5.
¿Cómo combino modelos local con APIs cuando local no alcanza?
Pattern de "fallback chain": tu app intenta local primero (Ollama), si timeout o error cae a API (OpenRouter, Groq). N8N permite esto con nodos If/Error. Ahorra costos en 80% de casos y mantiene robustez.
Probá la calculadora con tus restricciones reales
Filtrá por "sólo open-source" y por presupuesto $0 (correr local). La calculadora te muestra qué modelos cumplen tus restricciones de hardware y caso de uso.
Ir a la calculadora →