Modelos IA open-source para correr local: comparativa por hardware (Abril 2026)

Correr modelos local te da: cero costos por call, privacidad total de datos, y latencia sin red. Pero la pregunta correcta no es "qué modelo es el mejor" sino "qué modelo cabe en mi hardware y rinde para mi caso". Esta página cruza el benchmark con requisitos de RAM/VRAM reales para Mac M-series, NVIDIA DGX Spark, GPUs dedicadas y servers.

⚠️ Importante: "open-source" tiene matices. Apache 2.0 (Mistral, Devstral, Qwen base) podés usar comercialmente sin restricción. Llama 3 tiene cláusulas (limitada para 700M+ MAU). GPT-OSS es Apache 2.0 también. Verificá la licencia para tu caso comercial.

Última actualización: 26 abril 2026 · datos abiertos en GitHub

Mejores modelos open-source por hardware

Mac M2/M3/M4 con 16GB RAM

ModeloQuantScoreLicenseNotas
Devstral Small (24B)Q4_K_M (~14GB)7.35Apache 2.0Tight pero corre
Mistral Small 4 (24B)Q4_K_M (~14GB)7.54Apache 2.0Mejor calidad/tamaño
Qwen 3.6 Base (14B)Q4_K_M (~9GB)Apache 2.0Holgado
Phi-4 (14B)Q4_K_M (~9GB)MITExcelente para judge tasks

Mac M-series 32GB RAM

ModeloQuantScoreLicenseNotas
Mistral Small 4 (24B)Q5_K_M (~17GB)7.54Apache 2.0Top calidad/recursos
Devstral 2 (Dic 2025)Q5_K_M (~22GB)7.22Apache 2.0Coding profesional
Qwen 3.6 Base (32B)Q4_K_M (~20GB)Apache 2.0Versatil
Llama 3.3 70BQ3_K_M (~30GB)7.64*Llama 3* Score con Groq, no local

NVIDIA DGX Spark (128GB unified) o servers GPU 80GB+

ModeloQuantScoreLicenseNotas
GPT-OSS 120BQ4_K_M (~70GB)7.41Apache 2.0Top open-source large
Llama 3.3 70BQ5_K_M (~50GB)7.64*Llama 3* Score Groq, local más lento
Qwen 3 80B NextQ4_K_M (~48GB)Apache 2.0Reciente, prometedor
Nemotron Ultra 253BQ4_K_M (~150GB)Open weightsDemasiado grande para Spark

Score = del benchmark cloud. Local con misma quantization da scores similares pero menor velocidad.

¿Qué modelo elegir según tu caso local?

Privacidad de datos crítica (LegalTech, HealthTech)

Mistral Small 4 (Apache 2.0) cubre el 80% de casos sin que ningún byte salga de tu hardware. Para modelos más grandes con alguna privacidad: GPT-OSS 120B en DGX Spark.

Coding offline para tus proyectos

Devstral Small (24B Apache 2.0) en Mac M-series 16GB+. Para proyectos grandes: Devstral 2 (Dic 2025) en 32GB+. Ambos optimizados para código.

Generación de contenido en español sin API costs

Qwen 3.6 Base (Apache 2.0) en Mac M-series. Para mejor calidad y hardware potente: Qwen 3.5 397B Cloud via Ollama Cloud (incluido en suscripción ~$30/mes sin costo per call). Caso real: Cristian usa este último para ecosistemastartup.com.

Agente N8N self-hosted

Mistral Small 4 via Ollama (puerto 11434) — N8N apunta su nodo OpenAI Chat al localhost:11434/v1. Cero latencia de red, cero costo per call. Detalles en modelos para N8N.

LLM-as-Judge / evaluación de outputs

Phi-4 (Microsoft, 14B, MIT) — exactamente lo que usa este benchmark como juez. Cero conflicto de interés (no es de ningún proveedor evaluado), cabe en 9GB y la rúbrica está en español publicada en el repo.

Preguntas frecuentes

¿Cómo instalo Ollama y descargo un modelo?

Mac/Linux: curl -fsSL https://ollama.com/install.sh | sh. Después ollama pull mistral-small:24b-instruct-2503-q5_K_M. Para correr: ollama run mistral-small. API OpenAI-compatible expuesta en http://localhost:11434/v1.

¿Qué pasa con la velocidad local vs API?

Local en Mac M3 Max ~30-50 tok/s, en M4 Max ~50-70 tok/s. Comparado con Groq (270 tok/s) o Gemini Flash (165 tok/s) es mucho más lento. Pero la latencia de primer token (TTFT) local es 0ms vs ~200-500ms del API — para chat conversacional la sensación es similar.

¿Open-source local sirve para producción comercial?

Sí, con Apache 2.0/MIT (Mistral, Devstral, Qwen base, GPT-OSS, Phi-4). Llama 3 tiene cláusula de >700M MAU pero para 99% de startups latinas no es problema. Verificá siempre la licencia del modelo específico antes de comercializar.

¿NVIDIA DGX Spark vale la pena para emprendedores?

Depende del volumen. DGX Spark (~$3,000) cuesta ~$80/mes amortizado a 3 años. Si tu uso de API es >$80/mes Y los datos son sensibles, sí. Si es <$50/mes, OpenRouter sigue ganando. Cristian tiene DGX Spark llegando — esta página se actualizará con benchmarks locales reales.

¿Quantization Q3 vs Q4 vs Q5 — cuánto pierdo?

Q5_K_M: pérdida casi imperceptible (~1-2% en métricas). Q4_K_M: pérdida ~3-5%, balance recomendado. Q3_K_M: pérdida 8-15%, sólo si necesitás meter el modelo en RAM justa. Para casos comerciales, mantenete en Q4 o Q5.

¿Cómo combino modelos local con APIs cuando local no alcanza?

Pattern de "fallback chain": tu app intenta local primero (Ollama), si timeout o error cae a API (OpenRouter, Groq). N8N permite esto con nodos If/Error. Ahorra costos en 80% de casos y mantiene robustez.

Probá la calculadora con tus restricciones reales

Filtrá por "sólo open-source" y por presupuesto $0 (correr local). La calculadora te muestra qué modelos cumplen tus restricciones de hardware y caso de uso.

Ir a la calculadora →

Ver también: alternativas a Claude · alternativas a ChatGPT · alternativas a Gemini · modelos para N8N