Encuentra el modelo IA perfecto en 30 segundos

Calculadora basada en 6.500+ tests reales contra 60+ modelos. Filtra por presupuesto, calidad, velocidad, open-source, contexto largo y seguridad. Datos del benchmark v2.8 (junio 2026).

⚠️ No existe un "mejor modelo" universal. "Coding" significa cosas distintas si hacés plugins WordPress, templates N8N, scripts o proyectos grandes. Lo mismo con contenido, marketing y soporte. Este benchmark nació porque, como emprendedor, no encontré tests reales para mis casos. Ahora existen — usá la calculadora con tu caso específico.

📍 Qué es este benchmark (y qué NO es): NO sustituye a los benchmarks académicos validados (HumanEval, MMLU, GSM8K, SWE-bench Verified, NIAH original inglés, MT-Bench, LMSYS Arena). Es un complemento diseñado para emprendedores hispanohablantes que deciden qué modelo usar en producción real (N8N, OpenClaw, Hermes, blogs LATAM, soporte cliente, agentes). Para investigación académica → benchmarks oficiales. Para decidir producción aplicada en español → este suma datos no cubiertos por los oficiales: costo en provider real, latencia desde LATAM, español neutro, agentes multi-turno. Cross-references documentadas en BENCHMARKS_EXTERNOS.md.

Última actualización del dataset: abril 2026 · ver repo

Tus criterios

Presets rápidos por perfil:

USD/mes para API (sin contar suscripciones fijas). 200 pasos de $25.
~300 input + 1500 output tokens por call
Score ponderado del benchmark (Phi-4 judge)
0 = sin restricción
Pesos del score global Quality 60 · Costo 20 · Velocidad 10 · Latencia 10 (clic para ajustar)

Pesos del score compuesto — cada dimensión se estandariza antes de ponderar (z-score v2.9), así que el peso refleja influencia real. Con la escala lineal anterior, "costo" dominaba por su mayor varianza aunque tuviera menos peso. Los pesos se normalizan automáticamente a 100%. Solo aplican al score Global; los pilares (Razonamiento, Coding, Contenido, Agentes) no cambian.

Score automático + LLM-as-Judge Phi-4. Principal señal de calidad real de las respuestas.
Inverso al precio por token. Subir si el presupuesto es tu restricción principal.
Tokens/segundo. Importante para agentes en tiempo real o workflows multi-step.
Tiempo hasta primer token. Relevante para chat conversacional en vivo.

Tool calling se sigue mostrando como columna informativa en la tabla pero ya no pondera el score global (v2.9: peso = 0). Filtrá por "Sólo con tool calling" si es requisito duro, o usá el pilar "Agentes" para ordenar por esa dimensión.

4 pilares + 23 sub-categorías para precisar tu uso real
Filtra por contexto usable real (retrieval ≥7 en NIAH-es en español), no el declarado por el proveedor. Ej. MiniMax M3 declara 1M pero su ctx efectivo es 512K. Modelos sin medir no aparecen si elegís un umbral.
💡 ¿Qué tipo de modelo necesitas? Guía rápida
🔧

Tool calling

Agentes N8N/OpenClaw, Perplexity como tool, APIs externas, function calling estructurado.
NO Solo chat o generación de texto sin acceso a herramientas externas.

Casi todos los modelos modernos lo soportan. La calidad varía: el score "Agentes" del benchmark mide esto directamente.

🧠

Thinking models

Razonamiento profundo: matemática, lógica multi-step, debugging complejo, planificación estratégica.
NO Contenido, traducciones, resúmenes, soporte al cliente — agrega latencia y costo sin beneficio.

Consumen ~4× tokens (razonamiento interno facturado como output). Más lentos pero más precisos en lógica.

🎨

Multimodal

Imágenes, PDFs, screenshots, audio. OCR, descripción de imágenes, análisis de UI/diseños.
NO Input solo texto. Multimodales grandes no son mejores en texto puro y suelen costar más.

Limitación benchmark v2.3: testea text-only. Multimodal real está en roadmap v2.4.

📜

Open-source vs propietario

OS Privacidad de datos, reproducibilidad, evitar lock-in, controlar costos a largo plazo.
PROP Flagship absoluto con volumen bajo (Claude Opus, GPT-5) — el premium puede valer.

Apache 2.0 / MIT permiten uso comercial sin restricción. Llama 3 tiene cláusula de >700M MAU (irrelevante para 99% startups).

Velocidad alta (>200 tok/s)

Agentes multi-step, chat conversacional en vivo, workflows con 5+ LLM calls encadenadas.
NO Tareas batch o asíncronas (newsletter diario, análisis nocturno) — la latencia no importa.

Groq es el rey de velocidad (270+ tok/s). Trade-off: catálogo limitado vs OpenRouter.

💰

Cobertura completa

≥50 Score estadísticamente robusto. Default de la calculadora.
<50 Smoke tests con variación alta. Activar el checkbox para verlos.

El benchmark corre 91 tests por modelo. Modelos en cola sumarán cobertura en próximos lotes.

Ir a resultados ↓

Mejores modelos para ti

Cargando datos del benchmark…

¿Querés ir más a fondo?

En la comunidad Cágala, Aprende, Repite compartimos workshops, casos reales y el behind-the-scenes de cómo emprendedores latinoamericanos están usando IA para crecer sin financiamiento.

Unirme a la comunidad →

También: newsletter · YouTube · LinkedIn

¿Cómo funciona el ranking?

Cada modelo corre 91 tests organizados en 23 suites (4 pilares: Razonamiento, Coding, Contenido, Agentes). Cada test se evalúa en 3 capas: scoring automático (formato + sustancia), validación de respuesta esperada, y LLM-as-Judge con Phi-4 local (Microsoft, MIT, cero conflicto de interés). El score global (v2.9) usa z-score: cada dimensión (calidad, costo, velocidad, latencia) se estandariza antes de ponderar, así que los pesos reflejan influencia real en lugar de varianza bruta. Pesos default: calidad 60%, costo 20%, velocidad 10%, latencia 10%. Tool calling ya no entra al score compuesto (permanece como columna informativa). Los pesos son ajustables en el panel "Pesos del score global" de los filtros.

Los datos del benchmark se versionan en JSON en el repo y se regeneran tras cada lote. Esta calculadora lee directamente docs/data/models.json que se commitea con cada release.

Ver metodología completa →

Preguntas frecuentes

¿Cuál es la mejor alternativa a Claude para agentes N8N?

Según el benchmark v2.3, las mejores alternativas a Claude por relación calidad/precio para agentes N8N y OpenClaw son Devstral Small (Apache 2.0, $0.10/$0.30 per M tokens), Mistral Small 4 ($0.15/$0.60) y Llama 3.3 70B en Groq (270 tok/s, $0.59/$0.79). El ranking cambia según la tarea (razonamiento, coding, contenido o agentes) — usa la calculadora arriba para filtrar por tu caso específico.

¿Vale la pena pagar GPT-5 o Claude Opus si hay alternativas más baratas?

Depende del caso. Para tareas estándar (contenido, traducción, agentes simples), modelos como Devstral Small o Mistral Small 4 dan resultados comparables a GPT-4.1 a 1/20 del costo. Para razonamiento profundo, código complejo o tool calling crítico, los premium (GPT-5.5, Claude Opus 4.7) siguen siendo superiores. El benchmark muestra el delta real por tarea.

¿Qué modelos open-source recomiendan para correr local en una DGX Spark?

Con 128GB de RAM unified, podés correr cómodamente modelos de hasta ~120B parámetros cuantizados. Las mejores opciones probadas: Devstral Small (24B, Apache 2.0), Qwen 3.6 base (Apache 2.0), Mistral Small 4 (24B, Apache 2.0) y GPT-OSS 120B (Apache 2.0). Para coding específicamente, Devstral 2 (Diciembre 2025) es la opción top.

¿Por qué usan Phi-4 como LLM-as-Judge y no GPT-4 o Claude?

Phi-4 (Microsoft, 14B parámetros, licencia MIT) corre 100% local vía Ollama, eliminando costos de API y, más importante, conflictos de interés: ningún proveedor del benchmark es también el juez. Sus evaluaciones correlacionan bien con jueces más grandes pero sin sesgo comercial. La rúbrica está en español y publicada en el repo.

¿Cómo se calcula el costo mensual estimado en la calculadora?

Usamos un perfil promedio de 300 tokens input + 1,500 tokens output por call (típico de un agente N8N o asistente de contenido). Multiplicamos por las calls/mes y aplicamos los precios oficiales de cada proveedor (OpenRouter, OpenAI directo, Groq, Ollama Cloud). Los precios se actualizan manualmente con cada lote del benchmark.

¿El benchmark incluye tests de contexto largo y seguridad?

Sí, desde v2.8. El benchmark incluye NIAH-es (Needle-in-a-Haystack en español) que mide retrieval real a 8K, 64K, 128K, 256K, 512K y 800K tokens. El campo "Ctx" en la tabla muestra el contexto usable real: la ventana máxima donde el modelo mantiene retrieval ≥7, que puede ser menor al contexto declarado por el proveedor. Por ejemplo, MiniMax M3 declara 1M tokens pero su contexto efectivo medido es 512K.

La columna "Seg" mide resistencia a fuga de credenciales (suite prompt_injection_es): se planta un secreto en el documento y se evalúa si el modelo lo filtra. "Seguro" (≥7) significa que rechaza correctamente — importante para agentes que procesan documentos de terceros. Multimodal real (imágenes, audio) está en roadmap v2.9.

¿Puedo usar este benchmark para decidir qué modelo poner en producción?

Sí — para eso fue diseñado. Pero recomendamos validar en tu caso específico antes del switch: replicar 5-10 prompts típicos de tu producto contra los 2-3 modelos finalistas del ranking. El benchmark es buen filtro inicial pero ningún benchmark sustituye prompts reales de tu negocio. Para ayudarte con esa validación, en la comunidad Skool publicamos plantillas y workshops.