Mejores modelos IA para agentes N8N: comparativa con benchmark real (Abril 2026)
Si construís agentes en N8N (o OpenClaw, Hermes), elegir el modelo correcto importa más que casi cualquier otro factor: una decisión equivocada puede 10× tu factura mensual sin mejorar la calidad visible. Acá: 10 modelos comparados con tests reales de tool calling, JSON workflows y latencia — exactamente lo que un agente N8N necesita.
⚠️ Nota: "agente N8N" no es una sola cosa. Difiere si tu workflow tiene 1 LLM call vs 20 chained, si necesita parsing estructurado vs texto libre, si la latencia importa al usuario o es batch nocturno. Este benchmark fue diseñado para casos reales de emprendedores latinoamericanos — no para impresionar en papers.
Top 10 modelos para N8N (priorizando tool calling + velocidad)
| # | Modelo | Score | $ in/out per M | Tok/s | License |
|---|---|---|---|---|---|
| 1 | Llama 3.3 70B Groq | 7.64 | $0.59 / $0.79 | 270 ⚡ | Llama 3 |
| 2 | Mistral Small 4 | 7.54 | $0.15 / $0.60 | ~95 | Apache 2.0 |
| 3 | Hermes 4 70B | 7.24 | $0.13 / $0.40 | ~80 | Llama 3 |
| 4 | Devstral 2 (Dic 2025) | 7.22 | $0.40 / $2.00 | ~120 | Apache 2.0 |
| 5 | GPT-5.4 Mini | 7.32 | $0.40 / $1.60 | 117 | Propietaria |
| 6 | GPT-OSS 120B Cloud | 7.41 | $0 / $0 (sub) | ~70 | Apache 2.0 |
| 7 | Devstral Small | 7.35 | $0.10 / $0.30 | 146 | Apache 2.0 |
| 8 | Gemini 2.5 Flash Lite | 7.22 | $0.10 / $0.40 | 165 | Propietaria |
| 9 | Gemini 3.1 Flash Lite | 7.50 | $0.25 / $1.50 | ~140 | Propietaria |
| 10 | MiMo V2 Flash | 7.20 | $0.09 / $0.29 | ~130 | MIT |
¿Qué modelo elegir según tu agente N8N?
Si tu agente hace 100-500 calls/día con tool calling crítico
Llama 3.3 70B Groq es la elección dominante. 270 tok/s significa que workflows
con 5-10 LLM calls encadenados se sienten instantáneos. El JSON output es robusto — testeado en
code_generation/n8n_workflow_json.
Si construís un SaaS con miles de calls/mes
Mistral Small 4 ($0.15/$0.60) o Devstral Small ($0.10/$0.30) son los más eficientes. Para 10,000 calls/mes a 1,800 tokens promedio: Mistral ~$11/mes, Devstral ~$5/mes vs ~$54/mes con Claude Sonnet.
Si tu agente requiere razonamiento (no solo tool calling)
Hermes 4 70B tiene "hybrid reasoning" — combina respuestas rápidas con modo razonamiento profundo cuando lo amerita. GPT-5.4 Mini es backup sólido si Hermes falla en tu caso.
Si querés open-source para correr local + N8N self-hosted
Mistral Small 4 (Apache 2.0, 24B) cabe en hardware modesto y soporta tool calling OpenAI-compatible. Devstral Small es alternativa también Apache 2.0. Para más detalles sobre setup local: modelos open-source local.
Si N8N corre en un servidor con poco budget
NVIDIA NIM ofrece 135+ modelos GRATIS con 40 RPM — más que suficiente para agentes con uso secuencial moderado. Modelos disponibles: Llama 3.3, Mistral Small, Nemotron Ultra.
Caso real: agente de Cristian para ecosistemastartup.com
Cristian Tala (autor del benchmark) usa N8N para automatizar la generación de contenido de su blog ecosistemastartup.com. El agente investiga noticias del ecosistema startup chileno/latinoamericano, sintetiza y genera borradores. Modelo en producción: Qwen 3.5 397B Cloud via Ollama Cloud (incluido en suscripción ~$30/mes, sin costo por call).
Por qué no eligió uno del top 5 del benchmark global: el caso de uso es contenido largo en español sobre actualidad, donde Qwen 3.5 supera en context preservation y tono natural. Lección: el ranking global es referencia, pero validá en tu caso real.
Preguntas frecuentes
¿Cómo configuro un modelo del benchmark en N8N?
N8N tiene nodo "OpenAI Chat Model" — usa cualquier endpoint OpenAI-compatible. Configurá:
baseURL: https://openrouter.ai/api/v1 (o Groq, NVIDIA NIM, Ollama Cloud), tu API key
y el model del benchmark. Ejemplo: mistralai/mistral-small-3.2-24b-instruct.
¿Qué pasa si el modelo open-source que elijo deja de funcionar?
Modelos open-source en OpenRouter pueden deprecar (ej. DeepSeek R1 free, Llama 3.3 free deprecaron en abril). Estrategia: tener un fallback configurado. N8N permite chains con if/error — primer modelo Mistral Small 4, fallback a Llama 3.3 Groq, fallback final a GPT-4.1.
¿Tool calling funciona igual en todos los modelos del benchmark?
No. Tool calling es OpenAI-compatible en mayoría pero la robustez varía. El benchmark mide esto directamente con peso 25% del score. Modelos del top 10 tienen tool calling testado robusto — los demás bajan automáticamente en el ranking.
¿Cuánto cuesta correr un agente N8N con 1000 calls/día?
Asumiendo 300 input + 1500 output tokens promedio (~30K calls/mes): Llama 3.3 Groq ~$25/mes, Mistral Small 4 ~$32/mes, Devstral Small ~$15/mes, Claude Sonnet 4.5 ~$162/mes. El benchmark es la diferencia entre $15 y $162 por la misma calidad práctica.
¿Debería usar un modelo distinto por nodo en N8N?
Sí, es buena práctica. Routing/clasificación con Gemini Flash Lite (rápido, barato), generación con Llama 3.3 Groq, validación final con GPT-4.1 si es crítico. Stack híbrido suele superar al single-modelo en costo y calidad.
Probá la calculadora con tu agente N8N
Filtrá por tu volumen mensual, latencia tolerada y tipo de tareas. La calculadora estima costo mensual y recomienda el modelo óptimo en 30 segundos.
Ir a la calculadora →