Mejores modelos IA para agentes N8N: comparativa con benchmark real (Abril 2026)

Si construís agentes en N8N (o OpenClaw, Hermes), elegir el modelo correcto importa más que casi cualquier otro factor: una decisión equivocada puede 10× tu factura mensual sin mejorar la calidad visible. Acá: 10 modelos comparados con tests reales de tool calling, JSON workflows y latencia — exactamente lo que un agente N8N necesita.

⚠️ Nota: "agente N8N" no es una sola cosa. Difiere si tu workflow tiene 1 LLM call vs 20 chained, si necesita parsing estructurado vs texto libre, si la latencia importa al usuario o es batch nocturno. Este benchmark fue diseñado para casos reales de emprendedores latinoamericanos — no para impresionar en papers.

Última actualización: 26 abril 2026 · datos abiertos en GitHub

Top 10 modelos para N8N (priorizando tool calling + velocidad)

Score ponderado, con peso extra a tool calling (25%) y velocidad — métricas críticas para agentes.

#ModeloScore$ in/out per MTok/sLicense
1Llama 3.3 70B Groq7.64$0.59 / $0.79270 ⚡Llama 3
2Mistral Small 47.54$0.15 / $0.60~95Apache 2.0
3Hermes 4 70B7.24$0.13 / $0.40~80Llama 3
4Devstral 2 (Dic 2025)7.22$0.40 / $2.00~120Apache 2.0
5GPT-5.4 Mini7.32$0.40 / $1.60117Propietaria
6GPT-OSS 120B Cloud7.41$0 / $0 (sub)~70Apache 2.0
7Devstral Small7.35$0.10 / $0.30146Apache 2.0
8Gemini 2.5 Flash Lite7.22$0.10 / $0.40165Propietaria
9Gemini 3.1 Flash Lite7.50$0.25 / $1.50~140Propietaria
10MiMo V2 Flash7.20$0.09 / $0.29~130MIT

Filtrá por tu volumen y restricciones en la calculadora interactiva.

¿Qué modelo elegir según tu agente N8N?

Si tu agente hace 100-500 calls/día con tool calling crítico

Llama 3.3 70B Groq es la elección dominante. 270 tok/s significa que workflows con 5-10 LLM calls encadenados se sienten instantáneos. El JSON output es robusto — testeado en code_generation/n8n_workflow_json.

Si construís un SaaS con miles de calls/mes

Mistral Small 4 ($0.15/$0.60) o Devstral Small ($0.10/$0.30) son los más eficientes. Para 10,000 calls/mes a 1,800 tokens promedio: Mistral ~$11/mes, Devstral ~$5/mes vs ~$54/mes con Claude Sonnet.

Si tu agente requiere razonamiento (no solo tool calling)

Hermes 4 70B tiene "hybrid reasoning" — combina respuestas rápidas con modo razonamiento profundo cuando lo amerita. GPT-5.4 Mini es backup sólido si Hermes falla en tu caso.

Si querés open-source para correr local + N8N self-hosted

Mistral Small 4 (Apache 2.0, 24B) cabe en hardware modesto y soporta tool calling OpenAI-compatible. Devstral Small es alternativa también Apache 2.0. Para más detalles sobre setup local: modelos open-source local.

Si N8N corre en un servidor con poco budget

NVIDIA NIM ofrece 135+ modelos GRATIS con 40 RPM — más que suficiente para agentes con uso secuencial moderado. Modelos disponibles: Llama 3.3, Mistral Small, Nemotron Ultra.

Caso real: agente de Cristian para ecosistemastartup.com

Cristian Tala (autor del benchmark) usa N8N para automatizar la generación de contenido de su blog ecosistemastartup.com. El agente investiga noticias del ecosistema startup chileno/latinoamericano, sintetiza y genera borradores. Modelo en producción: Qwen 3.5 397B Cloud via Ollama Cloud (incluido en suscripción ~$30/mes, sin costo por call).

Por qué no eligió uno del top 5 del benchmark global: el caso de uso es contenido largo en español sobre actualidad, donde Qwen 3.5 supera en context preservation y tono natural. Lección: el ranking global es referencia, pero validá en tu caso real.

Preguntas frecuentes

¿Cómo configuro un modelo del benchmark en N8N?

N8N tiene nodo "OpenAI Chat Model" — usa cualquier endpoint OpenAI-compatible. Configurá: baseURL: https://openrouter.ai/api/v1 (o Groq, NVIDIA NIM, Ollama Cloud), tu API key y el model del benchmark. Ejemplo: mistralai/mistral-small-3.2-24b-instruct.

¿Qué pasa si el modelo open-source que elijo deja de funcionar?

Modelos open-source en OpenRouter pueden deprecar (ej. DeepSeek R1 free, Llama 3.3 free deprecaron en abril). Estrategia: tener un fallback configurado. N8N permite chains con if/error — primer modelo Mistral Small 4, fallback a Llama 3.3 Groq, fallback final a GPT-4.1.

¿Tool calling funciona igual en todos los modelos del benchmark?

No. Tool calling es OpenAI-compatible en mayoría pero la robustez varía. El benchmark mide esto directamente con peso 25% del score. Modelos del top 10 tienen tool calling testado robusto — los demás bajan automáticamente en el ranking.

¿Cuánto cuesta correr un agente N8N con 1000 calls/día?

Asumiendo 300 input + 1500 output tokens promedio (~30K calls/mes): Llama 3.3 Groq ~$25/mes, Mistral Small 4 ~$32/mes, Devstral Small ~$15/mes, Claude Sonnet 4.5 ~$162/mes. El benchmark es la diferencia entre $15 y $162 por la misma calidad práctica.

¿Debería usar un modelo distinto por nodo en N8N?

Sí, es buena práctica. Routing/clasificación con Gemini Flash Lite (rápido, barato), generación con Llama 3.3 Groq, validación final con GPT-4.1 si es crítico. Stack híbrido suele superar al single-modelo en costo y calidad.

Probá la calculadora con tu agente N8N

Filtrá por tu volumen mensual, latencia tolerada y tipo de tareas. La calculadora estima costo mensual y recomienda el modelo óptimo en 30 segundos.

Ir a la calculadora →

Ver también: alternativas a Claude · alternativas a ChatGPT · alternativas a Gemini · open-source local