DiffusionGemma vs Gemma 4: comparación real con benchmark en español

¿La difusión textual puede competir con los LLM autoregresivos? Medimos DiffusionGemma 26B-A4B contra toda la familia Gemma 4 con 100+ tests reales evaluados por Phi-4 en español: calidad por pilar, velocidad, latencia y casos de uso.

Última actualización: 2026-06-26 · datos abiertos en GitHub · análisis completo en INSIGHTS.md

¿Qué es DiffusionGemma?

DiffusionGemma es un modelo de lenguaje de Google basado en difusión textual. A diferencia de modelos autoregresivos como Gemma 4, GPT o Claude —que generan un token y luego el siguiente— DiffusionGemma empieza con un bloque de 256 tokens ruidosos y los refina en pasos de denoising. Eso le permite generar bloques enteros en paralelo.

La promesa: más velocidad sin sacrificar calidad. La duda: ¿funciona para tareas prácticas en español? Nuestro benchmark responde eso.

Calidad global: empate técnico

Quality global promedio del juez Phi-4. DiffusionGemma Q8_0 vs variantes Gemma 4.

ModeloRunsQuality globalTok/sLatencia media
Gemma 4 31B (Spark Q4_K_M)898.229.3153.4s
DiffusionGemma 26B-A4B (Spark Q8_0)1008.1439.350.1s
Gemma 4 31B (NIM)1847.9322.9
Gemma 4 26B MoE (NIM)1047.8044.3

La diferencia de 0.08 puntos entre DiffusionGemma y Gemma 4 31B local es ruido estadístico. En la práctica, entregan la misma calidad media.

DiffusionGemma gana en agentes, soporte y velocidad

SuiteDiffusionGemmaGemma 4 31B (Spark)Diferencia
customer_support8.767.59+1.17
policy_adherence8.417.51+0.89
agent_capabilities8.968.22+0.75
sales_outreach9.178.76+0.41
summarization7.927.50+0.42
task_management9.338.96+0.37
tool_calling7.317.03+0.28
multi_turn8.458.02+0.43

DiffusionGemma destaca en todo lo conversacional y operativo. La generación por bloques de 256 tokens le da fluidez a nivel de párrafo, lo que mejora soporte, resúmenes, orquestación y multi-turno.

Gemma 4 sigue ganando en coding, razonamiento y precisión

SuiteDiffusionGemmaGemma 4 31B (Spark)Diferencia
string_precision4.347.65-3.31
deep_reasoning8.018.64-0.63
strategy8.909.38-0.48
presentation8.398.81-0.42
reasoning9.039.44-0.41
content_generation8.759.14-0.39
creativity8.358.74-0.39
code_generation8.788.95-0.17

La generación autoregresiva de Gemma 4 sigue siendo superior cuando la tarea exige precisión carácter a carácter (API keys, JWTs, configs), razonamiento multi-paso o código estructurado.

Velocidad: el factor disruptivo

En el mismo hardware (DGX Spark), DiffusionGemma genera 39.3 tok/s frente a 9.3 tok/s de Gemma 4 31B local. Eso significa que una respuesta de 1,500 tokens pasa de ~2.5 minutos a ~40 segundos.

Incluso contra la versión NIM de Gemma 4 (22.9 tok/s), DiffusionGemma local es 1.7× más rápido y no paga costo por token.

¿Por qué la difusión es mejor en agentes y peor en strings exactos?

Recomendaciones por caso de uso

Caso de usoGanadorPor qué
Chatbot de soporte al clienteDiffusionGemmaMejor en customer_support, policy_adherence y multi_turn; 3× más rápido; sin costo por token.
Agentes N8N / orquestaciónDiffusionGemmaMejor en agent_capabilities, task_management y tool_calling.
Generación de contenido de blogGemma 4 31BGana en content_generation y creativity.
Coding / scripts / refactorGemma 4 31BGana en code_generation y, sobre todo, string_precision.
Razonamiento estratégico / análisisGemma 4 31BMejor en reasoning, deep_reasoning y strategy.
Copiar credenciales, JWTs, configs exactosGemma 4 31Bstring_precision 7.65 vs 4.34.
Chat interactivo con latencia críticaDiffusionGemma39 tok/s y menor latencia total.

Veredicto final

DiffusionGemma no es un Gemma 4 más rápido; es un modelo con un perfil diferente.

Si tu caso es conversación, soporte o agentes operativos en español, la difusión ya es competitiva y más barata. Si tu caso es código, credenciales o razonamiento profundo, los autoregresivos siguen siendo mejores.

Para un emprendedor latinoamericano con privacidad de datos o presupuesto ajustado, DiffusionGemma democratiza una calidad #25 mundial sin costo por token.

Metodología

Este benchmark mide capacidades aplicadas en español neutro latinoamericano, no reemplaza benchmarks académicos como MMLU o HumanEval. Cada modelo corre tests reales evaluados por un LLM-as-Judge local (Phi-4) en 4 pilares: coding, contenido, razonamiento y agentes.

DiffusionGemma se ejecutó con llama-diffusion-cli del PR #24423 de llama.cpp, quantización Q8_0, en un DGX Spark. Gemma 4 31B local usó la misma infraestructura con Q4_K_M. Ver TESTS.md para la metodología completa.

Explorá más comparativas