DiffusionGemma vs Gemma 4: comparación real con benchmark en español
¿La difusión textual puede competir con los LLM autoregresivos? Medimos DiffusionGemma 26B-A4B contra toda la familia Gemma 4 con 100+ tests reales evaluados por Phi-4 en español: calidad por pilar, velocidad, latencia y casos de uso.
¿Qué es DiffusionGemma?
DiffusionGemma es un modelo de lenguaje de Google basado en difusión textual. A diferencia de modelos autoregresivos como Gemma 4, GPT o Claude —que generan un token y luego el siguiente— DiffusionGemma empieza con un bloque de 256 tokens ruidosos y los refina en pasos de denoising. Eso le permite generar bloques enteros en paralelo.
La promesa: más velocidad sin sacrificar calidad. La duda: ¿funciona para tareas prácticas en español? Nuestro benchmark responde eso.
Calidad global: empate técnico
| Modelo | Runs | Quality global | Tok/s | Latencia media |
|---|---|---|---|---|
| Gemma 4 31B (Spark Q4_K_M) | 89 | 8.22 | 9.3 | 153.4s |
| DiffusionGemma 26B-A4B (Spark Q8_0) | 100 | 8.14 | 39.3 | 50.1s |
| Gemma 4 31B (NIM) | 184 | 7.93 | 22.9 | — |
| Gemma 4 26B MoE (NIM) | 104 | 7.80 | 44.3 | — |
DiffusionGemma gana en agentes, soporte y velocidad
| Suite | DiffusionGemma | Gemma 4 31B (Spark) | Diferencia |
|---|---|---|---|
| customer_support | 8.76 | 7.59 | +1.17 |
| policy_adherence | 8.41 | 7.51 | +0.89 |
| agent_capabilities | 8.96 | 8.22 | +0.75 |
| sales_outreach | 9.17 | 8.76 | +0.41 |
| summarization | 7.92 | 7.50 | +0.42 |
| task_management | 9.33 | 8.96 | +0.37 |
| tool_calling | 7.31 | 7.03 | +0.28 |
| multi_turn | 8.45 | 8.02 | +0.43 |
DiffusionGemma destaca en todo lo conversacional y operativo. La generación por bloques de 256 tokens le da fluidez a nivel de párrafo, lo que mejora soporte, resúmenes, orquestación y multi-turno.
Gemma 4 sigue ganando en coding, razonamiento y precisión
| Suite | DiffusionGemma | Gemma 4 31B (Spark) | Diferencia |
|---|---|---|---|
| string_precision | 4.34 | 7.65 | -3.31 |
| deep_reasoning | 8.01 | 8.64 | -0.63 |
| strategy | 8.90 | 9.38 | -0.48 |
| presentation | 8.39 | 8.81 | -0.42 |
| reasoning | 9.03 | 9.44 | -0.41 |
| content_generation | 8.75 | 9.14 | -0.39 |
| creativity | 8.35 | 8.74 | -0.39 |
| code_generation | 8.78 | 8.95 | -0.17 |
La generación autoregresiva de Gemma 4 sigue siendo superior cuando la tarea exige precisión carácter a carácter (API keys, JWTs, configs), razonamiento multi-paso o código estructurado.
Velocidad: el factor disruptivo
En el mismo hardware (DGX Spark), DiffusionGemma genera 39.3 tok/s frente a 9.3 tok/s de Gemma 4 31B local. Eso significa que una respuesta de 1,500 tokens pasa de ~2.5 minutos a ~40 segundos.
Incluso contra la versión NIM de Gemma 4 (22.9 tok/s), DiffusionGemma local es 1.7× más rápido y no paga costo por token.
¿Por qué la difusión es mejor en agentes y peor en strings exactos?
- Bloques de 256 tokens en paralelo favorecen la fluidez conversacional, el seguimiento de instrucciones y la coherencia a escala de párrafo. De ahí los buenos resultados en soporte, orquestación y resúmenes.
- La misma paralelización penaliza la precisión carácter a carácter. Cuando el prompt pide copiar exactamente un JWT de 64 caracteres, el modelo pierde control fino. De ahí el
string_precision4.34 vs 7.65. - Razonamiento profundo multi-paso sigue siendo territorio de los autoregresivos, que generan secuencialmente y refuerzan la coherencia lógica paso a paso.
Recomendaciones por caso de uso
| Caso de uso | Ganador | Por qué |
|---|---|---|
| Chatbot de soporte al cliente | DiffusionGemma | Mejor en customer_support, policy_adherence y multi_turn; 3× más rápido; sin costo por token. |
| Agentes N8N / orquestación | DiffusionGemma | Mejor en agent_capabilities, task_management y tool_calling. |
| Generación de contenido de blog | Gemma 4 31B | Gana en content_generation y creativity. |
| Coding / scripts / refactor | Gemma 4 31B | Gana en code_generation y, sobre todo, string_precision. |
| Razonamiento estratégico / análisis | Gemma 4 31B | Mejor en reasoning, deep_reasoning y strategy. |
| Copiar credenciales, JWTs, configs exactos | Gemma 4 31B | string_precision 7.65 vs 4.34. |
| Chat interactivo con latencia crítica | DiffusionGemma | 39 tok/s y menor latencia total. |
Veredicto final
DiffusionGemma no es un Gemma 4 más rápido; es un modelo con un perfil diferente.
Si tu caso es conversación, soporte o agentes operativos en español, la difusión ya es competitiva y más barata. Si tu caso es código, credenciales o razonamiento profundo, los autoregresivos siguen siendo mejores.
Para un emprendedor latinoamericano con privacidad de datos o presupuesto ajustado, DiffusionGemma democratiza una calidad #25 mundial sin costo por token.
Metodología
Este benchmark mide capacidades aplicadas en español neutro latinoamericano, no reemplaza benchmarks académicos como MMLU o HumanEval. Cada modelo corre tests reales evaluados por un LLM-as-Judge local (Phi-4) en 4 pilares: coding, contenido, razonamiento y agentes.
DiffusionGemma se ejecutó con llama-diffusion-cli del PR #24423 de llama.cpp, quantización Q8_0, en un DGX Spark. Gemma 4 31B local usó la misma infraestructura con Q4_K_M. Ver TESTS.md para la metodología completa.