Gemma 4 es la apuesta de Google a que los agentes abiertos corren localmente: esto es lo que obtienen los devs

Si has estado lanzando agentes sobre una API cerrada y haces una mueca cada vez que el medidor de tokens gira, Gemma 4 es el lanzamiento que debería hacerte detenerte y repensar tu stack.

Google lanzó Gemma 4 el 2 de abril de 2026, con la variante de 12B llegando el 3 de junio. La propuesta es directa: modelos de pesos abiertos diseñados para el razonamiento y los flujos de trabajo agénticos, bajo una licencia Apache 2.0 real, que puedes ejecutar en hardware que ya posees. Sin cláusula de 700 millones de usuarios. Sin un anexo de "uso aceptable" que los abogados tengan que aprobar. Solo pesos que puedes ajustar, distribuir y comercializar.

Esa última parte es el verdadero titular. Déjame explicarte por qué.

Quién debería prestar atención

No todos. Si llamas a un modelo de frontera dos veces al día para un proyecto personal, las cuentas dicen que sigas usando la API y pases a otra cosa. Gemma 4 importa si eres una de estas personas:

Estás construyendo un agente que hace muchas llamadas a herramientas y el costo de inferencia se está comiendo tu margen.
Tienes datos que no pueden salir de tu red: salud, legal, documentos internos.
Quieres inferencia en el dispositivo o en el edge con latencia predecible y sin dependencia de la red.
Te quemaste con un cambio de licencia y quieres pesos que nadie pueda arrebatarte.

Si ese eres tú, este es el lanzamiento abierto más interesante del año hasta ahora.

La gama, en números claros

Gemma 4 se distribuye como una familia, no como un único modelo. Según la tarjeta del modelo de Google y el blog para desarrolladores:

E2B (~2B efectivos) — clase teléfono. Corre en menos de 1.5GB con cuantización de 2 bits/4 bits.
E4B (~4B efectivos) — dispositivos edge, con entrada de audio nativa.
26B MoE — un modelo de mezcla de expertos que activa solo 3.8B de parámetros por paso hacia adelante. Corre en una GPU de consumo.
31B denso — el buque insignia para estaciones de trabajo.

Las ventanas de contexto van de 128K en los modelos edge hasta 256K en los más grandes. Todos procesan imágenes y video de forma nativa; las variantes E2B y E4B añaden entrada de audio para voz. Entrenados en más de 140 idiomas. Hay soporte nativo para instrucciones de sistema y salida JSON estructurada, lo cual —si alguna vez has peleado con un modelo que ignora tu esquema— apreciarás de inmediato.

La historia de la eficiencia es la parte genuinamente impresionante. Ese 26B MoE ocupa el puesto #6 en la tabla de líderes abierta de Arena AI mientras activa menos de 4B de parámetros, y Google afirma que "supera a modelos 20 veces su tamaño". El 31B denso aterriza en el #3 de la tabla de código abierto.

Por qué "construido para agentes" no es marketing aquí

Muchos modelos presumen de capacidades agénticas. Lo que Gemma 4 realmente te da es la aburrida infraestructura que evita que los agentes se desmoronen en producción:

Llamadas a funciones nativas — el modelo emite llamadas a herramientas en un formato estructurado en lugar de que tú tengas que analizar prosa con regex.
Decodificación restringida mediante LiteRT-LM, para que las salidas estructuradas se mantengan válidas en todo momento. Esta es la parte que evita que los scripts de llamadas a herramientas exploten a las 2 de la mañana.
Rol de sistema nativo, para que realmente puedas separar las instrucciones de la entrada del usuario de forma controlable.

El agente de demostración de Google consulta Wikipedia, convierte entradas en tarjetas de estudio o visualizaciones y encadena flujos de trabajo de múltiples pasos, "todo sin ajuste fino especializado". Si eso se sostiene para tu flujo de trabajo es la verdadera prueba, pero los elementos básicos están ahí.

Los números del edge son los que me hicieron prestar atención. En una Raspberry Pi 5 (solo CPU), E2B logra ~133 de prellenado / 7.6 de decodificación de tokens por segundo. En una NPU Qualcomm Dragonwing, eso sube a 3,700 de prellenado / 31 de decodificación. Puedes poner un agente que usa herramientas en una placa de $80. Eso no es una presunción de benchmark, es una categoría de despliegue que antes no existía de forma económica.

Cómo se compara frente a Llama, Qwen y Mistral

Seamos honestos sobre dónde gana Gemma 4 y dónde no.

En benchmarks puros es competitivo, no dominante. El 31B intercambia golpes con Qwen 3.5 27B: Qwen lo aventaja en MMLU Pro (86.1% vs 85.2%) y GPQA Diamond, mientras que Gemma 4 se lleva matemáticas (AIME 2026: 89.2%) y programación (HumanEval ~87%, Codeforces ELO 2150). DeepSeek V4 se sitúa en la cima del montón agéntico abierto. Llama 4 Scout domina el absurdo nicho de contexto ultralargo con 10M de tokens, pero parte de 109B de parámetros, así que es solo para servidores.

Los verdaderos diferenciadores son la licencia y el dimensionamiento:

Licencia: Gemma 4 y Qwen son Apache 2.0 limpia. Llama 4 todavía carga la licencia comunitaria de Meta con su umbral de MAU. Si eres una startup que podría crecer, esa cláusula es una mina terrestre. Apache 2.0 no lo es.
El extremo pequeño y edge: Gemma 4 abarca de 2B a 31B. Llama 4 no llega a tamaños pequeños. Si tu objetivo es una laptop, un teléfono o una Pi, Gemma 4 y Qwen son la conversación; Llama no entra en ella.
Multilingüe / contexto muy largo: Qwen sigue ganando. Cubre más de 200 idiomas y 262K nativos en toda la gama.

Mi lectura: Gemma 4 es la opción por defecto más fuerte para el trabajo agéntico en el dispositivo, especialmente si quieres entrada de audio. Para multilingüe o contexto extremo, mira primero a Qwen.

La trampa que nadie debería saltarse

Aquí está lo que importa más que cualquier benchmark, y viene de alguien que sigue de cerca este espacio. Nathan Lambert, de Interconnects, sostiene que el éxito de Gemma 4 se reduce al tooling, no a las puntuaciones: "una variación del 5 al 10% en los benchmarks no importaría en absoluto". Lo que mata a los modelos abiertos es la fricción.

Y Gemma tiene un historial aquí. Los lanzamientos anteriores de Gemma estuvieron, en sus palabras, "plagados de problemas de tooling y peor rendimiento al ser ajustados". Qwen no ganó por los benchmarks: ganó porque el ecosistema a su alrededor simplemente funcionaba. vLLM, llama.cpp, LoRA, toda la cadena.

Así que la pregunta abierta para Gemma 4 no es "¿es lo bastante inteligente?". Es "¿el ajuste fino se comporta de verdad, y las rutas de exportación a vLLM, Ollama y LiteRT no te dan pelea?". Las primeras señales son buenas —está en Ollama, LM Studio y Hugging Face desde el primer día—, pero si vas a apostar un producto a ello, ajusta una variante pequeña con tus datos reales antes de comprometerte. No te fíes de la palabra de la demo del lanzamiento.

Cómo ponerle las manos encima

El camino más rápido a un bucle de agente local es Ollama:

ollama run gemma4:12b

Para llamadas a herramientas en producción, querrás la ruta de salida estructurada (decodificación restringida mediante LiteRT-LM para edge, o el modo JSON de vLLM en una máquina con GPU). El 31B bf16 sin cuantizar cabe en una sola H100 de 80GB; las versiones cuantizadas entran en tarjetas de consumo.

En resumen

Gemma 4 no destronará a la frontera cerrada en una tabla de líderes, y no necesita hacerlo. El valor está en ser dueño de todo el stack: agentes capaces, llamadas a herramientas nativas, una licencia sin ataduras y pesos que corren desde una Pi hasta una H100. Para muchos equipos que pagan por token para hacer trabajo de agentes de alto volumen, esa combinación cambia silenciosamente las cuentas de construir o comprar.

Pruébalo en una carga de trabajo real esta semana. Si las llamadas a herramientas de tu agente aguantan y el ajuste fino no te da pelea, puede que no necesites esa factura de API en absoluto.

Algunos enlaces pueden generarnos una comisión sin coste adicional para ti.

Waqas Ahmed Waseer

Waqas Ahmed Waseer es desarrollador y creador de automatizaciones con más de 8 años construyendo sistemas en producción que usan más de 100.000 personas. Crea SaaS multiinquilino a medida, automatización con IA (n8n, flujos LLM, bots de WhatsApp) e infraestructura de hosting (WHM/cPanel, CloudLinux), y es el creador de WaSphere, FlowMaticX y la marca de hosting WaseerHost. Más de 100 proyectos entregados para pymes, agencias y startups financiadas.

Perfil Todos los artículos

Gemma 4 es la apuesta de Google a que los agentes abiertos corren localmente: esto es lo que obtienen los devs

Quién debería prestar atención

La gama, en números claros

Por qué "construido para agentes" no es marketing aquí

Cómo se compara frente a Llama, Qwen y Mistral

La trampa que nadie debería saltarse

Cómo ponerle las manos encima

En resumen

Waqas Ahmed Waseer

Más en Dev & Open Source

Cómo usar el modo plan de Claude Code en 2026: una guía práctica

Podman vs Docker 2026: seguridad rootless y costes reales

Comandos slash de Claude Code en 2026: una guía práctica

Debate · 0

Quién debería prestar atención

La gama, en números claros

Por qué "construido para agentes" no es marketing aquí

Cómo se compara frente a Llama, Qwen y Mistral

La trampa que nadie debería saltarse

Cómo ponerle las manos encima

En resumen

Waqas Ahmed Waseer

Más en Dev & Open Source

Cómo usar el modo plan de Claude Code en 2026: una guía práctica

Podman vs Docker 2026: seguridad rootless y costes reales

Comandos slash de Claude Code en 2026: una guía práctica

Debate · 0

El resumen del lunes.