Gemma 4 is Google's gok dat open agents lokaal draaien — dit is wat devs krijgen

Als je agents draait bovenop een gesloten API en je krimpt elke keer ineen als de tokenmeter draait, dan is Gemma 4 de release die je zou moeten doen pauzeren en je stack heroverwegen.

Google bracht Gemma 4 uit op 2 april 2026, met de 12B-variant die op 3 juni volgde. De boodschap is botweg: open-weight modellen gebouwd voor reasoning en agentic workflows, onder een echte Apache 2.0-licentie, die je kunt draaien op hardware die je al bezit. Geen clausule over 700 miljoen gebruikers. Geen "acceptable use"-bijlage die juristen moeten goedkeuren. Gewoon weights die je kunt fine-tunen, uitbrengen en commercialiseren.

Dat laatste is de echte kop. Laat me uitleggen waarom.

Wie zich hier druk om moet maken

Niet iedereen. Als je twee keer per dag een frontier-model aanroept voor een hobbyproject, zegt de rekensom: blijf de API gebruiken en ga door. Gemma 4 doet ertoe als je een van deze mensen bent:

Je bouwt een agent die veel tool calls maakt, en de inferentiekosten vreten je marge op.
Je hebt data die je netwerk niet mag verlaten — gezondheid, juridisch, interne documenten.
Je wilt on-device of edge-inferentie met voorspelbare latency en geen netwerkafhankelijkheid.
Je bent gepakt door een licentiewijziging en wilt weights die niemand onder je vandaan kan trekken.

Als dat jij bent, is dit de meest interessante open release van het jaar tot nu toe.

De line-up, in eenvoudige cijfers

Gemma 4 verschijnt als een familie, niet als één enkel model. Volgens Google's model card en developer blog:

E2B (~2B effectief) — telefoon-klasse. Draait in minder dan 1,5GB met 2-bits/4-bits quantization.
E4B (~4B effectief) — edge-apparaten, met native audio-input.
26B MoE — een mixture-of-experts model dat per forward pass slechts 3,8B parameters activeert. Draait op een consumenten-GPU.
31B dense — het workstation-vlaggenschip.

De context windows lopen van 128K op de edge-modellen tot 256K op de grotere. Ze verwerken allemaal native beelden en video; de E2B- en E4B-varianten voegen audio-input toe voor spraak. Getraind op 140+ talen. Er is native ondersteuning voor system instructions en gestructureerde JSON-output, wat — als je ooit hebt geworsteld met een model dat je schema negeert — je meteen zult waarderen.

Het efficiëntieverhaal is het echt indrukwekkende deel. Die 26B MoE staat op #6 op het open leaderboard van Arena AI terwijl hij minder dan 4B params activeert, en Google claimt dat hij "modellen 20x zo groot overtreft." De 31B dense komt op #3 op het open-source bord.

Waarom "gebouwd voor agents" hier geen marketing is

Genoeg modellen claimen agentic kwaliteiten. Wat Gemma 4 je daadwerkelijk geeft, is de saaie infrastructuur die ervoor zorgt dat agents in productie niet omvallen:

Native function calling — het model genereert tool calls in een gestructureerd formaat, in plaats van dat jij proza met regex moet parsen.
Constrained decoding via LiteRT-LM, zodat gestructureerde outputs elke keer geldig blijven. Dit is het deel dat ervoor zorgt dat tool-calling scripts om 2 uur 's nachts niet ontploffen.
Native system role, zodat je instructies daadwerkelijk op een beheersbare manier kunt scheiden van gebruikersinput.

Google's demo-agent doorzoekt Wikipedia, zet input om in flashcards of visualisaties en koppelt meerstaps-workflows aan elkaar — "allemaal zonder gespecialiseerde fine-tuning." Of dat standhoudt voor jouw workflow is de echte test, maar de bouwstenen zijn er.

De edge-cijfers deden me rechtop zitten. Op een Raspberry Pi 5 (alleen CPU) doet E2B ~133 prefill / 7,6 decode tokens per seconde. Op een Qualcomm Dragonwing NPU springt dat naar 3.700 prefill / 31 decode. Je kunt een tool-gebruikende agent op een bord van $80 zetten. Dat is geen benchmark-vertoon, dat is een deploymentcategorie die voorheen niet goedkoop bestond.

Hoe het zich verhoudt tot Llama, Qwen en Mistral

Laten we eerlijk zijn over waar Gemma 4 wint en waar niet.

Op ruwe benchmarks is het competitief, niet dominant. De 31B wisselt klappen uit met Qwen 3.5 27B: Qwen wint nipt op MMLU Pro (86,1% vs 85,2%) en GPQA Diamond, terwijl Gemma 4 het wint op wiskunde (AIME 2026: 89,2%) en coding (HumanEval ~87%, Codeforces ELO 2150). DeepSeek V4 staat bovenaan de open agentic-hoop. Llama 4 Scout bezit de absurd-lange-context-niche met 10M tokens, maar begint bij 109B params, dus het is server-only.

De echte onderscheidende factoren zijn licentiëring en omvang:

Licentie: Gemma 4 en Qwen zijn schoon Apache 2.0. Llama 4 draagt nog steeds Meta's community license met zijn MAU-drempel. Als je een startup bent die misschien groot wordt, is die clausule een landmijn. Apache 2.0 niet.
Het small-and-edge segment: Gemma 4 strekt zich uit van 2B tot 31B. Llama 4 gaat niet klein. Als je doel een laptop, een telefoon of een Pi is, dan gaat het gesprek over Gemma 4 en Qwen; Llama doet niet mee.
Meertalig / zeer lange context: Qwen wint nog steeds. Het dekt 200+ talen en native 262K over de hele linie.

Mijn lezing: Gemma 4 is de sterkste standaard voor on-device agentic werk, vooral als je audio-input wilt. Voor meertaligheid of extreme context kijk je eerst naar Qwen.

De adder onder het gras die niemand zou moeten overslaan

Hier is het ding dat belangrijker is dan welke benchmark dan ook, en het komt van iemand die dit veld op de voet volgt. Nathan Lambert van Interconnects stelt dat het succes van Gemma 4 neerkomt op tooling, niet op scores: "een verschuiving van 5-10% op benchmarks zou helemaal niet uitmaken." Wat open modellen om zeep helpt, is frictie.

En Gemma heeft hier een verleden. Eerdere Gemma-releases werden, in zijn woorden, "geplaagd door tooling-problemen en slechtere prestaties bij het fine-tunen." Qwen won niet op benchmarks — het won omdat het ecosysteem eromheen gewoon werkte. vLLM, llama.cpp, LoRA, de hele keten.

Dus de open vraag voor Gemma 4 is niet "is het slim genoeg." Het is "gedraagt fine-tuning zich daadwerkelijk, en vechten de export-paden naar vLLM, Ollama en LiteRT je niet tegen." De eerste signalen zijn goed — het staat vanaf dag één op Ollama, LM Studio en Hugging Face — maar als je een product erop bouwt: fine-tune een kleine variant op je echte data voordat je je vastlegt. Vertrouw niet op het woord van de launch-demo.

Aan de slag ermee

De snelste weg naar een lokale agent-loop is Ollama:

ollama run gemma4:12b

Voor tool-calling in productie wil je het pad met gestructureerde output (constrained decoding via LiteRT-LM voor edge, of vLLM's JSON-modus op een GPU-box). De ongekwantiseerde bf16 31B past op één enkele 80GB H100; gekwantiseerde versies passen op consumentenkaarten.

De slotsom

Gemma 4 zal de gesloten frontier niet onttronen op een leaderboard, en dat hoeft ook niet. De waarde zit in het bezitten van de hele stack: capabele agents, native tool calling, een licentie zonder voorwaarden, en weights die draaien van een Pi tot een H100. Voor veel teams die per token betalen om agentwerk met hoog volume te doen, verandert die combinatie stilletjes de build-vs-buy rekensom.

Probeer het deze week op een echte workload. Als de tool calls van je agent standhouden en de fine-tune je niet tegenwerkt, heb je die API-rekening misschien helemaal niet nodig.

Sommige links kunnen ons een commissie opleveren, zonder extra kosten voor jou.

Waqas Ahmed Waseer

Waqas Ahmed Waseer is ontwikkelaar en automation-builder met meer dan 8 jaar ervaring in het bouwen van productiesystemen die door 100.000+ mensen worden gebruikt. Hij bouwt custom multi-tenant SaaS, AI-automatisering (n8n, LLM-workflows, WhatsApp-bots) en hostinginfrastructuur (WHM/cPanel, CloudLinux) — en is de maker van WaSphere, FlowMaticX en het hostingmerk WaseerHost. 100+ projecten opgeleverd voor mkb, bureaus en gefinancierde startups.

Profiel Alle artikelen

Gemma 4 is Google's gok dat open agents lokaal draaien — dit is wat devs krijgen

Wie zich hier druk om moet maken

De line-up, in eenvoudige cijfers

Waarom "gebouwd voor agents" hier geen marketing is

Hoe het zich verhoudt tot Llama, Qwen en Mistral

De adder onder het gras die niemand zou moeten overslaan

Aan de slag ermee

De slotsom

Waqas Ahmed Waseer

Meer in Dev & Open Source

Claude Code plan mode gebruiken in 2026: een praktische gids

Podman vs Docker 2026: rootless-beveiliging en echte kosten

Claude Code slash commands in 2026: een praktische gids

Discussie · 0

Wie zich hier druk om moet maken

De line-up, in eenvoudige cijfers

Waarom "gebouwd voor agents" hier geen marketing is

Hoe het zich verhoudt tot Llama, Qwen en Mistral

De adder onder het gras die niemand zou moeten overslaan

Aan de slag ermee

De slotsom

Waqas Ahmed Waseer

Meer in Dev & Open Source

Claude Code plan mode gebruiken in 2026: een praktische gids

Podman vs Docker 2026: rootless-beveiliging en echte kosten

Claude Code slash commands in 2026: een praktische gids

Discussie · 0

De maandagbriefing.