Gemma 4: Googles Wette, dass offene Agenten lokal laufen – das bekommen Entwickler

Wenn du deine Agenten bisher auf einer geschlossenen API betreibst und jedes Mal zusammenzuckst, wenn der Token-Zähler weiterrattert, dann ist Gemma 4 das Release, bei dem du innehalten und deinen Stack überdenken solltest.

Google hat Gemma 4 am 2. April 2026 veröffentlicht, die 12B-Variante folgte am 3. Juni. Die Botschaft ist unmissverständlich: Open-Weight-Modelle, gebaut für Reasoning und agentische Workflows, unter einer echten Apache-2.0-Lizenz, die du auf Hardware betreiben kannst, die du längst besitzt. Keine 700-Millionen-Nutzer-Klausel. Kein "Acceptable Use"-Zusatz, den erst Anwälte absegnen müssen. Einfach Gewichte, die du feintunen, ausliefern und kommerziell nutzen kannst.

Genau dieser letzte Punkt ist die eigentliche Schlagzeile. Ich erkläre dir, warum.

Für wen das relevant ist

Nicht für jeden. Wenn du für ein Nebenprojekt zweimal am Tag ein Frontier-Modell aufrufst, sagt die Rechnung: Bleib bei der API und gut ist. Gemma 4 wird interessant, wenn du zu einer dieser Gruppen gehörst:

Du baust einen Agenten, der viele Tool-Aufrufe macht, und die Inferenzkosten fressen deine Marge auf.
Du hast Daten, die dein Netzwerk nicht verlassen dürfen – Gesundheits-, Rechts- oder interne Dokumente.
Du willst On-Device- oder Edge-Inferenz mit vorhersehbarer Latenz und ohne Abhängigkeit vom Netz.
Dich hat schon mal eine Lizenzänderung kalt erwischt, und du willst Gewichte, die dir niemand unter den Füßen wegziehen kann.

Wenn das auf dich zutrifft, ist das bisher das spannendste Open-Release des Jahres.

Die Modellpalette, in nüchternen Zahlen

Gemma 4 kommt als ganze Familie, nicht als Einzelmodell. Laut Googles Model Card und Entwickler-Blog:

E2B (~2B effektiv) – Smartphone-Klasse. Läuft mit 2-Bit-/4-Bit-Quantisierung in unter 1,5 GB.
E4B (~4B effektiv) – Edge-Geräte, mit nativer Audio-Eingabe.
26B MoE – ein Mixture-of-Experts-Modell, das pro Forward-Pass nur 3,8 Mrd. Parameter aktiviert. Läuft auf einer Consumer-GPU.
31B dense – das Workstation-Flaggschiff.

Die Kontextfenster reichen von 128K bei den Edge-Modellen bis zu 256K bei den größeren. Alle verarbeiten von Haus aus Bilder und Video; die Varianten E2B und E4B kommen zusätzlich mit Audio-Eingabe für Sprache. Trainiert wurde auf über 140 Sprachen. Es gibt nativen Support für System-Anweisungen und strukturierte JSON-Ausgabe – und wenn du dich je mit einem Modell herumgeschlagen hast, das dein Schema ignoriert, weißt du das sofort zu schätzen.

Die Effizienz ist der wirklich beeindruckende Teil. Das 26B MoE landet auf Platz 6 im Open-Leaderboard von Arena AI, während es unter 4B Parameter aktiviert, und Google behauptet, es "schlägt Modelle, die 20-mal so groß sind". Das 31B dense erreicht Platz 3 im Open-Source-Ranking.

Warum "für Agenten gebaut" hier kein Marketing ist

Genug Modelle behaupten von sich, agentisch zu sein. Was Gemma 4 dir tatsächlich liefert, ist die unspektakuläre Infrastruktur, die dafür sorgt, dass Agenten im Produktivbetrieb nicht umkippen:

Natives Function Calling – das Modell gibt Tool-Aufrufe in einem strukturierten Format aus, statt dass du Prosa mit Regex auseinandernehmen musst.
Constrained Decoding über LiteRT-LM, damit strukturierte Ausgaben jedes Mal gültig bleiben. Genau dieser Teil sorgt dafür, dass dir Tool-Calling-Skripte nicht um 2 Uhr nachts um die Ohren fliegen.
Native System-Rolle, damit du Anweisungen und Nutzereingaben wirklich kontrolliert voneinander trennen kannst.

Googles Demo-Agent fragt Wikipedia ab, verwandelt Eingaben in Karteikarten oder Visualisierungen und verkettet mehrstufige Workflows – "alles ohne spezielles Fine-Tuning". Ob das auch für deinen Workflow hält, ist die eigentliche Probe, aber die Grundbausteine sind da.

Die Edge-Zahlen haben mich aufhorchen lassen. Auf einem Raspberry Pi 5 (nur CPU) schafft E2B rund 133 Prefill / 7,6 Decode Tokens pro Sekunde. Auf einer Qualcomm Dragonwing NPU springt das auf 3.700 Prefill / 31 Decode. Du kannst einen Tool-nutzenden Agenten auf ein 80-Dollar-Board packen. Das ist kein Benchmark-Angeberei, das ist eine Deployment-Kategorie, die es vorher nicht günstig gab.

Wie es sich gegen Llama, Qwen und Mistral schlägt

Seien wir ehrlich, wo Gemma 4 gewinnt und wo nicht.

Bei den reinen Benchmarks ist es konkurrenzfähig, aber nicht dominant. Das 31B liefert sich ein Kopf-an-Kopf-Rennen mit Qwen 3.5 27B: Qwen liegt bei MMLU Pro (86,1 % vs. 85,2 %) und GPQA Diamond knapp vorn, während Gemma 4 bei Mathe (AIME 2026: 89,2 %) und Coding (HumanEval ~87 %, Codeforces ELO 2150) die Nase vorn hat. DeepSeek V4 thront an der Spitze des offenen agentischen Felds. Llama 4 Scout beherrscht die absurd lange Kontextnische mit 10M Tokens, startet aber bei 109B Parametern – also nur etwas für den Server.

Die echten Unterscheidungsmerkmale sind Lizenzierung und Modellgrößen:

Lizenz: Gemma 4 und Qwen sind sauber unter Apache 2.0. Llama 4 trägt weiterhin Metas Community-Lizenz mit ihrer MAU-Schwelle. Wenn du ein Start-up bist, das vielleicht groß wird, ist diese Klausel eine Tretmine. Apache 2.0 nicht.
Das kleine Edge-Ende: Gemma 4 reicht von 2B bis 31B. Llama 4 geht nicht klein. Wenn dein Ziel ein Laptop, ein Smartphone oder ein Pi ist, dann sind Gemma 4 und Qwen das Thema; Llama spielt dabei keine Rolle.
Mehrsprachigkeit / sehr langer Kontext: Hier gewinnt nach wie vor Qwen. Es deckt über 200 Sprachen ab und bietet durchgängig native 262K.

Mein Fazit: Gemma 4 ist die stärkste Standardwahl für On-Device-Agentenarbeit, vor allem wenn du Audio mit reinhaben willst. Für mehrsprachige Aufgaben oder extreme Kontextlängen schau zuerst auf Qwen.

Der Haken, den niemand überspringen sollte

Hier kommt das, was mehr zählt als jeder Benchmark – und es stammt von jemandem, der diesen Bereich genau beobachtet. Nathan Lambert von Interconnects argumentiert, dass Gemma 4s Erfolg am Tooling hängt, nicht an den Scores: "Ein Schwanken von 5 bis 10 % bei den Benchmarks würde überhaupt keine Rolle spielen." Was offene Modelle umbringt, ist Reibung.

Und Gemma hat hier eine Vorgeschichte. Frühere Gemma-Releases waren, in seinen Worten, "geplagt von Tooling-Problemen und schlechterer Leistung beim Fine-Tuning". Qwen hat nicht über Benchmarks gewonnen – es hat gewonnen, weil das Ökosystem drumherum einfach funktioniert hat. vLLM, llama.cpp, LoRA, die ganze Kette.

Die offene Frage bei Gemma 4 ist also nicht "ist es schlau genug". Sondern: "Verhält sich das Fine-Tuning wirklich brav, und legen sich die Export-Pfade zu vLLM, Ollama und LiteRT nicht mit dir an?" Die ersten Anzeichen sind gut – es ist ab Tag eins auf Ollama, LM Studio und Hugging Face –, aber wenn du ein Produkt darauf aufbaust, dann feintune eine kleine Variante mit deinen echten Daten, bevor du dich festlegst. Verlass dich nicht auf das Wort der Launch-Demo.

So legst du los

Der schnellste Weg zu einer lokalen Agenten-Schleife ist Ollama:

ollama run gemma4:12b

Für Tool-Calling im Produktivbetrieb willst du den Pfad mit strukturierter Ausgabe (Constrained Decoding über LiteRT-LM für Edge oder vLLMs JSON-Modus auf einer GPU-Maschine). Das unquantisierte bf16-31B passt auf eine einzelne 80-GB-H100; die quantisierten Versionen passen auf Consumer-Karten.

Das Fazit

Gemma 4 wird die geschlossene Frontier nicht vom Leaderboard-Thron stoßen – und das muss es auch nicht. Der Wert liegt darin, den gesamten Stack zu besitzen: leistungsfähige Agenten, natives Tool-Calling, eine Lizenz ohne Fußangeln und Gewichte, die vom Pi bis zur H100 laufen. Für viele Teams, die pro Token für agentische Arbeit in großem Volumen zahlen, verschiebt diese Kombination still und leise die Build-vs-Buy-Rechnung.

Probier es diese Woche an einem echten Workload aus. Wenn die Tool-Aufrufe deines Agenten halten und das Fine-Tuning sich nicht querstellt, brauchst du diese API-Rechnung womöglich gar nicht mehr.

Manche Links bringen uns eine Provision — ohne Mehrkosten für dich.

Waqas Ahmed Waseer

Waqas Ahmed Waseer ist Entwickler und Automation-Builder mit über 8 Jahren Erfahrung im Aufbau von Produktivsystemen, die von mehr als 100.000 Menschen genutzt werden. Er baut individuelle Multi-Tenant-SaaS, KI-Automatisierung (n8n, LLM-Workflows, WhatsApp-Bots) und Hosting-Infrastruktur (WHM/cPanel, CloudLinux) — und ist der Macher von WaSphere, FlowMaticX und der Hosting-Marke WaseerHost. Über 100 Projekte für KMU, Agenturen und finanzierte Start-ups umgesetzt.

Profil Alle Artikel

Gemma 4: Googles Wette, dass offene Agenten lokal laufen – das bekommen Entwickler

Für wen das relevant ist

Die Modellpalette, in nüchternen Zahlen

Warum "für Agenten gebaut" hier kein Marketing ist

Wie es sich gegen Llama, Qwen und Mistral schlägt

Der Haken, den niemand überspringen sollte

So legst du los

Das Fazit

Waqas Ahmed Waseer

Mehr in Dev & Open Source

Claude Code Plan-Modus im Jahr 2026 nutzen: Ein praktischer Leitfaden

Podman vs. Docker 2026: Rootless-Sicherheit & echte Kosten

Claude Code Slash-Befehle im Jahr 2026: Ein praktischer Leitfaden

Diskussion · 0

Für wen das relevant ist

Die Modellpalette, in nüchternen Zahlen

Warum "für Agenten gebaut" hier kein Marketing ist

Wie es sich gegen Llama, Qwen und Mistral schlägt

Der Haken, den niemand überspringen sollte

So legst du los

Das Fazit

Waqas Ahmed Waseer

Mehr in Dev & Open Source

Claude Code Plan-Modus im Jahr 2026 nutzen: Ein praktischer Leitfaden

Podman vs. Docker 2026: Rootless-Sicherheit & echte Kosten

Claude Code Slash-Befehle im Jahr 2026: Ein praktischer Leitfaden

Diskussion · 0

Der Montagsbrief.