إن كنت تطلق وكلاء فوق واجهة برمجة مغلقة وتتألّم في كل مرة يدور فيها عدّاد التوكنات، فإن Gemma 4 هو الإصدار الذي يُفترض أن يجعلك تتوقف وتعيد التفكير في بنيتك التقنية.
أطلقت Google نموذج Gemma 4 في الثاني من أبريل 2026، تلاه النسخة 12B في الثالث من يونيو. الطرح صريح: نماذج مفتوحة الأوزان مبنية للاستدلال وسير العمل الوكيلي، تحت ترخيص Apache 2.0 حقيقي، يمكنك تشغيلها على عتاد تملكه أصلاً. لا بند المستخدمين الـ700 مليون. لا ملحق "الاستخدام المقبول" الذي يحتاج المحامون إلى مباركته. مجرد أوزان يمكنك ضبطها بدقة، وإطلاقها، وتسويقها تجارياً.
هذا الجزء الأخير هو العنوان الفعلي. دعني أشرح لماذا.
من ينبغي أن يهتمّ
ليس الجميع. إن كنت تستدعي نموذجاً متقدّماً مرتين في اليوم لمشروع جانبي، فالحساب يقول استمرّ في استخدام واجهة البرمجة وامضِ في طريقك. يهمّ Gemma 4 إن كنت أحد هؤلاء:
- تبني وكيلاً يجري الكثير من استدعاءات الأدوات، وتكلفة الاستدلال تلتهم هامش ربحك.
- لديك بيانات لا يمكنها مغادرة شبكتك — صحية أو قانونية أو مستندات داخلية.
- تريد استدلالاً على الجهاز أو على الحافة بزمن استجابة متوقّع ودون اعتماد على الشبكة.
- تعرّضت لضرر بسبب تغيير في الترخيص وتريد أوزاناً لا يستطيع أحد سحبها من تحتك.
إن كان هذا ينطبق عليك، فهذا أكثر إصدار مفتوح إثارة للاهتمام هذا العام حتى الآن.
التشكيلة، بأرقام واضحة
يأتي Gemma 4 كعائلة، لا كنموذج واحد. وفقاً لبطاقة النموذج ومدونة المطوّرين من Google:
- E2B (نحو 2B فعّال) — من فئة الهواتف. يعمل بأقل من 1.5GB مع تكميم 2-بت/4-بت.
- E4B (نحو 4B فعّال) — للأجهزة الطرفية، مع إدخال صوتي أصيل.
- 26B MoE — نموذج مزيج من الخبراء يُفعّل 3.8B معامل فقط لكل تمريرة أمامية. يعمل على بطاقة رسومات استهلاكية.
- 31B dense — نموذج محطات العمل الرائد.
تبلغ نوافذ السياق 128K في النماذج الطرفية وتصل إلى 256K في النماذج الأكبر. وكلها تعالج الصور والفيديو بشكل أصيل؛ وتضيف نسختا E2B وE4B إدخالاً صوتياً للكلام. درّبت على أكثر من 140 لغة. وهناك دعم أصيل لتعليمات النظام ومخرجات JSON المنظَّمة، وهو ما — إن كنت قد صارعت نموذجاً يتجاهل مخطّطك — ستقدّره فوراً.
قصة الكفاءة هي الجزء المثير للإعجاب فعلاً. فذلك النموذج 26B MoE يحتلّ المركز السادس على لوحة المتصدّرين المفتوحة من Arena AI بينما يُفعّل أقل من 4B معامل، وتزعم Google أنه "يتفوّق على نماذج تكبره بعشرين ضعفاً". أمّا النموذج 31B dense فيحلّ في المركز الثالث على لوحة المصدر المفتوح.
لماذا ليست عبارة "مبني للوكلاء" مجرد تسويق هنا
نماذج كثيرة تدّعي قدرات وكيلية. لكن ما يمنحك إياه Gemma 4 فعلياً هو البنية التحتية المملّة التي تجعل الوكلاء لا ينهارون في الإنتاج:
- استدعاء دوال أصيل — يُصدر النموذج استدعاءات أدوات بصيغة منظَّمة بدلاً من أن تحلّل أنت النثر بتعابير نمطية (regex).
- فكّ تشفير مقيَّد عبر LiteRT-LM، بحيث تبقى المخرجات المنظَّمة صالحة في كل مرة. هذا هو الجزء الذي يمنع سكربتات استدعاء الأدوات من الانهيار في الثانية صباحاً.
- دور نظام أصيل، بحيث يمكنك فعلاً فصل التعليمات عن إدخال المستخدم بطريقة قابلة للتحكم.
يستعلم الوكيل التجريبي من Google عن Wikipedia، ويحوّل المدخلات إلى بطاقات تعليمية أو تصوّرات بصرية، ويسلسل سير عمل متعدد الخطوات — "كل ذلك دون ضبط دقيق متخصص". وأمّا إن كان هذا يصمد مع سير عملك أنت فهو الاختبار الحقيقي، لكن العناصر الأساسية موجودة.
أمّا أرقام الحافة فهي ما جعلني أنتبه. على Raspberry Pi 5 (وحدة المعالجة المركزية فقط)، يحقّق E2B نحو 133 توكن للتعبئة المسبقة / 7.6 توكن لفكّ التشفير في الثانية. وعلى وحدة المعالجة العصبية Qualcomm Dragonwing NPU، يقفز ذلك إلى 3,700 للتعبئة المسبقة / 31 لفكّ التشفير. يمكنك وضع وكيل يستخدم الأدوات على لوحة بسعر 80 دولاراً. هذا ليس استعراضاً للأداء، بل فئة نشر لم تكن متوفّرة بثمن زهيد من قبل.
كيف يقارن بـ Llama وQwen وMistral
لنكن صادقين بشأن أين يفوز Gemma 4 وأين لا يفعل.
على مقاييس الأداء الخام، هو منافس لا مهيمن. فالنموذج 31B يتبادل الضربات مع Qwen 3.5 27B: يتفوّق Qwen عليه في MMLU Pro (86.1% مقابل 85.2%) وفي GPQA Diamond، بينما يأخذ Gemma 4 الرياضيات (AIME 2026: 89.2%) والبرمجة (HumanEval نحو 87%، وCodeforces ELO 2150). ويجلس DeepSeek V4 على قمة الكومة الوكيلية المفتوحة. ويملك Llama 4 Scout مكانة السياق الطويل المبالغ فيه عند 10M توكن لكنه يبدأ من 109B معامل، فهو بالتالي للخوادم فقط.
أمّا عوامل التمييز الحقيقية فهي الترخيص والأحجام:
- الترخيص: يحمل Gemma 4 وQwen ترخيص Apache 2.0 النظيف. أمّا Llama 4 فما زال يحمل ترخيص مجتمع Meta بعتبته الخاصة بالمستخدمين النشطين شهرياً (MAU). إن كنت شركة ناشئة قد تكبر، فذلك البند لغم أرضي. أمّا Apache 2.0 فليس كذلك.
- الطرف الصغير والطرفي: يمتدّ Gemma 4 من 2B إلى 31B. ولا ينزل Llama 4 إلى الأحجام الصغيرة. إن كان هدفك حاسوباً محمولاً أو هاتفاً أو Pi، فإن Gemma 4 وQwen هما محور الحديث؛ أمّا Llama فليس في المعادلة.
- متعدد اللغات / السياق الطويل جداً: ما زال Qwen يفوز. فهو يغطّي أكثر من 200 لغة و262K أصيلة في جميع نماذجه.
قراءتي: Gemma 4 هو الخيار الافتراضي الأقوى للعمل الوكيلي على الجهاز، خصوصاً إن أردت إدخالاً صوتياً. أمّا لتعدّد اللغات أو السياق الهائل، فانظر إلى Qwen أولاً.
المأخذ الذي لا ينبغي لأحد أن يتجاهله
إليك الأمر الذي يهمّ أكثر من أي مقياس أداء، وهو يأتي من شخص يراقب هذا المجال عن كثب. يجادل Nathan Lambert في Interconnects بأن نجاح Gemma 4 يعود إلى الأدوات لا الدرجات: "تذبذب بنسبة 5-10% في مقاييس الأداء لن يهمّ على الإطلاق". فما يقتل النماذج المفتوحة هو الاحتكاك.
ولـ Gemma تاريخ هنا. فإصدارات Gemma السابقة كانت، على حدّ تعبيره، "تعصف بها مشكلات الأدوات وأداء أضعف عند الضبط الدقيق". لم يفز Qwen بمقاييس الأداء — بل فاز لأن المنظومة المحيطة به كانت تعمل ببساطة. vLLM وllama.cpp وLoRA، السلسلة بأكملها.
لذا فإن السؤال المفتوح بشأن Gemma 4 ليس "هل هو ذكي بما يكفي". بل "هل يتصرّف الضبط الدقيق فعلاً كما ينبغي، وهل لا تتصارع معك مسارات التصدير إلى vLLM وOllama وLiteRT". المؤشرات المبكرة جيدة — فهو متوفّر على Ollama وLM Studio وHugging Face منذ اليوم الأول — لكن إن كنت تراهن بمنتج عليه، فـاضبط بدقة نسخة صغيرة على بياناتك الحقيقية قبل أن تلتزم به. لا تأخذ بكلام العرض التجريبي للإطلاق.
كيف تضع يدك عليه
أسرع طريق إلى حلقة وكيل محلية هو Ollama:
ollama run gemma4:12b
أمّا لاستدعاء الأدوات في الإنتاج، فستحتاج إلى مسار المخرجات المنظَّمة (فكّ تشفير مقيَّد عبر LiteRT-LM للحافة، أو وضع JSON في vLLM على جهاز بطاقة رسومات). تتسع نسخة 31B غير المكمّمة بصيغة bf16 على وحدة H100 واحدة بسعة 80GB؛ بينما تنزل النسخ المكمّمة على البطاقات الاستهلاكية.
الخلاصة
لن يطيح Gemma 4 بالنماذج المتقدمة المغلقة عن عرش لوحة المتصدّرين، وهو لا يحتاج إلى ذلك. القيمة تكمن في امتلاك البنية التقنية بأكملها: وكلاء قادرون، واستدعاء أدوات أصيل، وترخيص بلا قيود، وأوزان تعمل من Pi إلى H100. وبالنسبة للكثير من الفرق التي تدفع لكل توكن لتنفيذ عمل وكيلي عالي الحجم، فإن هذا المزيج يغيّر بهدوء معادلة البناء مقابل الشراء.
جرّبه على حِمل عمل حقيقي هذا الأسبوع. إن صمدت استدعاءات أدوات وكيلك ولم يتصارع معك الضبط الدقيق، فقد لا تحتاج إلى فاتورة واجهة البرمجة تلك على الإطلاق.
قد نحصل على عمولة عبر بعض الروابط دون أي تكلفة إضافية عليك.
Waqas Ahmed Waseer
Waqas Ahmed Waseer is a developer and automation builder with 8+ years shipping production systems used by 100k+ people. He builds custom multi-tenant SaaS, AI automation (n8n, LLM workflows, WhatsApp bots) and hosting infrastructure (WHM/cPanel, CloudLinux) — and is the maker of WaSphere, FlowMaticX, and the WaseerHost hosting brand. 100+ projects delivered for SMBs, agencies and funded startups.



