Gemma 2: نموذج لغة ضخم لفهم الصور وتحسين الذكاء الاصطناعي
كشفت جوجل النقاب عن Gemma 2، وهو نموذج لغة ضخم مع 27 مليار تعليمة، يُعد أول نموذج في عائلة Gemma مُصمم خصيصًا لفهم الصور والفيديوهات. يُتيح Gemma 2 إمكانيات جديدة واسعة لمطوري التطبيقات والباحثين في مجالات الذكاء الاصطناعي والرؤية الحاسوبية.
أعلنت جوجل عن الجيل التالي من نماذج لغة جيما "Gemma" في مؤتمر مطوري جوجل I/O 2024 السنوي وسيتم إصدار النسخة مفتوحة المصدر من Gemma 2 مع 27 مليار تعليمة في يونيو.
يوجد حاليًا PaliGemma وهو نسخة مدربة مسبقًا من Gemma تصفها جوجل بأنها "أول نموذج لغة مرئية في عائلة Gemma" للتسميات التوضيحية للصور، وكشف الأشياء وتحديدها، ووضع علامات على الصور، وقراءة النص المضمن في الصور، والإجابة على الأسئلة حول الصور.
ويُقصد بنماذج اللغة المرئية هو نوع من الذكاء الاصطناعي (AI) يمكنه معالجة وفهم الصور ومقاطع الفيديو. يتم تدريب نماذج الرؤية على كميات هائلة من بيانات الصور.
جوجل تطلق Gemma 2 نموذج لغة قوي بـ 27 مليار معلمة
حتى الآن، كانت نماذج Gemma العادية التي تم إصدارها في وقت سابق من هذا العام متاحة فقط مع إصدارات 2 مليار و7 مليار تعليمة برمجية بينما هذا الطراز الجديد يأتي بـ 27 مليارًا.
وأشار جوش وودوارد (Josh Woodward) نائب رئيس Google Labs، في إحدى الجلسات إلى أنه تم تنزيل نماذج جيما لـ "ملايين المرات" عبر الخدمات المختلفة المتاحة. وشدد على أن جوجل قامت بتحسين هذا النموذج الذي يضم 27 مليار تعليمة ليعمل على الجيل التالي من وحدات معالجة الرسومات من Nvidia ومضيف Google Cloud TPU والخدمة المُدارة من Vertex AI.
لم تشارك جوجل الكثير من المعلومات حول Gemma 2 حتى الآن، لذلك سيتعين علينا أن ننتظر لنشاهد كييف أدائه عندما يضع المطورون أيديهم عليه.