أصبحت تقنية Mixture-of-Experts أو (MoE) أسلوبًا شائعًا لتوسيع نطاق نماذج اللغات الكبيرة دون زيادة التكاليف الحسابية. الآن من خلال تقديم بنية PEER، تهدف شركة DeepMind من جوجل إلى التغلب على قيود هذه التقنية لتحسين أداء الذكاء الاصطناعي وتخفيف تكاليف تطويره.
في تقنية MoE بدلاً من استخدام سعة النموذج بالكامل لكل مدخل يتم توجيه البيانات إلى وحدات صغيرة تسمى "Experts". ومع ذلك، فإن تقنيات MoE الحالية لها قيود تجعلها حصرية لعدد صغير نسبيا من هؤلاء المتخصصين. في ورقة بحثية جديدة قدمت ديب مايند بنية PEER والتي يمكنها تقسيم نماذج MOE إلى ملايين الخبراء وتحسين الأداء الحسابي لنماذج اللغات الكبيرة.
وبينما تستخدم العديد من نماذج الذكاء الاصطناعي الشائعة تقنية MoE تتحدى البنية الجديدة لباحثي DeepMind الاعتقاد القديم بأن نماذج MoE تصل إلى ذروة الكفاءة مع عدد محدود من Experts. ويبين نظام PEER أن MoE يمكن تقسيمها إلى ملايين من الخبراء باستخدام آليات استرداد الخبير الكفء في الأداء. يمكن أن يكون هذا النهج فعالاً في تقليل تكلفة التدريب وتعقيده بشكل أكبر والمساعدة في توفير نماذج لغوية كبيرة جدًا.
على مدى السنوات القليلة الماضية، وجد أن توسيع نطاق نماذج اللغة من خلال زيادة عدد معلماتها يؤدي إلى تحسين الأداء والقدرات الجديدة. وقد وجد الباحثون أيضًا أن زيادة دقة نموذج MOE، الذي يشير إلى عدد الخبراء، يمكن أن يؤدي إلى زيادة الأداء خاصة عندما يقترن بزيادة حجم النموذج وبيانات التدريب.
كما يمكن لتقنية MOE عالية الدقة أن تمكن النماذج من تعلم المعرفة الجديدة بشكل أكثر فعالية. ومع ذلك أحد القيود الحالية هو أن هذه النماذج عادةً ما تحتوي على أجهزة توجيه ثابتة مصممة لعدد معين من المتخصصين وتحتاج إلى إعادة تكوينها عند إضافة متخصصين جدد.
تعالج بنية PEER الآن مشكلات وقيود التوسع في MOE. بالنسبة لكل إدخال يستخدم PEER أولاً حسابات أولية سريعة لإنشاء قائمة مختصرة من الخيارات المختلفة لاختيار الخبراء المناسبين وتنشيطهم. وهذه الآلية تمكن MOE من التعامل مع عدد كبير جداً من المتخصصين دون تاخير أو بطء.
تقنية PEER الجديدة
تقوم تقنية PEER على استخدام فهرس متعلم لتوجيه بيانات الإدخال بكفاءة إلى مصفوفة شاسعة من الخبراء. وباستخدام خبراء ذوي نيورون واحد في الطبقة الخفية وتطبيق استراتيجية استرداد متعددة الرؤوس، تعزز PEER نقل المعرفة والكفاءة في استخدام المعلمات.
يتميز تصميم PEER بقابليته للتكيف مع نماذج المحول أو استبدال طبقات FFW، بالإضافة إلى تقنيات PEFT ذات الصلة، مما يؤكد على أهميتها في تقليل استهلاك الحوسبة والذاكرة. كما أن القدرة على إضافة المعرفة ديناميكيًا من خلال PEER تبرز تأثيرها المحتمل على نماذج مثل Gemini 1.5 التابعة لجوجل.
أظهرت نتائج البحث أن نماذج PEER تتفوق على نماذج المحول التقليدية وغيرها من معمارية MoE، حيث تحقق أداءً أفضل مع نفس الموارد الحسابية. ويتحدى تطور MoE ليصل إلى ملايين الخبراء الاعتقاد التقليدي بأن الكفاءة القصوى تتحقق مع عدد محدود من الخبراء، مما يشير إلى طريق واعد لتقليل تعقيد وتكلفة تدريب ونشر نماذج اللغة الضخمة.
تقنية PEER المبتكرة من ديب مايند تمثل تقدمًا كبيرًا في مجال نماذج اللغة الضخمة، حيث تمكن من زيادة عدد الخبراء إلى الملايين مع الحفاظ على الكفاءة الحسابية. ويمكن لهذا التطور أن يؤدي إلى تحسينات كبيرة في أداء نماذج اللغة الضخمة مع خفض التكاليف والموارد المطلوبة. ويفتح PEER الباب أمام إمكانات جديدة لتطوير أنظمة الذكاء الاصطناعي أكثر تقدمًا وفعالية ومن المحتمل أن تستخدمها جوجل في نموذج Gemini 1.5.