V2A نموذج ديب مايند لتوليد موسيقى الفيديو بالذكاء الاصطناعي

تُقدّم شركة ديب مايند، المُملوكة لجوجل، تقنية جديدة تُدعى V2A، وهي عبارة عن ذكاء اصطناعي ثوريّ يُمكّن من إنشاء الموسيقى التصويرية والمؤثرات الصوتية للأفلام بشكلٍ تلقائيّ. وتُعتبر هذه التقنية نقلة نوعية في مجال إنتاج الفيديوهات، حيث تُتيح إضافة المؤثرات الصوتية المُتناسقة مع المشاهد دون الحاجة إلى خبراء مختصين.

V2A نموذج ديب مايند لتوليد موسيقى الفيديو بالذكاء الاصطناعي

ديب مايند تكشف عن ذكاء اصطناعي لإنشاء موسيقى تصويرية للأفلام

كشفت شركة ديب مايند (DeepMind) التابعة لشركة جوجل عن ذكاء اصطناعي قيد التطوير يسمى "V2A" وهي إختصار (video-to-audio) يستخدم لإنتاج الموسيقى التصويرية والصوتية للأفلام.

تروج شركة ديب مايند لتقنية V2A (تحويل الفيديو إلى الصوت) باعتبارها جزءًا أساسيًا من لغز الفيديو المدعوم بالذكاء الاصطناعي. ففي الوقت الذي قامت بهِ شركات مثل ديب مايند وغيرها بتطوير نماذج ذكاء اصطناعي لتوليد الفيديو إلا أن هذه النماذج لا يمكنها توفير مؤثرات صوتية يمكن مزامنتها مع إطارات مقاطع الفيديو.

V2A: الذكاء الاصطناعي الذي يُلحّن ويُغنّي!

تقول ديب مايند: "إن نماذج إنتاج الفيديو تتقدم بوتيرة مذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى إنتاج مخرجات صامتة. والآن يمكن أن تصبح تقنية V2A أداة واعدة لإضفاء الحيوية على هذه الأفلام."

وفي مقاطع الفيديو الخاصة بهذا الذكاء الاصطناعي يمكنك أن ترى أن هذه التكنولوجيا الجديدة بالإضافة إلى الحوار، يمكنها إنتاج موسيقى تناسب الصورة.

باستخدام V2A AI من DeepMind، يمكنك إضافة الموسيقى والمؤثرات الصوتية وحتى الحوار إلى الفيديو الخاص بك عن طريق وصف الصوت، على سبيل المثال سوف تقول لهُ، «حورية البحر تغوص تحت الماء مع صوت المحيط». تقول ديب مايند إن نموذج V2A AI تم تدريبه بمزيج من الأصوات والحوارات النصية ومقاطع الفيديو.

وفقًا لديب مايند، نظرًا للبيانات المختلفة مثل الفيديو والأصوات والحوارات التي تم تدريب V2A عليها فقد تعلم النموذج ربط الأصوات المختلفة بمشاهد الفيديو. لا يزال من غير الواضح ما هي البيانات التي استخدمتها DeepMind لتدريب V2A وما إذا كانت هذه البيانات محمية بحقوق الطبع والنشر أم لا.

وبشكل عام فإن أدوات الإنتاج الصوتي بالذكاء الاصطناعي ليست تقنية جديدة. لكن تقنية V2A من ديب مايند فريدة من نوعها لأنها يمكنها فهم إطارات الفيديو ومزامنة الأصوات التي تم إنشاؤها تلقائيًا مع الفيديو.

المصدر: ديب مايند

إرسال تعليق (0)
أحدث أقدم