جوجل تطلق نموذج ذكاء اصطناعي لإنتاج الفيديو

 أعلنت جوجل عن إطلاق نموذجها اللغوي الضخم الجديد المسمى VideoPoet، والذي صمم لأداء عدة مهام، منها تحويل النصوص إلى فيديو، وتحويل الصور إلى فيديو، وتحويل الفيديو إلى ملف صوتي.

جوجل تكشف عن نموذج ذكاء اصطناعي لتوليد الفيديو

تقدم VideoPoet حلاً للتحدي في إنشاء حركات متماسكة ذات حجم كبير في مقاطع الفيديو، ويمثل تقدمًا في مجال تقنيات إنشاء الفيديو الحالية.


يتميز هذا النموذج الجديد بدمج قدرات متعددة لإنشاء الفيديو داخل إطار لغوي كبير واحد، وهو نهج يختلف عن النماذج الحالية التي تعتمد على اقتراحات مجزأة.


يعتمد النموذج على أساليب متعددة، حيث تم تدريبه باستخدام عدة رموز مميزة، مثل MAGVIT V2 لتوليد الفيديو والصور، و SoundStream للتعامل مع الصوت.


يتيح لنموذج VideoPoet أداء مجموعة متنوعة من المهام، بدءًا من تحريك الصور وصولاً إلى تحرير وتصميم مقاطع الفيديو، وذلك باستناد إلى مدخلات نصية.


يبرز VideoPoet كتقدم كبير في المجال المتقدم لتقنيات توليد الفيديو باستخدام الذكاء الاصطناعي. يتميز بشكل ملحوظ عن النماذج الحالية مثل Imagen Video، وRunwayML، وStable Video Diffusion، وPika، وAnimate Anywhere، من خلال تحسيناته في دقة النص وإيجاد حركات مثيرة.


يتفوق هذا النموذج الجديد على نظرائه من خلال قدرته على متابعة المطالب النصية بدقة وتوليد مقاطع فيديو بحركات جذابة.


يتفوق النموذج الجديد من جوجل في إنشاء محتوى باستخدام أدنى حد من المدخلات، مثل رسالة نصية واحدة أو صورة واحدة، دون الحاجة إلى تدريب محدد لهذا المحتوى.


يُظهر VideoPoet درجة عالية من الدقة في تحويل المطالبات النصية إلى فيديو، مما يميزه عن النماذج الأخرى التي قد تواجه صعوبات في إنشاء حركات ذات تماسك كبير، وبالتالي يُعزز تجربة المستخدم.


تواجه النماذج الأخرى غالبًا تحديات في إنتاج حركات ضخمة ذات تماسك بلا عيوب، بينما يُظهر النموذج الجديد من جوجل تحسنًا ملحوظًا في هذا الجانب. وهذا يُسفر عن إنتاج مقاطع فيديو ديناميكية وسلسة.

شارك الموضوع
تعليقات