ميتا تُهاجم تقنية OPENAI - كبير علماء الذكاء الاصطناعي: "محكوم عليها بالفشل"

 يان لوكون، العالم البارز في مجال الذكاء الاصطناعي في شركة ميتا، ينتقد نموذج توليد الفيديو Sora الذي طورته OpenAI، معتبرًا أن نهجه في محاكاة العالم الفيزيائي عبر إنتاج البكسلات غير فعّال ومتسبب في الفشل.


لوكون يشير إلى أن نماذج توليد الفيديو التي تعتمد على المتغيرات الكامنة لإنتاج البكسلات تواجه تحديات في التعامل مع التعقيدات والشكوك المنبثقة عن التنبؤات في الفضاء ثلاثي الأبعاد.


لوكون طور في شركة ميتا نموذجًا بديلًا يُدعى الهندسة التنبؤية للتضمين المشترك للفيديو (V-JEPA)، والذي يتميز بقدرته على تجاهل المعلومات غير القابلة للتنبؤ.

كبير علماء الذكاء الاصطناعي في ميتا يقول: الذكاء الاصطناعي المولد للفيديو في OPENAI “محكوم عليه بالفشل”

أعرب يان ليكون، كبير علماء الذكاء الاصطناعي في شركة ميتا وأحد الشخصيات البارزة في مجال الذكاء الاصطناعي، عن شكوكه بشأن نموذج الذكاء الاصطناعي الجديد لإنشاء الفيديو من OpenAI، Sora. على الرغم من الضجة التي أحاطت بإطلاق سراح Sora، أعرب LeCun عن مخاوفه حيال نهجه التأسيسي وقدرته على البقاء على المدى الطويل في محاكاة الحقائق المادية المعقدة.


أثار أحدث ابتكارات OpenAI، Sora، الذي يعد نموذجًا لتحويل النص إلى فيديو، ضجة كبيرة في مجتمع التكنولوجيا بسبب هدفه الطموح في محاكاة العالم المادي. ومع ذلك، أثار يان ليكون، أحد الخبراء الرائدين في أبحاث الذكاء الاصطناعي، شكوكًا كبيرة حول منهجية وفعالية مثل هذا النموذج. وفقًا لـ LeCun، فإن رؤية OpenAI لإنشاء "محاكيات للأغراض العامة للعالم المادي" من خلال إنشاء وحدات البكسل هي رؤية مضللة ومن المحتمل أن تفشل.


انتقادات LeCun تجذر في نقاش أساسي في مجال التعلم الآلي حيث تتعارض النماذج التوليدية مع النماذج التمييزية. يجادل بأن عملية إنشاء مقاطع الفيديو عن طريق تركيب وحدات البكسل من المتغيرات الكامنة هي عملية غير فعالة بطبيعتها وتكافح من أجل إدارة الشكوك الكامنة في التنبؤ بالبيئات المعقدة ثلاثية الأبعاد. يشبه LeCun هذا بتحليل مفصل للغاية وغير ضروري، مثل حساب مسار كرة القدم من خلال فحص كل جانب من جوانب تركيبها بدلاً من التركيز على الخصائص الأساسية الأكثر صلة مثل الكتلة والسرعة.


على الرغم من نجاح النماذج التوليدية في معالجة اللغة، كما رأينا في تقنيات مثل ChatGPT، يؤكد LeCun أن تعقيد العالم المادي يتطلب نهجًا مختلفًا. وقد دفعه هذا الشك إلى تطوير نموذج بديل في ميتا، يُعرف باسم الهندسة التنبؤية للتضمين المشترك للفيديو (V-JEPA). يهدف V-JEPA إلى معالجة القيود المفروضة على النماذج التوليدية من خلال التجاهل الانتقائي للبيانات غير المتوقعة، وبالتالي تعزيز كفاءة التدريب وفعالية العينة بشكل كبير.


بينما أثار Sora من OpenAI إعجاب الكثيرين بقدراته المتقدمة في إنتاج الفيديو، يبرز نقد Yann LeCun محادثة هامة داخل مجتمع الذكاء الاصطناعي حول أفضل طريقة للمضي قدمًا في محاكاة العالم المادي. يقترح النهج البديل الذي يتبعه LeCun مع V-JEPA مسارًا مختلفًا قد يؤدي إلى نماذج أكثر كفاءة وعملية في المستقبل. ومع استمرار النقاش، فإن الرحلة نحو الفهم الحقيقي لتعقيدات عالمنا وتكراره لا تزال تواجه تحديات وتطلبات فلسفية متنافسة.

شارك الموضوع
تعليقات