النسخة الأصلية ل هذه القصة ظهرت في مجلة كوانتا.
إليك اختبار للرضع: أظهر لهم كوبًا من الماء على المكتب. قم بإخفائها خلف لوح خشبي. الآن حرك اللوحة نحو الزجاج. إذا استمرت اللوحة في تجاوز الزجاج، كما لو أنها لم تكن هناك، فهل سيتفاجئون؟ العديد من الأطفال في عمر 6 أشهر، وبحلول عام واحد، يكون لدى جميع الأطفال تقريبًا فكرة بديهية عن ديمومة الشيء، ويتم تعلمها من خلال الملاحظة. الآن بعض نماذج الذكاء الاصطناعي تفعل ذلك أيضًا.
طور الباحثون نظام ذكاء اصطناعي يتعرف على العالم من خلال مقاطع الفيديو ويظهر فكرة “المفاجأة” عندما يتم تقديم معلومات تتعارض مع المعرفة التي تم جمعها.
النموذج، الذي أنشأته شركة Meta ويسمى Video Joint Embedding Predictive Architecture (V-JEPA)، لا يقدم أي افتراضات حول فيزياء العالم الواردة في مقاطع الفيديو. ومع ذلك، فمن الممكن أن نبدأ في فهم الكيفية التي يعمل بها العالم.
يقول ميكا هايلبرون، عالم الإدراك في جامعة أمستردام، الذي يدرس كيفية فهم العقول والأنظمة الاصطناعية للعالم: “إن ادعاءاتهم معقولة للغاية، وكانت النتائج مثيرة للاهتمام للغاية”.
التجريدات العليا
وكما يعلم المهندسون الذين يصنعون السيارات ذاتية القيادة، قد يكون من الصعب جعل نظام الذكاء الاصطناعي يفهم بشكل موثوق ما يراه. إن أغلب الأنظمة المصممة “لفهم” مقاطع الفيديو إما من أجل تصنيف محتواها (“شخص يلعب التنس” على سبيل المثال) أو تحديد محيط جسم ما – ولنقل سيارة أمامك – تعمل في ما يسمى “مساحة البكسل”. يتعامل النموذج بشكل أساسي مع كل بكسل في الفيديو على أنه متساوٍ في الأهمية.
لكن نماذج مساحة البكسل هذه تأتي مع قيود. تخيل أنك تحاول فهم أحد شوارع الضواحي. إذا كان المشهد يحتوي على سيارات وإشارات مرور وأشجار، فقد يركز النموذج كثيرًا على تفاصيل غير ذات صلة مثل حركة الأوراق. قد يفتقد لون إشارة المرور، أو مواقع السيارات القريبة. وقال راندال باليستريرو، عالم الكمبيوتر في جامعة براون: “عندما تذهب إلى الصور أو الفيديو، فإنك لا تريد العمل في مساحة (البكسل) لأن هناك الكثير من التفاصيل التي لا تريد تصميمها”.










