Close Menu
نجمة الخليجنجمة الخليج

    رائج الآن

    وزير التعليم العالي: البحث العلمي ركيزة أساسية لبناء اقتصاد المعرفة

    الجمعة 26 ديسمبر 12:22 م

    دهس مستوطن إسرائيلي يبلغ من العمر 70 عاما

    الجمعة 26 ديسمبر 12:15 م

    هل يمكنك استخدام زورق التجديف للمشي في قاع البحر مثل جاك سبارو؟

    الجمعة 26 ديسمبر 12:13 م
    فيسبوك X (Twitter) الانستغرام
    نجمة الخليجنجمة الخليج
    • الاخبار
    • العالم
    • سياسة
    • اسواق
    • تقنية
    • رياضة
    • صحة
    • منوعات
    • المزيد
      • سياحة وسفر
      • مشاهير
      • مقالات
              
    الجمعة 26 ديسمبر 12:24 م
    رائج الآن
    • #الإنتخابات_التركية
    • حرب اوكرانيا
    • موسم الحج
    • السعودية 2030
    • دونالد ترامب
    نجمة الخليجنجمة الخليج
    الرئيسية»تقنية
    تقنية

    مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

    فريق التحريرفريق التحريرالثلاثاء 15 أكتوبر 11:59 ملا توجد تعليقات

    منذ فترة، كانت شركات مثل OpenAI وGoogle تروج لقدرات “الاستدلال” المتقدمة باعتبارها الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بها. الآن، على الرغم من ذلك، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال الرياضي” الذي تعرضه نماذج اللغة الكبيرة المتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو تافهة في المشكلات المعيارية الشائعة.

    تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية اللازمة لقدرات التفكير الرياضي الموثوقة حقًا. “إن حاملي الماجستير الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

    امزجها

    في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – المتوفر حاليًا كورقة مطبوعة مسبقًا – بدأ باحثو Apple الستة بمجموعة GSM8K الموحدة التي تضم أكثر من 8000 مشكلة كلامية رياضية على مستوى الصف الدراسي، والتي تُستخدم غالبًا كمعيار لقدرات التفكير المعقدة لـ LLMs الحديثة. ثم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة ديناميكيًا بقيم جديدة – لذا فإن السؤال حول حصول صوفي على 31 قطعة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالاً حول حصول بيل على 19 قطعة بناء لـ شقيقه في تقييم GSM-Symbolic الجديد.

    يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن أسئلة GSM8K الثابتة التي يتم إدخالها مباشرة في بيانات تدريب نموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل على الإطلاق، مما يعني أن النماذج يجب أن تؤدي نظريًا نفس الأداء عند اختبارها على GSM-Symbolic مثل GSM8K.

    بدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا أن متوسط ​​الدقة انخفض في جميع المجالات مقارنة بـ GSM8K، مع انخفاض الأداء بنسبة تتراوح بين 0.3 بالمائة و9.2 بالمائة، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. وكانت الفجوات التي تصل إلى 15% من الدقة بين أفضل وأسوأ عمليات التشغيل شائعة داخل النموذج الواحد، ولسبب ما، أدى تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

    هذا النوع من التباين – سواء ضمن عمليات GSM-Symbolic المختلفة أو مقارنة بنتائج GSM8K – يعد أكثر من مفاجئ بعض الشيء لأنه، كما يشير الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي.” حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بأي تفكير “رسمي” ولكنها بدلاً من ذلك “تحاول أداء نوع من مطابقة أنماط التوزيع، ومواءمة الأسئلة المعطاة والنتائج” خطوات الحل مع الخطوات المماثلة التي تظهر في بيانات التدريب.

    لا تشتت انتباهك

    ومع ذلك، كان التباين الإجمالي الموضح في اختبارات GSM-Symbolic صغيرًا نسبيًا في كثير من الأحيان في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على GSM8K إلى 94.9 بالمائة على GSM-Symbolic، والتي لا تزال مثيرة للإعجاب. يعد هذا معدل نجاح مرتفع جدًا باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم المنطق “الرسمي” خلف الكواليس أم لا (على الرغم من انخفاض الدقة الإجمالية للعديد من النماذج بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ).

    ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير، عندما قام باحثو Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “لا توجد عملية”)، قد يتم تعديل سؤال حول عدد الكيوي الذي يختاره شخص ما خلال عدة أيام ليشمل التفاصيل العرضية التي تقول “خمسة منهم (الكيوي) كانوا أصغر قليلاً من المتوسط.”

    أدت إضافة هذه التضليلات الحمراء إلى ما وصفه الباحثون بـ “انخفاض الأداء الكارثي” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على الحدود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

    شاركها. فيسبوك تويتر بينتيريست تيلقرام واتساب البريد الإلكتروني

    مقالات ذات صلة

    هل يمكنك استخدام زورق التجديف للمشي في قاع البحر مثل جاك سبارو؟

    تقنية الجمعة 26 ديسمبر 12:13 م

    “لم نر شيئًا بعد” – لن تتزايد عمليات الترحيل الجماعي التي قام بها ترامب إلا من هنا

    تقنية الجمعة 26 ديسمبر 11:12 ص

    “الحمض النووي للذئب” يتربص في العديد من سلالات الكلاب الحديثة

    تقنية الخميس 25 ديسمبر 2:52 م

    لقد تم إيقاف القفازات في الكفاح من أجل حقك في الإصلاح

    تقنية الخميس 25 ديسمبر 1:51 م

    كيفية إعداد هاتف ذكي لأحبائك المسنين

    تقنية الخميس 25 ديسمبر 12:50 م

    أفضل الهواتف لعام 2025 كانت أيضًا الأكثر سخافة

    تقنية الخميس 25 ديسمبر 11:49 ص
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    اخر الأخبار

    المزيد

    دهس مستوطن إسرائيلي يبلغ من العمر 70 عاما

    الجمعة 26 ديسمبر 12:15 م

    هل يمكنك استخدام زورق التجديف للمشي في قاع البحر مثل جاك سبارو؟

    الجمعة 26 ديسمبر 12:13 م

    بيطري أسوان يضبط كمية من اللحوم البلدية غير صالحة بكوم أمبو..صور

    الجمعة 26 ديسمبر 12:09 م

    التحالف الوطني: بدء فعاليات “شهر التطوع” من جامعة القاهرة

    الجمعة 26 ديسمبر 11:59 ص

    مطلب مصر محدد.. الرئيس السيسي يوضح ثوابت السياسة المصرية تجاه إثيوبيا وقضايا التنمية بإفريقيا

    الجمعة 26 ديسمبر 11:53 ص

    النشرة البريدية

    اشترك في النشرة البريدية ليصلك كل جديد على بريدك الإلكتروني مباشرة

    رائج هذا الأسبوع

    امرأة عازبة تترك موعدها بعد أن خدعها

    أطفال “البكالوريوس” و”العازبون”: تعرف على نجوم الواقع الذين ولدوا

    شوبير يدعم لاعبي منتخب مصر قبل مواجهة جنوب إفريقيا

    بعد تجاوزه الـ 6 آلاف.. توقعات بارتفاع أسعار الذهب الفترة المقبلة

    اشتباه نزيف في المخ.. ضبط ربة منزل تعدت علي مدرسة بالمنوفية

    اعلانات
    Demo
    فيسبوك X (Twitter) الانستغرام يوتيوب تيلقرام
    2025 © نجمة الخليج. جميع حقوق النشر محفوظة.
    • من نحن
    • سياسة الخصوصية
    • اعلن معنا
    • اتصل بنا

    اكتب كلمة البحث ثم اضغط على زر Enter

    تسجيل الدخول أو التسجيل

    مرحبًا بعودتك!

    Login to your account below.

    نسيت كلمة المرور؟