Close Menu
نجمة الخليجنجمة الخليج

    رائج الآن

    مصطفى يونس: الأهلي فرد دراعه وأخطأ لأنه بعت عبدالحفيظ واتحاد الكرة قالهم ممنوع

    الأحد 12 أبريل 10:27 م

    مصطفى يونس: وليد صلاح الدين كان الأجدر بالحضور في جلسة استماع الفار

    الأحد 12 أبريل 10:20 م

    ليس غريبا في كرة القدم العالمية.. بيريرا يعلق على أزمة تسجيلات الفار في مصر

    الأحد 12 أبريل 10:15 م
    فيسبوك X (Twitter) الانستغرام
    نجمة الخليجنجمة الخليج
    • الاخبار
    • العالم
    • سياسة
    • اسواق
    • تقنية
    • رياضة
    • صحة
    • منوعات
    • المزيد
      • سياحة وسفر
      • مشاهير
      • مقالات
              
    الأحد 12 أبريل 10:33 م
    رائج الآن
    • #الإنتخابات_التركية
    • حرب اوكرانيا
    • موسم الحج
    • السعودية 2030
    • دونالد ترامب
    نجمة الخليجنجمة الخليج
    الرئيسية»تقنية
    تقنية

    مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

    فريق التحريرفريق التحريرالثلاثاء 15 أكتوبر 11:59 ملا توجد تعليقات

    منذ فترة، كانت شركات مثل OpenAI وGoogle تروج لقدرات “الاستدلال” المتقدمة باعتبارها الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بها. الآن، على الرغم من ذلك، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال الرياضي” الذي تعرضه نماذج اللغة الكبيرة المتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو تافهة في المشكلات المعيارية الشائعة.

    تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية اللازمة لقدرات التفكير الرياضي الموثوقة حقًا. “إن حاملي الماجستير الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

    امزجها

    في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – المتوفر حاليًا كورقة مطبوعة مسبقًا – بدأ باحثو Apple الستة بمجموعة GSM8K الموحدة التي تضم أكثر من 8000 مشكلة كلامية رياضية على مستوى الصف الدراسي، والتي تُستخدم غالبًا كمعيار لقدرات التفكير المعقدة لـ LLMs الحديثة. ثم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة ديناميكيًا بقيم جديدة – لذا فإن السؤال حول حصول صوفي على 31 قطعة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالاً حول حصول بيل على 19 قطعة بناء لـ شقيقه في تقييم GSM-Symbolic الجديد.

    يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن أسئلة GSM8K الثابتة التي يتم إدخالها مباشرة في بيانات تدريب نموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل على الإطلاق، مما يعني أن النماذج يجب أن تؤدي نظريًا نفس الأداء عند اختبارها على GSM-Symbolic مثل GSM8K.

    بدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا أن متوسط ​​الدقة انخفض في جميع المجالات مقارنة بـ GSM8K، مع انخفاض الأداء بنسبة تتراوح بين 0.3 بالمائة و9.2 بالمائة، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. وكانت الفجوات التي تصل إلى 15% من الدقة بين أفضل وأسوأ عمليات التشغيل شائعة داخل النموذج الواحد، ولسبب ما، أدى تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

    هذا النوع من التباين – سواء ضمن عمليات GSM-Symbolic المختلفة أو مقارنة بنتائج GSM8K – يعد أكثر من مفاجئ بعض الشيء لأنه، كما يشير الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي.” حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بأي تفكير “رسمي” ولكنها بدلاً من ذلك “تحاول أداء نوع من مطابقة أنماط التوزيع، ومواءمة الأسئلة المعطاة والنتائج” خطوات الحل مع الخطوات المماثلة التي تظهر في بيانات التدريب.

    لا تشتت انتباهك

    ومع ذلك، كان التباين الإجمالي الموضح في اختبارات GSM-Symbolic صغيرًا نسبيًا في كثير من الأحيان في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على GSM8K إلى 94.9 بالمائة على GSM-Symbolic، والتي لا تزال مثيرة للإعجاب. يعد هذا معدل نجاح مرتفع جدًا باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم المنطق “الرسمي” خلف الكواليس أم لا (على الرغم من انخفاض الدقة الإجمالية للعديد من النماذج بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ).

    ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير، عندما قام باحثو Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “لا توجد عملية”)، قد يتم تعديل سؤال حول عدد الكيوي الذي يختاره شخص ما خلال عدة أيام ليشمل التفاصيل العرضية التي تقول “خمسة منهم (الكيوي) كانوا أصغر قليلاً من المتوسط.”

    أدت إضافة هذه التضليلات الحمراء إلى ما وصفه الباحثون بـ “انخفاض الأداء الكارثي” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على الحدود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

    شاركها. فيسبوك تويتر بينتيريست تيلقرام واتساب البريد الإلكتروني

    مقالات ذات صلة

    مراجعة: روبوت حمام السباحة ماموشن سبينو E1

    تقنية الأحد 12 أبريل 2:49 م

    هناك مكون سري لصنع الثلج الفاخر في المنزل

    تقنية الأحد 12 أبريل 1:48 م

    لماذا يصعب إصلاح الدراجة الكهربائية؟ (2026)

    تقنية الأحد 12 أبريل 12:48 م

    أفضل أجهزة الكمبيوتر المحمولة 2 في 1 (2026): Microsoft وLenovo وiPad

    تقنية الأحد 12 أبريل 11:46 ص

    الحد الأقصى لوقت الشاشة الذين يقضون قدرًا كبيرًا من الوقت على هواتفهم

    تقنية الأحد 12 أبريل 10:45 ص

    أفضل 3 أدوات لتدفئة الأكواب لعام 2026: هل هي أفضل من كوب Ember؟

    تقنية الأحد 12 أبريل 9:44 ص
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    اخر الأخبار

    المزيد

    مصطفى يونس: وليد صلاح الدين كان الأجدر بالحضور في جلسة استماع الفار

    الأحد 12 أبريل 10:20 م

    ليس غريبا في كرة القدم العالمية.. بيريرا يعلق على أزمة تسجيلات الفار في مصر

    الأحد 12 أبريل 10:15 م

    برج الحمل .. حظك اليوم الاثنين 13 أبريل 2026: إنجاز دفعة مالية

    الأحد 12 أبريل 10:03 م

    مأساة “النقاش” جلال.. إصابة خطيرة في العين وإهمال لساعات كاد يفقده بصره

    الأحد 12 أبريل 9:57 م

    الجيش الأمريكي: حصار مشدد على مواني إيران بدءا من صباح الاثنين

    الأحد 12 أبريل 9:51 م

    النشرة البريدية

    اشترك في النشرة البريدية ليصلك كل جديد على بريدك الإلكتروني مباشرة

    رائج هذا الأسبوع

    أيه يا حلوة.. مسلم يطرح أحدث أغانيه

    5 أفلام رعب مثيرة للجدل على الإطلاق، مصنفة: “وجوه الموت” و”طارد الأرواح الشريرة” والمزيد

    إيقاف إسلام عبد النعيم نجم كهربا الإسماعيلية 5 مباريات| اعرف السبب

    أوربان يعترف بالهزيمة بينما يحقق المجريون فوزا ساحقا في المجر

    عضو بالشيوخ: توجيهات الرئيس السيسي تعزز كفاءة الأسواق وتحقق التوازن بين الإنتاج والاستهلاك

    اعلانات
    Demo
    فيسبوك X (Twitter) الانستغرام يوتيوب تيلقرام
    2026 © نجمة الخليج. جميع حقوق النشر محفوظة.
    • من نحن
    • سياسة الخصوصية
    • اعلن معنا
    • اتصل بنا

    اكتب كلمة البحث ثم اضغط على زر Enter

    تسجيل الدخول أو التسجيل

    مرحبًا بعودتك!

    Login to your account below.

    نسيت كلمة المرور؟