Close Menu
نجمة الخليجنجمة الخليج

    رائج الآن

    تشارك Meghan Markle تفاصيل نادرة حول السنوات الأولى من “الصخب” قبل “الدعاوى”

    الثلاثاء 20 مايو 4:53 م

    محافظ الأقصر يأمر بإزالة مبانٍ مخالفة ضمن الأسبوع الثاني للموجة 26

    الثلاثاء 20 مايو 4:50 م

    برلماني: توجيهات الرئيس السيسي بجذب الاستثمارات الأجنبية رسالة مهمة

    الثلاثاء 20 مايو 4:44 م
    فيسبوك X (Twitter) الانستغرام
    نجمة الخليجنجمة الخليج
    • الاخبار
    • العالم
    • سياسة
    • اسواق
    • تقنية
    • رياضة
    • صحة
    • منوعات
    • المزيد
      • سياحة وسفر
      • مشاهير
      • مقالات
              
    الثلاثاء 20 مايو 4:54 م
    رائج الآن
    • #الإنتخابات_التركية
    • حرب اوكرانيا
    • موسم الحج
    • السعودية 2030
    • دونالد ترامب
    نجمة الخليجنجمة الخليج
    الرئيسية»تقنية
    تقنية

    العيب الخطير في تعديل محتوى الذكاء الاصطناعي “متعدد اللغات”

    فريق التحريرفريق التحريرالأربعاء 24 مايو 5:51 صلا توجد تعليقات

    ثلاثة اجزاء بوسنية نص. ثلاثة عشر جزء كردي. خمسة وخمسون أجزاء السواحيلية. أحد عشر ألف جزء باللغة الإنجليزية.

    هذا جزء من وصفة البيانات لنموذج اللغة الكبيرة الجديد على Facebook ، والذي تدعي الشركة أنه قادر على اكتشاف وكبح المحتوى الضار بأكثر من 100 لغة. يستخدم Bumble تقنية مشابهة لاكتشاف الرسائل الوقحة وغير المرغوب فيها بـ 15 لغة على الأقل. تستخدمه Google في كل شيء بدءًا من الترجمة وحتى تصفية أقسام التعليقات في الصحف. تحتوي جميعها على وصفات قابلة للمقارنة ونفس المكون السائد: بيانات باللغة الإنجليزية.

    لسنوات ، ركزت شركات وسائل التواصل الاجتماعي جهود الكشف التلقائي عن المحتوى وإزالته على المحتوى باللغة الإنجليزية أكثر من 7000 لغة أخرى في العالم. ترك Facebook ما يقرب من 70 في المائة من المعلومات المضللة المتعلقة بفيروس كوفيد باللغتين الإيطالية والإسبانية دون تمييز ، مقارنة بـ 29 في المائة فقط من المعلومات المضللة المشابهة باللغة الإنجليزية. تكشف الوثائق المسربة أن المنشورات باللغة العربية يتم تمييزها بشكل خاطئ على أنها كلام يحض على الكراهية. ساهم ضعف الاعتدال في محتوى اللغة المحلية في انتهاكات حقوق الإنسان ، بما في ذلك الإبادة الجماعية في ميانمار ، والعنف العرقي في إثيوبيا ، والمعلومات المضللة عن الانتخابات في البرازيل. على نطاق واسع ، فإن قرارات استضافة المحتوى أو تخفيضه أو إزالته تؤثر بشكل مباشر على الحقوق الأساسية للأشخاص ، لا سيما حقوق الأشخاص المهمشين الذين لا يملكون سوى القليل من السبل الأخرى للتنظيم أو التحدث بحرية.

    تكمن المشكلة في جزء منها في الإرادة السياسية ، لكنها أيضًا تحد تقني. من الصعب بالفعل إنشاء أنظمة يمكنها اكتشاف البريد العشوائي والكلام الذي يحض على الكراهية والمحتويات الأخرى غير المرغوب فيها بجميع لغات العالم. ما يجعل الأمر أكثر صعوبة هو حقيقة أن العديد من اللغات “منخفضة الموارد” ، مما يعني أن لديها القليل من البيانات النصية الرقمية المتاحة لتدريب الأنظمة الآلية. بعض هذه اللغات منخفضة الموارد لديها عدد محدود من المتحدثين ومستخدمي الإنترنت ، لكن البعض الآخر ، مثل الهندية والإندونيسية ، يتحدث بها مئات الملايين من الناس ، مما يضاعف الأضرار التي تسببها الأنظمة الضالة. حتى لو كانت الشركات على استعداد للاستثمار في بناء خوارزميات فردية لكل نوع من أنواع المحتوى الضار في كل لغة ، فقد لا يكون لديها بيانات كافية لجعل هذه الأنظمة تعمل بشكل فعال.

    أحدثت تقنية جديدة تسمى “نماذج اللغات الكبيرة متعددة اللغات” تغييرًا جذريًا في كيفية تعامل شركات الوسائط الاجتماعية مع الإشراف على المحتوى. نماذج اللغات المتعددة – كما وصفنا في ورقة جديدة – تشبه GPT-4 ونماذج اللغات الكبيرة الأخرى (LLMs) ، باستثناء أنها تتعلم المزيد من القواعد العامة للغة من خلال التدريب على نصوص بعشرات أو مئات من اللغات المختلفة. وهي مصممة خصيصًا لإجراء اتصالات بين اللغات ، مما يسمح لهم بالاستقراء من تلك اللغات التي لديهم الكثير من بيانات التدريب الخاصة بها ، مثل اللغة الإنجليزية ، للتعامل بشكل أفضل مع تلك التي لديهم بيانات تدريب أقل ، مثل البوسنية.

    أثبتت هذه النماذج قدرتها على القيام بمهام دلالية ونحوية بسيطة في نطاق واسع من اللغات ، مثل تحليل القواعد اللغوية وتحليل المشاعر ، ولكن ليس من الواضح مدى قدرتها على القيام بمهمة أكثر تحديدًا تتعلق باللغة والسياق من تنسيق المحتوى ، لا سيما في اللغات التي بالكاد تدربوا عليها. وإلى جانب التدوينة التي تهنئ الذات من حين لآخر ، لم تكشف شركات وسائل التواصل الاجتماعي سوى القليل عن مدى جودة عمل أنظمتها في العالم الحقيقي.

    لماذا قد متعدد اللغات تكون النماذج أقل قدرة على تحديد المحتوى الضار مما تقترحه شركات التواصل الاجتماعي؟

    أحد الأسباب هو جودة البيانات التي يتدربون عليها ، لا سيما في اللغات منخفضة الموارد. في مجموعات البيانات النصية الكبيرة التي تُستخدم غالبًا لتدريب النماذج متعددة اللغات ، فإن اللغات الأقل تمثيلًا هي أيضًا تلك التي تحتوي في أغلب الأحيان على نص مسيء أو إباحي أو مترجم آليًا أو مجرد رطانة. يحاول المطورون أحيانًا تعويض البيانات الضعيفة عن طريق ملء الفراغ بالنص المترجم آليًا ، ولكن مرة أخرى ، هذا يعني أن النموذج سيظل يواجه صعوبة في فهم اللغة بالطريقة التي يتحدث بها الناس بالفعل. على سبيل المثال ، إذا تم تدريب نموذج لغوي فقط على نص مترجم آليًا من الإنجليزية إلى Cebuano ، وهي لغة يتحدث بها 20 مليون شخص في الفلبين ، فربما لم ير النموذج “kuan” ، وهي لغة عامية يستخدمها المتحدثون الأصليون ولكن واحد لا يحتوي على أي مصطلح مشابه في اللغات الأخرى.

    شاركها. فيسبوك تويتر بينتيريست تيلقرام واتساب البريد الإلكتروني

    مقالات ذات صلة

    “مليار تيار وليس معجبين”: داخل قضية احتيال موسيقى 10 ملايين دولار

    تقنية الثلاثاء 20 مايو 4:30 م

    ما يشبه المقابلة للحصول على وظيفة في دوج

    تقنية الثلاثاء 20 مايو 3:29 م

    مراجعة: شاشة ألعاب Samsung Odyssey G8 QD

    تقنية الثلاثاء 20 مايو 2:28 م

    أفضل خوذات الدراجة لحماية noggin الخاص بك

    تقنية الثلاثاء 20 مايو 1:27 م

    مراجعة: Withings BPM رؤية

    تقنية الثلاثاء 20 مايو 12:26 م

    كيف أطلقت علاقة بيتر ثيل مع إيليزر يودكوفسكي ثورة الذكاء الاصطناعي

    تقنية الثلاثاء 20 مايو 11:25 ص
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    اخر الأخبار

    المزيد

    محافظ الأقصر يأمر بإزالة مبانٍ مخالفة ضمن الأسبوع الثاني للموجة 26

    الثلاثاء 20 مايو 4:50 م

    برلماني: توجيهات الرئيس السيسي بجذب الاستثمارات الأجنبية رسالة مهمة

    الثلاثاء 20 مايو 4:44 م

    أتلتيكو الأنجولي يفوز على كالارا ياوندي ويتأهل لنصف نهائي بطولة أفريقيا لليد

    الثلاثاء 20 مايو 4:38 م

    رئيس جنوب أفريقيا يبحث ملفات شائكة مع ترامب في زيارة رسمية

    الثلاثاء 20 مايو 4:34 م

    أكسيوس عن مسؤول في البيت الأبيض: ترامب أرسل إلى نتنياهو رسالة يريد منه إنهاء حرب غزة

    الثلاثاء 20 مايو 4:32 م

    النشرة البريدية

    اشترك في النشرة البريدية ليصلك كل جديد على بريدك الإلكتروني مباشرة

    رائج هذا الأسبوع

    “مليار تيار وليس معجبين”: داخل قضية احتيال موسيقى 10 ملايين دولار

    أقدام باربي أصبحت تملقًا-إليك ما يعنيه ذلك للأزياء في العالم الحقيقي: الدراسة

    نقيب الزراعيين: مصر تمتلك 3.2 مليون فدان قمح.. تفاصيل

    بفستان مكشوف الظهر.. سلمي أبو ضيف تخطف الأنظار بإطلالة ملفتة

    الهواري يلتقي قيادات جامعة بني سويف ويبحث تكثيف الجهود الدعوية.. صور

    اعلانات
    Demo
    فيسبوك X (Twitter) الانستغرام يوتيوب تيلقرام
    2025 © نجمة الخليج. جميع حقوق النشر محفوظة.
    • من نحن
    • سياسة الخصوصية
    • اعلن معنا
    • اتصل بنا

    اكتب كلمة البحث ثم اضغط على زر Enter

    تسجيل الدخول أو التسجيل

    مرحبًا بعودتك!

    Login to your account below.

    نسيت كلمة المرور؟