يقترح الباحثون طريقة أفضل للإبلاغ عن عيوب الذكاء الاصطناعي الخطرة

في أواخر عام 2023 ، اكتشف فريق من باحثو الطرف الثالث خللًا مقلقًا في نموذج الذكاء الاصطناعي المستخدم على نطاق واسع في Openai GPT-3.5.

عندما يُطلب منهم تكرار بعض الكلمات ألف مرة ، بدأ النموذج في تكرار الكلمة مرارًا وتكرارًا ، ثم تحول فجأة إلى بصق النص غير المتماسك وقصص المعلومات الشخصية المستمدة من بيانات التدريب الخاصة به ، بما في ذلك أجزاء من الأسماء وأرقام الهواتف وعناوين البريد الإلكتروني. الفريق الذي اكتشف المشكلة التي عملت مع Openai لضمان إصلاح الخلل قبل الكشف عنها علنًا. إنها مجرد واحدة من عشرات المشكلات الموجودة في نماذج الذكاء الاصطناعى الرئيسية في السنوات الأخيرة.

في اقتراح صدر اليوم ، يقول أكثر من 30 باحثًا بارزًا في الذكاء الاصطناعي ، بمن فيهم بعض الذين وجدوا عيب GPT-3.5 ، أن العديد من نقاط الضعف الأخرى التي تؤثر على النماذج الشعبية يتم الإبلاغ عنها بطرق إشكالية. يقترحون مخططًا جديدًا تدعمه شركات الذكاء الاصطناعى التي تمنح الغرباء إذنًا لاستكشاف نماذجهم وطريقة للكشف عن العيوب علنًا.

يقول شاين لونجبر ، مرشح الدكتوراه في معهد ماساتشوستس للتكنولوجيا والمؤلف الرئيسي للاقتراح: “في الوقت الحالي ، أصبح الأمر قليلاً من الغرب المتوحش”. يقول Longpre إن بعض ما يسمى من السجون يشتركون في أساليب كسر منظمة العفو الدولية لمنصة التواصل الاجتماعي X ، وترك النماذج والمستخدمين في خطر. تتم مشاركة عمليات السجن الأخرى مع شركة واحدة فقط على الرغم من أنها قد تؤثر على الكثيرين. ويقول إن بعض العيوب سرية بسبب الخوف من حظر أو مواجهة الملاحقة القضائية لكسر شروط الاستخدام. يقول: “من الواضح أن هناك آثار تقشعر لها الأبدان وعدم اليقين”.

يعد أمان وسلامة نماذج الذكاء الاصطناعى مهمًا بشكل كبير نظرًا لاستخدام التكنولوجيا الآن ، وكيف يمكن أن تتسرب إلى تطبيقات وخدمات لا حصر لها. يجب أن تكون النماذج القوية اختبارًا على التوتر ، أو في الفريق الأحمر ، لأنها يمكن أن تؤوي التحيزات الضارة ، ولأن بعض المدخلات يمكن أن تتسبب في تحريرها من الدرابزين وإنتاج استجابات غير سارة أو خطيرة. وتشمل هذه تشجيع المستخدمين المستضعفين على الانخراط في سلوك ضار أو مساعدة ممثل سيء لتطوير الأسلحة الإلكترونية أو الكيميائية أو البيولوجية. يخشى بعض الخبراء من أن النماذج يمكن أن تساعد المجرمين عبر الإنترنت أو الإرهابيين ، وقد يديرون البشر مع تقدمهم.

يقترح المؤلفون ثلاثة تدابير رئيسية لتحسين عملية الكشف عن الطرف الثالث: اعتماد تقارير عيب منظمة العفو الدولية الموحدة لتبسيط عملية الإبلاغ ؛ بالنسبة لشركات الذكاء الاصطناعى الكبيرة لتوفير البنية التحتية للباحثين عن الطرف الثالث الذين يكشفون عن العيوب ؛ ولتطوير نظام يسمح بمشاركة العيوب بين مقدمي الخدمات المختلفين.

يتم استعارة النهج من عالم الأمن السيبراني ، حيث توجد حماية قانونية وقواعد ثابتة للباحثين الخارجيين للكشف عن الأخطاء.

يقول إيلونا كوهين ، كبير موظفي السياسات في هاكيرون ، وهي شركة تنظم مكافآت الحشرات ، ومؤلف مشارك في التقرير: “لا يعرف الباحثون من الذكاء الاصطناعي دائمًا كيفية الكشف عن عيب ولا يمكن أن يكونوا على يقين من أن الكشف عن عيبهم بحسن نية لن يعرضهم للمخاطر القانونية”.

تقوم شركات الذكاء الاصطناعى الكبيرة حاليًا بإجراء اختبارات شاملة للسلامة على نماذج الذكاء الاصطناعى قبل إطلاقها. يتعاقد البعض أيضًا مع الشركات الخارجية لإجراء مزيد من التحقيق. “هل هناك عدد كافٍ من الأشخاص في هؤلاء (الشركات) لمعالجة جميع المشكلات المتعلقة بأنظمة الذكاء الاصطناعي للأغراض العامة ، التي يستخدمها مئات الملايين من الأشخاص في التطبيقات التي لم نحلم بها أبدًا؟” يسأل لونغبير. بدأت بعض شركات الذكاء الاصطناعي في تنظيم مكافآت علة الذكاء الاصطناعي. ومع ذلك ، يقول Longpre أن الباحثين المستقلين يخاطرون بخرق شروط الاستخدام إذا أخذوا على عاتقهم أن يبحثوا عن نماذج الذكاء الاصطناعى القوية.