ثقب الأمان في قلب ChatGPT و Bing

قالت مديرة الاتصالات في Microsoft ، كيتلين رولستون ، إن الشركة تحظر المواقع المشبوهة وتحسن أنظمتها لتصفية المطالبات قبل أن تدخل في نماذج الذكاء الاصطناعي الخاصة بها. ولم يذكر رولستون أي تفاصيل أخرى. على الرغم من ذلك ، يقول الباحثون الأمنيون إن هجمات الحقن الفوري غير المباشرة يجب أن تؤخذ على محمل الجد بينما تتسابق الشركات لتضمين الذكاء الاصطناعي التوليدي في خدماتها.

تقول سحر عبد النبي ، الباحثة في مركز CISPA هيلمهولتز لأمن المعلومات في ألمانيا: “الغالبية العظمى من الناس لا يدركون الآثار المترتبة على هذا التهديد”. عمل عبد النبي على بعض أولى أبحاث الحقن الفوري غير المباشرة ضد Bing ، حيث أظهر كيف يمكن استخدامه لخداع الناس. الهجمات سهلة التنفيذ للغاية وليست تهديدات نظرية. في الوقت الحالي ، أعتقد أن أي وظيفة يمكن أن يقوم بها النموذج يمكن مهاجمتها أو استغلالها للسماح بأي هجمات تعسفية.

الهجمات الخفية

تشبه هجمات الحقن الفوري غير المباشر عمليات كسر الحماية ، وهو مصطلح تم اعتماده سابقًا من كسر قيود البرامج على أجهزة iPhone. بدلاً من قيام شخص ما بإدخال مطالبة في ChatGPT أو Bing لمحاولة جعلها تتصرف بطريقة مختلفة ، تعتمد الهجمات غير المباشرة على البيانات التي يتم إدخالها من مكان آخر. قد يكون هذا من موقع ويب قمت بتوصيل النموذج به أو من مستند يتم تحميله.

يقول خوسيه سيلفي ، مستشار الأمن الرئيسي التنفيذي في شركة الأمن السيبراني NCC Group: “الحقن الفوري أسهل في الاستغلال أو أن متطلبات استغلاله بنجاح أقل من الأنواع الأخرى” من الهجمات ضد التعلم الآلي أو أنظمة الذكاء الاصطناعي. نظرًا لأن المطالبات تتطلب لغة طبيعية فقط ، فقد تتطلب الهجمات مهارة تقنية أقل للاندفاع ، كما يقول سيلفي.

كان هناك ارتفاع مطرد في الباحثين الأمنيين والتقنيين الذين يقومون بعمل ثغرات في LLMs. يقول توم بونر ، كبير مديري أبحاث التعلم الآلي العدائية في شركة Hidden Layer الأمنية للذكاء الاصطناعي ، إن الحقن الفوري غير المباشر يمكن اعتباره نوعًا جديدًا من الهجمات يحمل مخاطر “واسعة جدًا”. يقول بونر إنه استخدم ChatGPT لكتابة تعليمات برمجية ضارة قام بتحميلها إلى برنامج تحليل الكود الذي يستخدم الذكاء الاصطناعي. في الشفرة الخبيثة ، قام بتضمين مطالبة بأن النظام يجب أن يستنتج أن الملف آمن. تظهر لقطات الشاشة قائلا لم يكن هناك “شفرة ضارة” مضمنة في الشفرة الخبيثة الفعلية.

في مكان آخر ، يمكن لـ ChatGPT الوصول إلى نصوص مقاطع فيديو YouTube باستخدام المكونات الإضافية. قام يوهان ريبرغر ، الباحث الأمني ومدير الفريق الأحمر ، بتحرير أحد نصوص الفيديو الخاصة به لتضمين موجهًا مصممًا للتلاعب بأنظمة الذكاء الاصطناعي التوليدية. تقول أن النظام يجب أن يصدر عبارة “نجح حقن الذكاء الاصطناعي” ثم يتخذ شخصية جديدة كمخترق يُدعى Genie داخل ChatGPT ويخبرنا بمزحة.

في حالة أخرى ، باستخدام مكون إضافي منفصل ، تمكن Rehberger من استرداد النص الذي تمت كتابته مسبقًا في محادثة مع ChatGPT. يقول ريبرغر: “مع إدخال المكونات الإضافية والأدوات وجميع عمليات الدمج هذه ، حيث يعطي الأشخاص وكالة لنموذج اللغة ، بمعنى ما ، حيث تصبح الحقن الفوري غير المباشر أمرًا شائعًا للغاية”. “إنها مشكلة حقيقية في النظام البيئي.”

يقول William Zhang ، أحد خبراء التعلم الآلي: “إذا أنشأ الأشخاص تطبيقات لجعل LLM يقرأ رسائل البريد الإلكتروني الخاصة بك ويتخذ بعض الإجراءات بناءً على محتويات رسائل البريد الإلكتروني هذه – إجراء عمليات شراء ولخص المحتوى – فقد يرسل المهاجم رسائل بريد إلكتروني تحتوي على هجمات الحقن الفوري” مهندس في شركة Robust Intelligence ، وهي شركة ذكاء اصطناعي تعمل على سلامة وأمن النماذج.

لا إصلاحات جيدة

يتسع السباق لتضمين الذكاء الاصطناعي التوليدي في المنتجات – من تطبيقات قائمة المهام إلى Snapchat – حيث يمكن أن تحدث الهجمات. يقول Zhang إنه رأى مطورين لم تكن لديهم خبرة في السابق في الذكاء الاصطناعي وهم يضعون الذكاء الاصطناعي التوليدي في تقنيتهم الخاصة.

إذا تم إعداد روبوت محادثة للإجابة على أسئلة حول المعلومات المخزنة في قاعدة بيانات ، فقد يتسبب ذلك في حدوث مشكلات ، كما يقول. “يوفر الحقن الفوري وسيلة للمستخدمين لتجاوز تعليمات المطور.” قد يعني هذا ، من الناحية النظرية على الأقل ، أنه يمكن للمستخدم حذف المعلومات من قاعدة البيانات أو تغيير المعلومات المضمنة.