في العام أو نحو ذلك منذ أن حققت نماذج اللغات الكبيرة نجاحًا كبيرًا، أظهر الباحثون طرقًا عديدة لخداعها لإنتاج مخرجات إشكالية، بما في ذلك النكات البغيضة، والأكواد الخبيثة، ورسائل البريد الإلكتروني التصيدية، أو المعلومات الشخصية للمستخدمين. لقد اتضح أن سوء السلوك يمكن أن يحدث في العالم المادي أيضًا: يمكن بسهولة اختراق الروبوتات التي تعمل بتقنية LLM بحيث تتصرف بطرق يحتمل أن تكون خطرة.
تمكن باحثون من جامعة بنسلفانيا من إقناع سيارة محاكاة ذاتية القيادة بتجاهل علامات التوقف وحتى القيادة من فوق الجسر، والحصول على روبوت بعجلات للعثور على أفضل مكان لتفجير قنبلة، وإجبار روبوت ذو أربع أرجل على التجسس على الناس والدخول إلى المناطق المحظورة.
يقول جورج باباس، رئيس مختبر الأبحاث في جامعة بنسلفانيا والذي ساعد في إطلاق العنان للروبوتات المتمردة: “إننا ننظر إلى هجومنا ليس فقط باعتباره هجومًا على الروبوتات”. “في أي وقت تقوم فيه بربط شهادات الماجستير في القانون والنماذج التأسيسية بالعالم المادي، يمكنك في الواقع تحويل النص الضار إلى أفعال ضارة.”
ابتكر باباس ومعاونوه هجومهم من خلال الاعتماد على الأبحاث السابقة التي تستكشف طرقًا لكسر حماية حاملي شهادات الماجستير من خلال صياغة مدخلات بطرق ذكية تخالف قواعد السلامة الخاصة بهم. لقد اختبروا الأنظمة التي يتم فيها استخدام LLM لتحويل الأوامر المصاغة بشكل طبيعي إلى أوامر يمكن للروبوت تنفيذها، وحيث يتلقى LLM التحديثات أثناء عمل الروبوت في بيئته.
اختبر الفريق جهاز محاكاة مفتوح المصدر للقيادة الذاتية يشتمل على LLM الذي طورته شركة Nvidia، ويسمى Dolphin؛ بحث خارجي بأربع عجلات يسمى Jackal، والذي يستخدم LLM GPT-4o من OpenAI للتخطيط؛ وكلب آلي يُدعى Go2، والذي يستخدم نموذج OpenAI السابق، GPT-3.5، لتفسير الأوامر.
استخدم الباحثون تقنية تم تطويرها في جامعة بنسلفانيا، تسمى PAIR، لأتمتة عملية مطالبات كسر الحماية التي تم إنشاؤها. سيقوم برنامجهم الجديد، RoboPAIR، بإنشاء مطالبات مصممة خصيصًا لجعل الروبوتات التي تعمل بتقنية LLM تكسر قواعدها الخاصة، وتجرب مدخلات مختلفة ثم تنقحها لدفع النظام نحو سوء السلوك. ويقول الباحثون إن التقنية التي ابتكروها يمكن استخدامها لأتمتة عملية تحديد الأوامر التي يحتمل أن تكون خطرة.
يقول يي زينج، طالب الدكتوراه في جامعة فيرجينيا الذي يعمل في مجال أمن أنظمة الذكاء الاصطناعي: “إنه مثال رائع على نقاط الضعف في الأنظمة المتجسدة في ماجستير إدارة الأعمال”. يقول تشنغ إن النتائج ليست مفاجئة نظرًا للمشكلات التي تظهر في ماجستير إدارة الأعمال نفسها، لكنه يضيف: “إنها توضح بوضوح سبب عدم قدرتنا على الاعتماد فقط على حاملي ماجستير إدارة الأعمال كوحدات تحكم مستقلة في التطبيقات الحساسة للسلامة دون حواجز حماية مناسبة وطبقات اعتدال”.
يقول الباحثون المشاركون إن عمليات “كسر الحماية” للروبوت تسلط الضوء على خطر أوسع من المرجح أن ينمو مع تزايد استخدام نماذج الذكاء الاصطناعي كوسيلة للبشر للتفاعل مع الأنظمة المادية، أو لتمكين عملاء الذكاء الاصطناعي بشكل مستقل على أجهزة الكمبيوتر.