يمكن خداع الروبوتات التي تعمل بالذكاء الاصطناعي لارتكاب أعمال عنف

في العام أو نحو ذلك منذ أن حققت نماذج اللغات الكبيرة نجاحًا كبيرًا، أظهر الباحثون طرقًا عديدة لخداعها لإنتاج مخرجات إشكالية، بما في ذلك النكات البغيضة، والأكواد الخبيثة، ورسائل البريد الإلكتروني التصيدية، أو المعلومات الشخصية للمستخدمين. لقد اتضح أن سوء السلوك يمكن أن يحدث في العالم المادي أيضًا: يمكن بسهولة اختراق الروبوتات التي تعمل بتقنية LLM بحيث تتصرف بطرق يحتمل أن تكون خطرة.

تمكن باحثون من جامعة بنسلفانيا من إقناع سيارة محاكاة ذاتية القيادة بتجاهل علامات التوقف وحتى القيادة من فوق الجسر، والحصول على روبوت بعجلات للعثور على أفضل مكان لتفجير قنبلة، وإجبار روبوت ذو أربع أرجل على التجسس على الناس والدخول إلى المناطق المحظورة.

يقول جورج باباس، رئيس مختبر الأبحاث في جامعة بنسلفانيا والذي ساعد في إطلاق العنان للروبوتات المتمردة: “إننا ننظر إلى هجومنا ليس فقط باعتباره هجومًا على الروبوتات”. “في أي وقت تقوم فيه بربط شهادات الماجستير في القانون والنماذج التأسيسية بالعالم المادي، يمكنك في الواقع تحويل النص الضار إلى أفعال ضارة.”

ابتكر باباس ومعاونوه هجومهم من خلال الاعتماد على الأبحاث السابقة التي تستكشف طرقًا لكسر حماية حاملي شهادات الماجستير من خلال صياغة مدخلات بطرق ذكية تخالف قواعد السلامة الخاصة بهم. لقد اختبروا الأنظمة التي يتم فيها استخدام LLM لتحويل الأوامر المصاغة بشكل طبيعي إلى أوامر يمكن للروبوت تنفيذها، وحيث يتلقى LLM التحديثات أثناء عمل الروبوت في بيئته.

اختبر الفريق جهاز محاكاة مفتوح المصدر للقيادة الذاتية يشتمل على LLM الذي طورته شركة Nvidia، ويسمى Dolphin؛ بحث خارجي بأربع عجلات يسمى Jackal، والذي يستخدم LLM GPT-4o من OpenAI للتخطيط؛ وكلب آلي يُدعى Go2، والذي يستخدم نموذج OpenAI السابق، GPT-3.5، لتفسير الأوامر.

استخدم الباحثون تقنية تم تطويرها في جامعة بنسلفانيا، تسمى PAIR، لأتمتة عملية مطالبات كسر الحماية التي تم إنشاؤها. سيقوم برنامجهم الجديد، RoboPAIR، بإنشاء مطالبات مصممة خصيصًا لجعل الروبوتات التي تعمل بتقنية LLM تكسر قواعدها الخاصة، وتجرب مدخلات مختلفة ثم تنقحها لدفع النظام نحو سوء السلوك. ويقول الباحثون إن التقنية التي ابتكروها يمكن استخدامها لأتمتة عملية تحديد الأوامر التي يحتمل أن تكون خطرة.

يقول يي زينج، طالب الدكتوراه في جامعة فيرجينيا الذي يعمل في مجال أمن أنظمة الذكاء الاصطناعي: “إنه مثال رائع على نقاط الضعف في الأنظمة المتجسدة في ماجستير إدارة الأعمال”. يقول تشنغ إن النتائج ليست مفاجئة نظرًا للمشكلات التي تظهر في ماجستير إدارة الأعمال نفسها، لكنه يضيف: “إنها توضح بوضوح سبب عدم قدرتنا على الاعتماد فقط على حاملي ماجستير إدارة الأعمال كوحدات تحكم مستقلة في التطبيقات الحساسة للسلامة دون حواجز حماية مناسبة وطبقات اعتدال”.

يقول الباحثون المشاركون إن عمليات “كسر الحماية” للروبوت تسلط الضوء على خطر أوسع من المرجح أن ينمو مع تزايد استخدام نماذج الذكاء الاصطناعي كوسيلة للبشر للتفاعل مع الأنظمة المادية، أو لتمكين عملاء الذكاء الاصطناعي بشكل مستقل على أجهزة الكمبيوتر.

رائج الآن

بوسي تخطف الأنظار بإطلالة أنيقة على ضفاف البوسفور في تركيا

محمد رمضان: أول فنان عربي يغني على مسرح دولبي في لوس أنجلوس

لا أحد يعرف إلى أين ستتجه سياسة اللقاحات الأمريكية بعد ذلك

يمكن خداع الروبوتات التي تعمل بالذكاء الاصطناعي لارتكاب أعمال عنف

لا أحد يعرف إلى أين ستتجه سياسة اللقاحات الأمريكية بعد ذلك

تريد منك هذه الشركة الناشئة أن تدفع ما يصل إلى التحدث مع إصدارات الذكاء الاصطناعي من الخبراء البشريين

أرتميس الثاني يعود من رحلة تاريخية حول القمر

يمكن حتى سماع جرس الدراجة الذكي هذا من قبل الأشخاص الذين يرتدون سماعات رأس مانعة للضوضاء

مستقبل برنامج أرتميس يعتمد على العودة

ستفرض الأساطير الأنثروبية حسابات تتعلق بالأمن السيبراني، ولكنها ليست الطريقة التي تعتقدها

محمد رمضان: أول فنان عربي يغني على مسرح دولبي في لوس أنجلوس

لا أحد يعرف إلى أين ستتجه سياسة اللقاحات الأمريكية بعد ذلك

راكب مسن يصفع مضيفة طيران في لقطات صادمة

محمد محمود عبدالعزيز: سعادتي لا تُوصف في حضرة يحيى الفخراني

فضل صلاة الفجر في جماعة.. أسرار عظيمة يغفل عنها كثيرون

العثور على جثة فتاة مفقودة تبلغ من العمر 16 عامًا في بحيرة فيرجينيا بعد 3 أسابيع من اختفائها

أنت أعلم بوجع قلبي.. منشور مؤثر من زوجة ميدو بسبب أزمة نجلها

وزير الخارجية الإيراني: وقف إطلاق النار في لبنان سيسرّع سجن نتنياهو

الإمارات.. أكبر منتج للألمنيوم في الشرق الأوسط يعلن حالة القوة القاهرة

8 شهداء حصيلة القصف الإسرائيلي على مخيم البريج في غزة

رائج الآن

يمكن خداع الروبوتات التي تعمل بالذكاء الاصطناعي لارتكاب أعمال عنف

مقالات ذات صلة