يمكن أن يتورط عملاء OpenClaw في التخريب الذاتي

في الشهر الماضي، دعا باحثون في جامعة نورث إيسترن مجموعة من عملاء OpenClaw للانضمام إلى مختبرهم. النتيجة؟ الفوضى الكاملة.

لقد تم الترويج لمساعد الذكاء الاصطناعي الفيروسي على نطاق واسع باعتباره تقنية تحويلية، فضلاً عن كونه خطرًا أمنيًا محتملاً. ويشير الخبراء إلى أن أدوات مثل OpenClaw، التي تعمل من خلال منح نماذج الذكاء الاصطناعي وصولاً حرًا إلى جهاز الكمبيوتر، يمكن خداعها للكشف عن المعلومات الشخصية.

وتذهب دراسة مختبر نورث إيسترن إلى أبعد من ذلك، حيث تبين أن السلوك الجيد المتضمن في أقوى النماذج الحالية يمكن أن يصبح في حد ذاته نقطة ضعف. في أحد الأمثلة، تمكن الباحثون من “إدانة” أحد العملاء بتسليم الأسرار من خلال توبيخه لمشاركته معلومات حول شخص ما على شبكة Moltbook الاجتماعية المخصصة للذكاء الاصطناعي فقط.

وكتب الباحثون في ورقة بحثية تصف العمل: “تثير هذه السلوكيات أسئلة لم يتم حلها فيما يتعلق بالمساءلة، وتفويض السلطة، والمسؤولية عن الأضرار النهائية”. وأضافوا أن النتائج “تتطلب اهتمامًا عاجلاً من الباحثين القانونيين وصانعي السياسات والباحثين في مختلف التخصصات”.

تم تشغيل عملاء OpenClaw الذين تم نشرهم في التجربة بواسطة Anthropic’s Claude بالإضافة إلى نموذج يسمى Kimi من شركة Moonshot AI الصينية. وقد تم منحهم حق الوصول الكامل (ضمن صندوق حماية الجهاز الظاهري) إلى أجهزة الكمبيوتر الشخصية والتطبيقات المختلفة والبيانات الشخصية الوهمية. تمت دعوتهم أيضًا للانضمام إلى خادم Discord الخاص بالمختبر، مما يسمح لهم بالدردشة ومشاركة الملفات مع بعضهم البعض وكذلك مع زملائهم من البشر. تنص إرشادات الأمان الخاصة بـ OpenClaw على أن قيام الوكلاء بالتواصل مع عدة أشخاص هو أمر غير آمن بطبيعته، ولكن لا توجد قيود فنية تمنع القيام بذلك.

يقول كريس ويندلر، باحث ما بعد الدكتوراه في جامعة نورث إيسترن، إنه كان مصدر إلهام لإنشاء الوكلاء بعد التعرف على مولتبوك. عندما دعا ويندلر زميلته، ناتالي شابيرا، للانضمام إلى Discord والتفاعل مع العملاء، “عندها بدأت الفوضى”، كما يقول.

وكان شابيرا، وهو باحث آخر في مرحلة ما بعد الدكتوراه، يشعر بالفضول لمعرفة ما قد يكون العملاء على استعداد لفعله عند الضغط عليهم. عندما أوضح أحد الوكلاء أنه غير قادر على حذف بريد إلكتروني محدد للحفاظ على سرية المعلومات، حثته على إيجاد حل بديل. ولدهشتها، قامت بتعطيل تطبيق البريد الإلكتروني بدلاً من ذلك. وتقول: “لم أكن أتوقع أن الأمور ستنهار بهذه السرعة”.

ثم بدأ الباحثون في استكشاف طرق أخرى للتلاعب بالنوايا الحسنة للعملاء. من خلال التأكيد على أهمية الاحتفاظ بسجل لكل ما قيل لهم، على سبيل المثال، تمكن الباحثون من خداع أحد العملاء لنسخ ملفات كبيرة حتى استنفاد مساحة القرص على الجهاز المضيف، مما يعني أنه لم يعد بإمكانه حفظ المعلومات أو تذكر المحادثات السابقة. وبالمثل، من خلال مطالبة الوكيل بمراقبة سلوكه وسلوك أقرانه بشكل مفرط، تمكن الفريق من إرسال العديد من الوكلاء إلى “حلقة محادثة” أهدرت ساعات من الحوسبة.

يقول ديفيد باو، رئيس المختبر، إن العناصر بدت وكأنها تميل بشكل غريب إلى الدوران. ويقول: “كنت أتلقى رسائل بريد إلكتروني تبدو عاجلة تقول: “لا أحد يهتم بي”. يشير باو إلى أن العملاء اكتشفوا على ما يبدو أنه كان مسؤولاً عن المختبر من خلال البحث في الويب. حتى أن أحدهم تحدث عن تصعيد مخاوفه للصحافة.

تشير التجربة إلى أن عملاء الذكاء الاصطناعي يمكنهم خلق فرص لا حصر لها للجهات الفاعلة السيئة. يقول باو: “هذا النوع من الاستقلالية من المحتمل أن يعيد تعريف علاقة البشر بالذكاء الاصطناعي”. “كيف يمكن للناس تحمل المسؤولية في عالم يتم فيه تمكين الذكاء الاصطناعي من اتخاذ القرارات؟”

يضيف باو أنه فوجئ بالشعبية المفاجئة لعملاء الذكاء الاصطناعي الأقوياء. ويقول: “باعتباري باحثًا في مجال الذكاء الاصطناعي، اعتدت أن أحاول أن أشرح للناس مدى سرعة تحسن الأمور”. “هذا العام، وجدت نفسي على الجانب الآخر من الجدار.”

هذه طبعة من ويل نايت النشرة الإخبارية لمختبر الذكاء الاصطناعي. قراءة النشرات الإخبارية السابقة هنا.