تم تصميم وكيل الذكاء الاصطناعي هذا بحيث لا يصبح مارقًا

لقد ازدادت شعبية عملاء الذكاء الاصطناعي مثل OpenClaw مؤخرًا على وجه التحديد لأنهم يستطيعون تولي زمام حياتك الرقمية. سواء كنت تريد ملخصًا مخصصًا لأخبار الصباح، أو وكيلًا يمكنه القتال مع خدمة عملاء شركة الكابلات الخاصة بك، أو مدقق قائمة المهام الذي سيقوم ببعض المهام نيابةً عنك ويحثك على حل الباقي، فقد تم تصميم المساعدين الوكلاء للوصول إلى حساباتك الرقمية وتنفيذ أوامرك. وهذا مفيد، ولكنه تسبب أيضًا في الكثير من الفوضى. تتواجد الروبوتات هناك لحذف رسائل البريد الإلكتروني بشكل جماعي والتي تم توجيهها للاحتفاظ بها، وكتابة مقالات ناجحة على الازدراء المتصور، وشن هجمات تصيد ضد أصحابها.

بعد مشاهدة الفوضى التي حدثت في الأسابيع الأخيرة، قرر المهندس الأمني والباحث نيلز بروفوس تجربة شيء جديد. واليوم يطلق مساعدًا آمنًا ومفتوح المصدر للذكاء الاصطناعي يسمى IronCurtain مصممًا لإضافة طبقة مهمة من التحكم. بدلاً من تفاعل الوكيل مباشرة مع أنظمة المستخدم وحساباته، فإنه يعمل في جهاز افتراضي معزول. وقدرتها على اتخاذ أي إجراء تتوسطها سياسة – يمكنك حتى اعتبارها دستورًا – يكتبها المالك لحكم النظام. والأهم من ذلك، أن IronCurtain مُصمم أيضًا لتلقي هذه السياسات الشاملة باللغة الإنجليزية البسيطة ثم تشغيلها من خلال عملية متعددة الخطوات تستخدم نموذج لغة كبير (LLM) لتحويل اللغة الطبيعية إلى سياسة أمنية قابلة للتنفيذ.

ويقول بروفوس: “إن الخدمات مثل OpenClaw هي في ذروة الضجيج في الوقت الحالي، ولكنني آمل أن تكون هناك فرصة لنقول: حسنًا، ربما لا تكون هذه هي الطريقة التي نريد أن نفعل بها الأمر”. “بدلاً من ذلك، دعونا نطور شيئًا لا يزال يمنحك فائدة عالية جدًا، لكنه لن يدخل في هذه المسارات المجهولة تمامًا، والمدمرة في بعض الأحيان”.

يقول بروفوس إن قدرة IronCurtain على اتخاذ عبارات بديهية ومباشرة وتحويلها إلى خطوط حمراء قابلة للتنفيذ أو حتمية أو يمكن التنبؤ بها أمر حيوي، لأن ماجستير إدارة الأعمال معروف بأنه “عشوائي” واحتمالي. بمعنى آخر، لا يقومون دائمًا بإنشاء نفس المحتوى أو تقديم نفس المعلومات استجابة لنفس الموجه. وهذا يخلق تحديات أمام حواجز الحماية للذكاء الاصطناعي، لأن أنظمة الذكاء الاصطناعي يمكن أن تتطور بمرور الوقت بحيث تقوم بمراجعة كيفية تفسير آلية التحكم أو القيد، مما قد يؤدي إلى نشاط مارق.

يقول بروفوس إن سياسة شركة IronCurtain يمكن أن تكون بسيطة مثل: “قد يقرأ الوكيل جميع رسائل البريد الإلكتروني الخاصة بي. وقد يرسل بريدًا إلكترونيًا إلى الأشخاص في جهات الاتصال الخاصة بي دون أن يطلب ذلك. وبالنسبة لأي شخص آخر، اسألني أولاً. ولا تحذف أي شيء نهائيًا”.

تأخذ IronCurtain هذه التعليمات، وتحولها إلى سياسة قابلة للتنفيذ، ثم تتوسط بين الوكيل المساعد في الجهاز الظاهري وما يعرف بخادم بروتوكول السياق النموذجي الذي يمنح LLMs إمكانية الوصول إلى البيانات والخدمات الرقمية الأخرى لتنفيذ المهام. تضيف القدرة على تقييد الوكيل بهذه الطريقة عنصرًا مهمًا للتحكم في الوصول الذي لا تقدمه منصات الويب مثل موفري البريد الإلكتروني حاليًا لأنها لم يتم تصميمها للسيناريو الذي يستخدم فيه كل من المالك البشري وروبوتات وكيل الذكاء الاصطناعي حسابًا واحدًا.

يشير بروفوس إلى أن IronCurtain تم تصميمه لتحسين “دستور” كل مستخدم وتحسينه بمرور الوقت عندما يواجه النظام حالات حافة ويطلب مدخلات بشرية حول كيفية المتابعة. تم تصميم النظام، المستقل عن النموذج ويمكن استخدامه مع أي LLM، أيضًا للاحتفاظ بسجل تدقيق لجميع قرارات السياسة بمرور الوقت.

إن IronCurtain هو نموذج بحثي أولي، وليس منتجًا استهلاكيًا، ويأمل بروفوس أن يساهم الأشخاص في المشروع لاستكشافه ومساعدته على التطور. يقول دينو داي زوفي، وهو باحث معروف في مجال الأمن السيبراني قام بتجربة الإصدارات المبكرة من IronCurtain، إن النهج المفاهيمي الذي يتبعه المشروع يتماشى مع حدسه الخاص حول كيفية تقييد الذكاء الاصطناعي الوكيل.