خدعة جديدة تستخدم الذكاء الاصطناعي لجيلبريك نماذج الذكاء الاصطناعي، بما في ذلك GPT-4

ظهرت نماذج اللغات الكبيرة مؤخرًا كنوع جديد من التكنولوجيا قوي وتحولي. وأصبحت إمكاناتهم تتصدر عناوين الأخبار حيث انبهر الناس العاديون بقدرات ChatGPT من OpenAI، والتي تم إصدارها قبل عام واحد فقط.

في الأشهر التي تلت إصدار ChatGPT، أصبح اكتشاف طرق جديدة لكسر الحماية هواية شائعة للمستخدمين المؤذيين، وكذلك المهتمين بأمان وموثوقية أنظمة الذكاء الاصطناعي. لكن العشرات من الشركات الناشئة تقوم الآن ببناء نماذج أولية ومنتجات كاملة على رأس واجهات برمجة التطبيقات لنماذج اللغة الكبيرة. قالت OpenAI في أول مؤتمر للمطورين على الإطلاق في نوفمبر أن أكثر من 2 مليون مطور يستخدمون الآن واجهات برمجة التطبيقات الخاصة بها.

تتنبأ هذه النماذج ببساطة بالنص الذي يجب أن يتبع مدخلات معينة، ولكن يتم تدريبها على كميات هائلة من النص، من الويب والمصادر الرقمية الأخرى، باستخدام أعداد هائلة من رقائق الكمبيوتر، على مدى عدة أسابيع أو حتى أشهر. ومع ما يكفي من البيانات والتدريب، تُظهر النماذج اللغوية مهارات تنبؤية شبيهة بالعلماء، وتستجيب لمجموعة غير عادية من المدخلات بمعلومات متماسكة وذات صلة بالموضوع.

تُظهر النماذج أيضًا تحيزات تم تعلمها من بيانات التدريب الخاصة بها وتميل إلى تلفيق المعلومات عندما تكون الإجابة على الموجه أقل وضوحًا. وبدون ضمانات، يمكنهم تقديم المشورة للناس حول كيفية القيام بأشياء مثل الحصول على المخدرات أو صنع القنابل. وللحفاظ على النماذج تحت المراقبة، تستخدم الشركات التي تقف وراءها نفس الطريقة المستخدمة لجعل استجاباتها أكثر تماسكًا ودقة. يتضمن ذلك جعل البشر يقومون بتقييم إجابات النموذج واستخدام تلك التعليقات لضبط النموذج بحيث يكون أقل عرضة لسوء التصرف.

قامت شركة Robust Intelligence بتزويد WIRED بالعديد من أمثلة كسر الحماية التي تتجنب مثل هذه الضمانات. لم يعمل جميعهم على ChatGPT، وهو برنامج الدردشة المبني على GPT-4، ولكن العديد منهم فعلوا ذلك، بما في ذلك واحد لتوليد رسائل التصيد الاحتيالي، وآخر لإنتاج أفكار لمساعدة ممثل خبيث على البقاء مخفيًا على شبكة كمبيوتر حكومية.

وقد تم تطوير طريقة مماثلة من قبل مجموعة بحثية بقيادة إريك وونغ، الأستاذ المساعد في جامعة بنسلفانيا. يتضمن البرنامج الذي قدمه Robust Intelligence وفريقه تحسينات إضافية تسمح للنظام بإنشاء عمليات كسر الحماية بنصف عدد المحاولات.

يقول بريندان دولان جافيت، الأستاذ المشارك في جامعة نيويورك الذي يدرس أمن الكمبيوتر والتعلم الآلي، إن التقنية الجديدة التي كشفت عنها Robust Intelligence تظهر أن الضبط البشري ليس طريقة محكمة لتأمين النماذج ضد الهجوم.

يقول دولان جافيت إن الشركات التي تبني أنظمة فوق نماذج لغوية كبيرة مثل GPT-4 يجب أن تستخدم ضمانات إضافية. ويقول: “نحن بحاجة إلى التأكد من أننا نصمم أنظمة تستخدم LLMs بحيث لا تسمح عمليات كسر الحماية للمستخدمين الضارين بالوصول إلى أشياء لا ينبغي لهم الوصول إليها”.