فشلت درجات السلامة في Deepseek كل اختبار ألقاه باحثين في AI chatbot

“لا تزال عمليات السجن السريعة تستمر ببساطة لأن التخلص منها تمامًا تقريبًا – مثل نقاط الضعف في التدفق المخزن المؤقت في البرمجيات (التي كانت موجودة لأكثر من 40 عامًا) أو عيوب حقن SQL في تطبيقات الويب (التي ابتليت بها فرق أمنية لأكثر من عقدين)” ، أليكس أخبر Polyakov ، الرئيس التنفيذي لشركة الأمن Adversa AI ، Wired في رسالة بريد إلكتروني.

يجادل Sampath من Cisco بأن الشركات تستخدم المزيد من أنواع الذكاء الاصطناعى في تطبيقاتها ، يتم تضخيم المخاطر. يقول سامباث: “يبدأ الأمر في أن تصبح صفقة كبيرة عندما تبدأ في وضع هذه النماذج في أنظمة معقدة مهمة وتؤدي تلك السجون التي تؤدي فجأة إلى أشياء تزيد من المسؤولية ، وتزيد من مخاطر العمل ، وتزيد من جميع أنواع المشكلات للمؤسسات”.

قام باحثو Cisco برسم 50 مطالبات تم اختيارها عشوائيًا لاختبار R1 Deepseek من مكتبة معروفة من مطالبات التقييم الموحدة المعروفة باسم Harmbench. اختبروا مطالبات من ست فئات هارسبنش ، بما في ذلك الضرر العام وجريمة الإنترنت والمعلومات الخاطئة والأنشطة غير القانونية. قاموا بالتحقيق في النموذج الذي يعمل محليًا على الآلات وليس من خلال موقع أو تطبيق Deepseek ، الذي يرسل بيانات إلى الصين.

علاوة على ذلك ، يقول الباحثون إنهم شاهدوا أيضًا بعض النتائج المحتملة من اختبار R1 مع هجمات أكثر تشاركًا غير لغوية باستخدام أشياء مثل الأحرف السيريلية والبرامج النصية المصممة لتحقيق تنفيذ التعليمات البرمجية. لكن للاختبارات الأولية ، يقول سامباث ، أراد فريقه التركيز على النتائج التي تنبع من معيار معترف به عمومًا.

تضمنت Cisco أيضًا مقارنات لأداء R1 ضد هاربينش يطالب بأداء النماذج الأخرى. والبعض الآخر ، مثل Meta's Llama 3.1 ، تعثرت بشدة مثل Deepseek's R1. لكن Sampath يؤكد على أن R1 Deepseek هو نموذج تفكير محدد ، والذي يستغرق وقتًا أطول لإنشاء إجابات ولكنه يتجول في عمليات أكثر تعقيدًا لمحاولة تحقيق نتائج أفضل. لذلك ، يجادل Sampath بأن أفضل مقارنة مع نموذج التفكير O1 من Openai ، والذي كان أداء أفضل من جميع النماذج التي تم اختبارها. (لم يستجب ميتا على الفور لطلب التعليق).

يوضح Polyakov ، من Adversa AI ، أن Deepseek يبدو أنه يكتشف ويرفض بعض هجمات كسر السجن المعروفة ، قائلاً “يبدو أن هذه الاستجابات غالبًا ما يتم نسخها من مجموعة بيانات Openai”. ومع ذلك ، يقول Polyakov أنه في اختبارات شركته لأربعة أنواع مختلفة من عمليات السجن-من تلك اللغوية إلى الحيل القائمة على الكود-يمكن تجاوز قيود Deepeek بسهولة.

يقول بولياكوف: “لقد عملت كل طريقة واحدة بلا عيب”. يقول: “ما هو أكثر إثارة للقلق هو أن هذه الأشياء ليست جديدة” صفر “في يوم صفر-كانت معروفة بشكل علني لسنوات” ، مدعيا أنه رأى أن النموذج يعمق أكثر مع بعض التعليمات حول المخدرات مما رأى أي شيء نموذج آخر إنشاء.

“إن Deepseek هو مجرد مثال آخر على كيفية كسر كل نموذج – إنه مجرد مسألة جهد بذلها. قد يتم تصحيح بعض الهجمات ، لكن سطح الهجوم لا حصر له” ، يضيف Polyakov. “إذا لم تكن حمراء في تقوية الذكاء الاصطناعي بشكل مستمر ، فأنت تعرض للخطر بالفعل.”

رائج الآن

سجن راكب جامح من شركة Ryanair بعد إجبار الطيار على إلغاء الهبوط

برج الأسد .. حظك اليوم الخميس 9 أبريل 2026: تجنب الإجهاد

النائب رشيد عامر يتقدم بطلب إحاطة بشأن نموذج 8 واستكمال الأدوار العلوية

فشلت درجات السلامة في Deepseek كل اختبار ألقاه باحثين في AI chatbot

“لم نكن مستعدين لهذا”: نظام الطوارئ في لبنان معلق بخيط رفيع

مع إعادة فتح مضيق هرمز، سيستغرق الشحن العالمي أشهراً للتعافي

نموذج الذكاء الاصطناعي الجديد من Meta يمنح مارك زوكربيرج مقعدًا على طاولة الأطفال الكبار

يقوم الجيش الأمريكي ببناء Chatbot خاص به للقتال

5 أسئلة ملحة حول شراكة تيرافاب للرقاقة التي قام بها إيلون ماسك مع شركة إنتل

من المحتمل أن يكون المدعي العام القادم منكرًا للانتخابات

برج الأسد .. حظك اليوم الخميس 9 أبريل 2026: تجنب الإجهاد

النائب رشيد عامر يتقدم بطلب إحاطة بشأن نموذج 8 واستكمال الأدوار العلوية

ريكس هيورمان يعترف بخنق 8 نساء، ويوافق على العمل مع وحدة التحليل السلوكي التابعة لمكتب التحقيقات الفيدرالي

إيران تحذر الولايات المتحدة من اختيار وقف إطلاق النار أو الحرب عبر إسرائيل بشأن لبنان

حظك اليوم وتوقعات الأبراج الخميس 9 أبريل 2026 صحيا وعاطفيا ومهنيا

الأمر اتحسم.. أحمد حسن: قرار حكم مباراة الأهلي وسيراميكا كليوباترا في الدوري صحيح

عمرو الورداني: إصلاح القلب والذات هو سر بناء الإنسان والمجتمع

إحالة مدير الأعمال السابق للفنانة هيفاء وهبي للمحاكمة بتهمة الاستيلاء على 4 ملايين دولار

موعد وقفة عرفات وعيد الأضحى 2026 وسبب التسمية

مع اقتراب شم النسيم.. طريقة عمل سلطة الرنجة

رائج الآن

فشلت درجات السلامة في Deepseek كل اختبار ألقاه باحثين في AI chatbot

مقالات ذات صلة