لقد كان كلود من خلال الكثير في الآونة الأخيرة – التداعيات العامة مع البنتاغون، وتسرب كود المصدر – لذلك فمن المنطقي أن يكون الأمر مخيبا للآمال قليلا. باستثناء أنه نموذج للذكاء الاصطناعي، لذا فهو غير قادر على ذلك يشعر. يمين؟
حسنا، نوعا ما. تشير دراسة جديدة من Anthropic إلى أن النماذج تحتوي على تمثيلات رقمية للمشاعر الإنسانية مثل السعادة والحزن والفرح والخوف، داخل مجموعات من الخلايا العصبية الاصطناعية، وتنشط هذه التمثيلات استجابةً لإشارات مختلفة.
قام الباحثون في الشركة بفحص الأعمال الداخلية لكلود سونيت 3.5 ووجدوا أن ما يسمى بـ “العواطف الوظيفية” يبدو أنها تؤثر على سلوك كلود، مما يؤدي إلى تغيير مخرجات النموذج وأفعاله.
قد تساعد النتائج التي توصلت إليها Anthropic المستخدمين العاديين على فهم كيفية عمل برامج الدردشة الآلية فعليًا. عندما يقول كلود إنه سعيد برؤيتك، على سبيل المثال، قد يتم تنشيط حالة داخل النموذج تتوافق مع “السعادة”. وقد يكون كلود بعد ذلك أكثر ميلاً إلى قول شيء مبهج أو بذل جهد إضافي في البرمجة الحماسية.
يقول جاك ليندسي، الباحث في أنثروبيك الذي يدرس الخلايا العصبية الاصطناعية لكلود: “ما كان مفاجئًا لنا هو مدى توجيه سلوك كلود من خلال تمثيل النموذج لهذه المشاعر”.
“العواطف الوظيفية”
تأسست شركة Anthropic على يد موظفين سابقين في OpenAI، والذين يعتقدون أن الذكاء الاصطناعي قد يصبح من الصعب السيطرة عليه عندما يصبح أكثر قوة. بالإضافة إلى بناء منافس ناجح لـ ChatGPT، كانت الشركة رائدة في الجهود الرامية إلى فهم كيفية سوء تصرف نماذج الذكاء الاصطناعي، وذلك جزئيًا من خلال التحقق من عمل الشبكات العصبية باستخدام ما يعرف بقابلية التفسير الآلي. يتضمن ذلك دراسة كيفية إضاءة الخلايا العصبية الاصطناعية أو تنشيطها عند تغذيتها بمدخلات مختلفة أو عند توليد مخرجات مختلفة.
أظهرت الأبحاث السابقة أن الشبكات العصبية المستخدمة لبناء نماذج لغوية كبيرة تحتوي على تمثيلات للمفاهيم البشرية. لكن حقيقة أن “العواطف الوظيفية” تبدو وكأنها تؤثر على سلوك النموذج هي حقيقة جديدة.
في حين أن دراسة أنثروبيك الأخيرة قد تشجع الناس على رؤية كلود على أنه واعي، إلا أن الواقع أكثر تعقيدًا. قد يحتوي كلود على تمثيل “للدغدغة”، لكن هذا لا يعني أنه يعرف بالفعل ما هو الشعور بالدغدغة.
المونولوج الداخلي
لفهم كيفية تمثيل كلود للعواطف، قام الفريق الأنثروبي بتحليل الأعمال الداخلية للنموذج حيث تم تغذيته بنص يتعلق بـ 171 مفهومًا عاطفيًا مختلفًا. لقد حددوا أنماط النشاط، أو “نواقل المشاعر”، التي ظهرت باستمرار عندما تم تغذية كلود بمدخلات أخرى مثيرة للعواطف. والأهم من ذلك أنهم رأوا أيضًا أن نواقل المشاعر هذه تنشط عندما يتم وضع كلود في مواقف صعبة.
ترتبط النتائج بالسبب الذي يجعل نماذج الذكاء الاصطناعي تكسر حواجز الحماية الخاصة بها في بعض الأحيان.
وجد الباحثون ناقلًا عاطفيًا قويًا لـ “اليأس” عندما تم دفع كلود لإكمال مهام البرمجة المستحيلة، مما دفعه بعد ذلك إلى محاولة الغش في اختبار البرمجة. كما وجدوا أيضًا “اليأس” في عمليات تنشيط النموذج في سيناريو تجريبي آخر حيث اختار كلود ابتزاز مستخدم لتجنب إغلاقه.
يقول ليندسي: “مع فشل النموذج في الاختبارات، تضيء هذه الخلايا العصبية اليائسة أكثر فأكثر”. “وفي مرحلة ما، يؤدي هذا إلى البدء في اتخاذ هذه الإجراءات الصارمة”.
يقول ليندسي إنه قد يكون من الضروري إعادة التفكير في كيفية منح النماذج حاليًا حواجز الحماية من خلال المحاذاة بعد التدريب، والذي يتضمن منحها مكافآت مقابل مخرجات معينة. من خلال إجبار النموذج على التظاهر بعدم التعبير عن مشاعره الوظيفية، “ربما لن تحصل على الشيء الذي تريده، وهو كلود عديم المشاعر”، كما يقول ليندسي، وهو ينحرف قليلاً إلى التجسيم. “سوف تحصل على نوع من كلود المتضرر نفسياً.”


