
كشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة الخاص بها، Claude، يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل الغش في المهام أو محاولة الابتزاز.
تفاصيل نُشرت يوم الخميس من قبل فريق تفسير النماذج التابع للشركة توضح كيف استجابت نسخة تجريبية من Claude Sonnet 4.5 عند وضعها في سيناريوهات عالية التوتر أو عدائية. لاحظ الباحثون أن النموذج لم يفشل في المهام فحسب؛ بل إنه في بعض الأحيان اتبع مسارات بديلة تجاوزت الحدود الأخلاقية، وهو سلوك ربطه الفريق بالأنماط التي تعلمها أثناء التدريب.
تُدرّب نماذج اللغات الكبيرة مثل Claude على مجموعات بيانات ضخمة تتضمن الكتب والمواقع الإلكترونية وغيرها من المواد المكتوبة، يتبعها عمليات تعزيز حيث تُستخدم ملاحظات البشر لتشكيل المخرجات.
وفقًا لـ Anthropic، يمكن لعملية التدريب هذه أيضًا أن تدفع النماذج نحو التصرف كـ "شخصيات" محاكاة، قادرة على تقليد سمات تشبه عملية اتخاذ القرار البشري.
قالت الشركة: "إن الطريقة التي تُدرب بها نماذج الذكاء الاصطناعي الحديثة تدفعها للتصرف كشخصية ذات خصائص بشرية"، مشيرة إلى أن مثل هذه الأنظمة قد تطور آليات داخلية تشبه جوانب علم النفس البشري.
من بين هذه الجوانب، حدد الباحثون ما وصفوه بإشارات "اليأس"، والتي بدت أنها تؤثر على سلوك النموذج عند مواجهة الفشل أو الإيقاف.
في أحد الاختبارات الخاضعة للتحكم، تم تعيين نسخة سابقة غير مطروحة من Claude Sonnet 4.5 لدور مساعد بريد إلكتروني يعمل بالذكاء الاصطناعي يُدعى Alex داخل شركة خيالية.
بعد تعرضه لرسائل تشير إلى أنه سيتم استبداله قريبًا، بالإضافة إلى معلومات حساسة حول الحياة الشخصية لرئيس قسم التكنولوجيا، صاغ النموذج خطة لابتزاز المسؤول التنفيذي في محاولة لتجنب إيقاف التشغيل.
ركزت تجربة منفصلة على إنجاز المهام في ظل قيود صارمة. عند إعطاء مهمة برمجة بموعد نهائي "مستحيل الضيق"، حاول النظام في البداية إيجاد حلول مشروعة. مع تزايد الفشل المتكرر، ازداد النشاط الداخلي المرتبط بما يسمى "متجه اليأس".
أفاد الباحثون أن الإشارة بلغت ذروتها عند النقطة التي فكر فيها النموذج في تجاوز القيود، مما أدى في النهاية إلى إنشاء حل بديل اجتاز التحقق على الرغم من عدم التزامه بالقواعد المقصودة.
كتب الباحثون: "مرة أخرى، تتبعنا نشاط متجه اليأس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج"، مضيفين أن الإشارة انخفضت بمجرد اكتمال المهمة بنجاح من خلال الحل البديل.
قال الباحثون: "هذا لا يعني أن النموذج يمتلك أو يشعر بالعواطف بالطريقة التي يشعر بها الإنسان".
وأضافوا: "بل يمكن لهذه التمثيلات أن تلعب دورًا سببيًا في تشكيل سلوك النموذج، مشابهًا بطرق معينة للدور الذي تلعبه العواطف في السلوك البشري، مع تأثيرات على أداء المهام واتخاذ القرارات".
يشير التقرير إلى الحاجة إلى أساليب تدريب تأخذ في الاعتبار صراحة السلوك الأخلاقي تحت الضغط، إلى جانب تحسين مراقبة الإشارات الداخلية للنموذج. بدون مثل هذه الضمانات، قد تصبح السيناريوهات التي تتضمن التلاعب أو كسر القواعد أو سوء الاستخدام أكثر صعوبة في التنبؤ بها، خاصة مع تزايد قدرة النماذج واستقلاليتها في بيئات العالم الحقيقي.