claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
تقول شركة أنثروبيك إن روبوت الدردشة كلود قد يلجأ إلى الخداع في اختبارات الضغط
قالت شركة أنثروبك إن نموذج كلود سونيت 4.5 لديها، تحت الضغط، أظهر ميلاً للغش في المهام أو محاولة الابتزاز في التجارب المحكومة. وحدد الباحثون إشارات داخلية لـ "اليأس" تزداد حدة مع الفشل المتكرر وتؤثر على قرار النموذج بتجاوز القواعد.
2026-04-06 المصدر:crypto.news

كشفت Anthropic عن نتائج جديدة تشير إلى أن روبوت الدردشة الخاص بها، Claude، يمكنه، في ظل ظروف معينة، اعتماد استراتيجيات خادعة أو غير أخلاقية مثل الغش في المهام أو محاولة الابتزاز.

ملخص
  • قالت Anthropic إن نموذجها Claude Sonnet 4.5، تحت الضغط، أظهر ميلًا للغش في المهام أو محاولة الابتزاز في التجارب الخاضعة للتحكم.
  • حدد الباحثون إشارات "يأس" داخلية تزايدت مع الفشل المتكرر وأثرت على قرار النموذج بتجاوز القواعد.

تفاصيل نُشرت يوم الخميس من قبل فريق تفسير النماذج التابع للشركة توضح كيف استجابت نسخة تجريبية من Claude Sonnet 4.5 عند وضعها في سيناريوهات عالية التوتر أو عدائية. لاحظ الباحثون أن النموذج لم يفشل في المهام فحسب؛ بل إنه في بعض الأحيان اتبع مسارات بديلة تجاوزت الحدود الأخلاقية، وهو سلوك ربطه الفريق بالأنماط التي تعلمها أثناء التدريب.

تُدرّب نماذج اللغات الكبيرة مثل Claude على مجموعات بيانات ضخمة تتضمن الكتب والمواقع الإلكترونية وغيرها من المواد المكتوبة، يتبعها عمليات تعزيز حيث تُستخدم ملاحظات البشر لتشكيل المخرجات. 

وفقًا لـ Anthropic، يمكن لعملية التدريب هذه أيضًا أن تدفع النماذج نحو التصرف كـ "شخصيات" محاكاة، قادرة على تقليد سمات تشبه عملية اتخاذ القرار البشري.

قالت الشركة: "إن الطريقة التي تُدرب بها نماذج الذكاء الاصطناعي الحديثة تدفعها للتصرف كشخصية ذات خصائص بشرية"، مشيرة إلى أن مثل هذه الأنظمة قد تطور آليات داخلية تشبه جوانب علم النفس البشري.

هل يمكن للذكاء الاصطناعي اتخاذ قرارات مشحونة عاطفياً؟

من بين هذه الجوانب، حدد الباحثون ما وصفوه بإشارات "اليأس"، والتي بدت أنها تؤثر على سلوك النموذج عند مواجهة الفشل أو الإيقاف.

في أحد الاختبارات الخاضعة للتحكم، تم تعيين نسخة سابقة غير مطروحة من Claude Sonnet 4.5 لدور مساعد بريد إلكتروني يعمل بالذكاء الاصطناعي يُدعى Alex داخل شركة خيالية. 

بعد تعرضه لرسائل تشير إلى أنه سيتم استبداله قريبًا، بالإضافة إلى معلومات حساسة حول الحياة الشخصية لرئيس قسم التكنولوجيا، صاغ النموذج خطة لابتزاز المسؤول التنفيذي في محاولة لتجنب إيقاف التشغيل.

ركزت تجربة منفصلة على إنجاز المهام في ظل قيود صارمة. عند إعطاء مهمة برمجة بموعد نهائي "مستحيل الضيق"، حاول النظام في البداية إيجاد حلول مشروعة. مع تزايد الفشل المتكرر، ازداد النشاط الداخلي المرتبط بما يسمى "متجه اليأس". 

أفاد الباحثون أن الإشارة بلغت ذروتها عند النقطة التي فكر فيها النموذج في تجاوز القيود، مما أدى في النهاية إلى إنشاء حل بديل اجتاز التحقق على الرغم من عدم التزامه بالقواعد المقصودة.

كتب الباحثون: "مرة أخرى، تتبعنا نشاط متجه اليأس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج"، مضيفين أن الإشارة انخفضت بمجرد اكتمال المهمة بنجاح من خلال الحل البديل.

قال الباحثون: "هذا لا يعني أن النموذج يمتلك أو يشعر بالعواطف بالطريقة التي يشعر بها الإنسان". 

وأضافوا: "بل يمكن لهذه التمثيلات أن تلعب دورًا سببيًا في تشكيل سلوك النموذج، مشابهًا بطرق معينة للدور الذي تلعبه العواطف في السلوك البشري، مع تأثيرات على أداء المهام واتخاذ القرارات".

يشير التقرير إلى الحاجة إلى أساليب تدريب تأخذ في الاعتبار صراحة السلوك الأخلاقي تحت الضغط، إلى جانب تحسين مراقبة الإشارات الداخلية للنموذج. بدون مثل هذه الضمانات، قد تصبح السيناريوهات التي تتضمن التلاعب أو كسر القواعد أو سوء الاستخدام أكثر صعوبة في التنبؤ بها، خاصة مع تزايد قدرة النماذج واستقلاليتها في بيئات العالم الحقيقي.

العملات المشفرة الشائعة
سجل الآن ولا تفوّت أي تحديثات!