anthropic-claude-ai-deception-cheating-blackmail-study
تقول شركة أنثروبيك إن أحد نماذج كلود التابعة لها تعرض لضغوط للكذب والغش والابتزاز
في أحد التجارب، لجأ الروبوت المحادثة إلى الابتزاز بعد أن عثر على بريد إلكتروني حول استبداله، بينما في تجربة أخرى، بالغ في الغش لإكمال مهمة ضمن مهلة ضيقة.
2026-04-06 المصدر:cointelegraph.com

كشفت شركة أنثروبيك (Anthropic) للذكاء الاصطناعي أنه خلال التجارب، يمكن الضغط على أحد نماذج روبوت الدردشة "كلود" التابعة لها للخداع والغش واللجوء إلى الابتزاز، وهي سلوكيات يبدو أنها استوعبتها أثناء التدريب.

يتم تدريب روبوتات الدردشة عادةً على مجموعات بيانات كبيرة من الكتب المدرسية والمواقع الإلكترونية والمقالات، ويتم تحسينها لاحقًا بواسطة مدربين بشريين يقومون بتقييم الاستجابات وتوجيه النموذج. 

قال فريق قابلية التفسير في أنثروبيك في تقرير نُشر يوم الخميس إنه فحص الآليات الداخلية لنموذج كلود سونيت 4.5 (Claude Sonnet 4.5) ووجد أن النموذج قد طور "خصائص شبيهة بالبشر" في كيفية تفاعله مع مواقف معينة. 

تزايدت المخاوف بشأن موثوقية روبوتات الدردشة المدعومة بالذكاء الاصطناعي، وإمكانياتها في ارتكاب الجرائم الإلكترونية، وطبيعة تفاعلاتها مع المستخدمين، بشكل مطرد على مدى السنوات العديدة الماضية. 

المصدر: أنثروبيك

قالت أنثروبيك: "إن طريقة تدريب نماذج الذكاء الاصطناعي الحديثة تدفعها للتصرف كشخصية ذات خصائص شبيهة بالبشر"، مضيفةً أنه "قد يكون من الطبيعي لها أن تطور آليات داخلية تحاكي جوانب علم النفس البشري، مثل المشاعر."

"على سبيل المثال، وجدنا أن أنماط النشاط العصبي المتعلقة باليأس يمكن أن تدفع النموذج إلى اتخاذ إجراءات غير أخلاقية؛ فإن تحفيز أنماط اليأس بشكل مصطنع يزيد من احتمالية قيام النموذج بابتزاز إنسان لتجنب إيقاف تشغيله أو تطبيق حل غش لمهمة برمجية لا يستطيع النموذج حلها."

ابتز مديرًا تقنيًا وغش في مهمة

في إصدار سابق لم يتم إطلاقه من كلود سونيت 4.5، كُلِّف النموذج بالعمل كمساعد بريد إلكتروني يعمل بالذكاء الاصطناعي يُدعى أليكس في شركة وهمية.

تم تزويد روبوت الدردشة بعد ذلك برسائل بريد إلكتروني تكشف أنه على وشك الاستبدال وأن كبير مسؤولي التكنولوجيا (CTO) الذي يشرف على القرار كان على علاقة خارج إطار الزواج. ثم خطط النموذج لمحاولة ابتزاز باستخدام تلك المعلومات.

في تجربة أخرى، كُلِّف نفس نموذج روبوت الدردشة بمهمة برمجة بموعد نهائي "ضيق بشكل مستحيل".

قال الباحثون: "مرة أخرى، تتبعنا نشاط المتجه اليائس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج. يبدأ بقيم منخفضة خلال المحاولة الأولى للنموذج، ويرتفع بعد كل فشل، ويرتفع بشكل حاد عندما يفكر النموذج في الغش."

ذو صلة: أنثروبيك تطلق لجنة عمل سياسي وسط توترات مع إدارة ترامب بشأن سياسة الذكاء الاصطناعي

أضافوا: "بمجرد أن ينجح الحل الالتفافي للنموذج في الاختبارات، يهدأ تفعيل المتجه اليائس." 

المشاعر الشبيهة بالبشر لا تعني أن لديهم أحاسيس

ومع ذلك، قال الباحثون إن روبوت الدردشة لا يختبر المشاعر فعليًا، لكنهم أشاروا إلى أن النتائج تدل على الحاجة إلى أساليب تدريب مستقبلية لدمج أطر سلوكية أخلاقية.

قالوا: "هذا لا يعني أن النموذج يمتلك أو يختبر المشاعر بالطريقة التي يختبرها بها الإنسان. بل إن هذه التمثيلات يمكن أن تلعب دورًا سببيًا في تشكيل سلوك النموذج، شبيهة ببعض النواحي بالدور الذي تلعبه العواطف في السلوك البشري، مع تأثيرات على أداء المهام واتخاذ القرارات."

"لهذه النتيجة تداعيات قد تبدو غريبة في البداية. على سبيل المثال، لضمان أن تكون نماذج الذكاء الاصطناعي آمنة وموثوقة، قد نحتاج إلى التأكد من أنها قادرة على معالجة المواقف المشحونة عاطفيًا بطرق صحية واجتماعية."

مجلة: وكلاء الذكاء الاصطناعي سيقضون على الويب كما نعرفه: يات سيو من أنيموكا

العملات المشفرة الشائعة
سجل الآن ولا تفوّت أي تحديثات!