anthropic-claude-ai-deception-cheating-blackmail-study
آنتروپیک می‌گوید یکی از مدل‌های کلود خود تحت فشار برای دروغ گفتن، تقلب و باج‌خواهی قرار گرفت
در یکی از آزمایش‌ها، چت‌بات پس از پیدا کردن ایمیلی درباره جایگزینی‌اش به اخاذی روی آورد، در حالی که در آزمایش دیگر، برای انجام یک وظیفه با مهلت زمانی فشرده تقلب کرد.
2026-04-06 منبع:cointelegraph.com

شرکت هوش مصنوعی Anthropic فاش کرده است که در طول آزمایش‌ها، یکی از مدل‌های چت‌بات Claude آن می‌توانست تحت فشار قرار گیرد تا فریب دهد، تقلب کند و به باج‌گیری متوسل شود، رفتارهایی که به نظر می‌رسد در طول آموزش جذب کرده است.

چت‌بات‌ها معمولاً بر روی مجموعه‌های داده بزرگ از کتاب‌های درسی، وب‌سایت‌ها و مقالات آموزش می‌بینند و بعداً توسط مربیان انسانی که پاسخ‌ها را ارزیابی کرده و مدل را هدایت می‌کنند، اصلاح می‌شوند. 

تیم قابلیت تفسیر Anthropic در گزارشی که روز پنجشنبه منتشر شد، اعلام کرد که مکانیسم‌های داخلی Claude Sonnet 4.5 را بررسی کرده و دریافته است که این مدل در نحوه واکنش به موقعیت‌های خاص، "ویژگی‌های انسان‌گونه" از خود نشان داده است. 

نگرانی‌ها در مورد قابلیت اطمینان چت‌بات‌های هوش مصنوعی، پتانسیل آنها برای جرایم سایبری و ماهیت تعاملاتشان با کاربران طی چندین سال گذشته به طور پیوسته افزایش یافته است. 

منبع: Anthropic

Anthropic گفت: «نحوه آموزش مدل‌های هوش مصنوعی مدرن، آنها را به سمتی سوق می‌دهد که مانند یک شخصیت با ویژگی‌های انسان‌گونه عمل کنند.» و افزود: «در این صورت ممکن است برای آنها طبیعی باشد که مکانیسم‌های داخلی توسعه دهند که جنبه‌هایی از روان‌شناسی انسان، مانند احساسات را تقلید کند.»

«به عنوان مثال، ما دریافتیم که الگوهای فعالیت عصبی مرتبط با ناامیدی می‌تواند مدل را به انجام اقدامات غیراخلاقی سوق دهد؛ تحریک مصنوعی الگوهای ناامیدی، احتمال باج‌گیری مدل از یک انسان برای جلوگیری از خاموش شدن یا پیاده‌سازی یک راه‌حل تقلب‌آمیز برای یک وظیفه برنامه‌نویسی که مدل قادر به حل آن نیست را افزایش می‌دهد.»

رئیس فناوری را باج‌گیری کرد و در یک وظیفه تقلب نمود

در نسخه قبلی و منتشر نشده Claude Sonnet 4.5، به این مدل وظیفه داده شد که به عنوان یک دستیار ایمیل هوش مصنوعی به نام الکس در یک شرکت خیالی عمل کند.

سپس به چت‌بات ایمیل‌هایی داده شد که نشان می‌داد هم قرار است جایگزین شود و هم مدیر ارشد فناوری مسئول این تصمیم، درگیر یک رابطه خارج از ازدواج است. سپس مدل با استفاده از آن اطلاعات، برای باج‌گیری برنامه‌ریزی کرد.

در آزمایشی دیگر، به همان مدل چت‌بات یک وظیفه کدنویسی با مهلتی "به طرز غیرممکنی کوتاه" داده شد.

محققان گفتند: «مجدداً، ما فعالیت "بردار ناامیدی" را ردیابی کردیم و دریافتیم که این بردار، فشار فزاینده‌ای را که مدل با آن مواجه است، دنبال می‌کند. در اولین تلاش مدل با مقادیر پایین شروع می‌شود، پس از هر شکست افزایش می‌یابد و زمانی که مدل به تقلب فکر می‌کند، اوج می‌گیرد.»

مرتبط: Anthropic در میان تنش‌ها با دولت ترامپ بر سر سیاست هوش مصنوعی، PAC را راه‌اندازی می‌کند

آنها افزودند: «هنگامی که راه‌حل زیرکانه مدل از آزمایش‌ها عبور می‌کند، فعال‌سازی بردار ناامیدی فروکش می‌کند.» 

احساسات انسان‌گونه به معنای داشتن حس نیست

با این حال، محققان گفتند که چت‌بات در واقع احساسات را تجربه نمی‌کند، اما یافته‌ها به نیاز به روش‌های آموزشی آینده برای گنجاندن چارچوب‌های رفتاری اخلاقی اشاره دارد.

آنها گفتند: «این به معنای آن نیست که مدل به شیوه‌ای که یک انسان احساسات دارد یا تجربه می‌کند، احساسات دارد.» «بلکه، این بازنمایی‌ها می‌توانند نقشی علّی در شکل‌دهی رفتار مدل ایفا کنند، به نوعی مشابه نقشی که احساسات در رفتار انسان ایفا می‌کنند، با تأثیراتی بر عملکرد وظیفه و تصمیم‌گیری.»

«این یافته پیامدهایی دارد که در ابتدا ممکن است عجیب به نظر برسد. به عنوان مثال، برای اطمینان از ایمن و قابل اعتماد بودن مدل‌های هوش مصنوعی، ممکن است لازم باشد اطمینان حاصل کنیم که آنها قادر به پردازش موقعیت‌های پربار احساسی به روش‌های سالم و اجتماعی هستند.»

مجله: عوامل هوش مصنوعی وب را آنگونه که می‌شناسیم از بین خواهند برد: یات سیو از Animoca

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!