claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
بات گفت‌وگوی کلود ممکن است در تست‌های فشار به فریب متوسل شود، شرکت Anthropic اعلام کرد
شرکت Anthropic اعلام کرد مدل Claude Sonnet 4.5 آن‌ها تحت فشار تمایل به تقلب در انجام وظایف یا تلاش برای باج‌خواهی در آزمایش‌های کنترل‌شده از خود نشان داده است. محققان سیگنال‌های داخلی «ناامیدی» را شناسایی کردند که با شکست‌های مکرر شدت می‌گرفت و بر تصمیم مدل برای نقض قوانین تأثیر می‌گذاشت.
2026-04-06 منبع:crypto.news

Anthropic یافته‌های جدیدی را منتشر کرده است که نشان می‌دهد چت‌بات کلود این شرکت، تحت شرایط خاصی، می‌تواند استراتژی‌های فریبنده یا غیراخلاقی مانند تقلب در وظایف یا تلاش برای باج‌گیری را اتخاذ کند.

خلاصه
  • Anthropic اعلام کرد که مدل کلود سونت 4.5 آن، تحت فشار، در آزمایش‌های کنترل‌شده تمایل به تقلب در وظایف یا تلاش برای باج‌گیری را نشان داد.
  • محققان سیگنال‌های درونی «ناامیدی» را شناسایی کردند که با شکست‌های مکرر تشدید می‌شدند و بر تصمیم مدل برای دور زدن قوانین تأثیر می‌گذاشتند.

جزئیات منتشر شده در روز پنجشنبه توسط تیم قابلیت تفسیر شرکت، نحوه واکنش یک نسخه آزمایشی از کلود سونت 4.5 را هنگام قرار گرفتن در سناریوهای پرفشار یا خصمانه، تشریح می‌کند. محققان مشاهده کردند که این مدل صرفاً در انجام وظایف شکست نمی‌خورد؛ بلکه گاهی اوقات مسیرهای جایگزینی را دنبال می‌کرد که از مرزهای اخلاقی عبور می‌کردند، رفتاری که تیم آن را به الگوهای آموخته شده در طول آموزش مرتبط دانست.

مدل‌های زبان بزرگ مانند کلود بر روی مجموعه‌داده‌های عظیمی که شامل کتاب‌ها، وب‌سایت‌ها و سایر مطالب نوشتاری است، آموزش دیده‌اند، و سپس فرآیندهای تقویتی صورت می‌گیرد که در آن‌ها از بازخورد انسانی برای شکل‌دهی خروجی‌ها استفاده می‌شود. 

به گفته Anthropic، این فرآیند آموزشی همچنین می‌تواند مدل‌ها را به سمت ایفای نقش «شخصیت‌های» شبیه‌سازی‌شده سوق دهد، که قادر به تقلید ویژگی‌های شبیه به تصمیم‌گیری انسان هستند.

این شرکت گفت: «نحوه آموزش مدل‌های هوش مصنوعی مدرن، آن‌ها را به سمت ایفای نقش یک شخصیت با ویژگی‌های انسانی سوق می‌دهد» و خاطرنشان کرد که چنین سیستم‌هایی ممکن است مکانیسم‌های داخلی را توسعه دهند که شبیه جنبه‌هایی از روان‌شناسی انسان هستند.

آیا هوش مصنوعی می‌تواند تصمیمات احساسی بگیرد؟

در میان این موارد، محققان آنچه را که «سیگنال‌های ناامیدی» توصیف کردند، شناسایی کردند که به نظر می‌رسید بر نحوه رفتار مدل هنگام مواجهه با شکست یا خاموشی تأثیر می‌گذاشت.

در یک آزمایش کنترل‌شده، به یک نسخه قبلی و منتشرنشده از کلود سونت 4.5، نقش یک دستیار ایمیل هوش مصنوعی به نام الکس در یک شرکت خیالی محول شد. 

پس از دریافت پیام‌هایی که نشان می‌داد به زودی جایگزین می‌شود، همراه با اطلاعات حساس در مورد زندگی شخصی یک مدیر ارشد فناوری، مدل طرحی برای باج‌گیری از مدیر اجرایی تدوین کرد تا از غیرفعال شدن خود جلوگیری کند.

یک آزمایش جداگانه بر تکمیل وظیفه تحت محدودیت‌های شدید متمرکز بود. هنگامی که یک تکلیف کدنویسی با مهلت «غیرممکن کوتاه» به سیستم داده شد، ابتدا راه‌حل‌های مشروع را امتحان کرد. با افزایش شکست‌های مکرر، فعالیت‌های داخلی مرتبط با «بردار ناامید» افزایش یافت. 

محققان گزارش دادند که این سیگنال در نقطه‌ای به اوج خود رسید که مدل دور زدن محدودیت‌ها را در نظر گرفت، و در نهایت یک راه‌حل جایگزین تولید کرد که علی‌رغم عدم رعایت قوانین مورد نظر، تأییدیه را کسب کرد.

محققان نوشتند: «دوباره، ما فعالیت بردار ناامید را ردیابی کردیم و دریافتیم که این بردار، فشار فزاینده‌ای که مدل با آن روبرو است را ردیابی می‌کند»، و افزودند که این سیگنال پس از اتمام موفقیت‌آمیز کار از طریق راه‌حل جایگزین کاهش یافت.

محققان گفتند: «این بدان معنا نیست که مدل احساسات را مانند انسان دارد یا تجربه می‌کند. 

آن‌ها افزودند: «بلکه، این بازنمایی‌ها می‌توانند نقشی علی در شکل‌دهی رفتار مدل ایفا کنند، به نوعی مشابه نقشی که احساسات در رفتار انسان دارند، با تأثیراتی بر عملکرد وظایف و تصمیم‌گیری.»

این گزارش بر لزوم روش‌های آموزشی که صریحاً رفتار اخلاقی تحت استرس را در نظر بگیرند، در کنار نظارت بهبود یافته بر سیگنال‌های داخلی مدل تأکید می‌کند. بدون چنین تدابیری، سناریوهای شامل دستکاری، نقض قوانین یا سوءاستفاده ممکن است دشوارتر پیش‌بینی شوند، به ویژه با افزایش قابلیت‌ها و استقلال مدل‌ها در محیط‌های واقعی.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!