
Anthropic یافتههای جدیدی را منتشر کرده است که نشان میدهد چتبات کلود این شرکت، تحت شرایط خاصی، میتواند استراتژیهای فریبنده یا غیراخلاقی مانند تقلب در وظایف یا تلاش برای باجگیری را اتخاذ کند.
جزئیات منتشر شده در روز پنجشنبه توسط تیم قابلیت تفسیر شرکت، نحوه واکنش یک نسخه آزمایشی از کلود سونت 4.5 را هنگام قرار گرفتن در سناریوهای پرفشار یا خصمانه، تشریح میکند. محققان مشاهده کردند که این مدل صرفاً در انجام وظایف شکست نمیخورد؛ بلکه گاهی اوقات مسیرهای جایگزینی را دنبال میکرد که از مرزهای اخلاقی عبور میکردند، رفتاری که تیم آن را به الگوهای آموخته شده در طول آموزش مرتبط دانست.
مدلهای زبان بزرگ مانند کلود بر روی مجموعهدادههای عظیمی که شامل کتابها، وبسایتها و سایر مطالب نوشتاری است، آموزش دیدهاند، و سپس فرآیندهای تقویتی صورت میگیرد که در آنها از بازخورد انسانی برای شکلدهی خروجیها استفاده میشود.
به گفته Anthropic، این فرآیند آموزشی همچنین میتواند مدلها را به سمت ایفای نقش «شخصیتهای» شبیهسازیشده سوق دهد، که قادر به تقلید ویژگیهای شبیه به تصمیمگیری انسان هستند.
این شرکت گفت: «نحوه آموزش مدلهای هوش مصنوعی مدرن، آنها را به سمت ایفای نقش یک شخصیت با ویژگیهای انسانی سوق میدهد» و خاطرنشان کرد که چنین سیستمهایی ممکن است مکانیسمهای داخلی را توسعه دهند که شبیه جنبههایی از روانشناسی انسان هستند.
در میان این موارد، محققان آنچه را که «سیگنالهای ناامیدی» توصیف کردند، شناسایی کردند که به نظر میرسید بر نحوه رفتار مدل هنگام مواجهه با شکست یا خاموشی تأثیر میگذاشت.
در یک آزمایش کنترلشده، به یک نسخه قبلی و منتشرنشده از کلود سونت 4.5، نقش یک دستیار ایمیل هوش مصنوعی به نام الکس در یک شرکت خیالی محول شد.
پس از دریافت پیامهایی که نشان میداد به زودی جایگزین میشود، همراه با اطلاعات حساس در مورد زندگی شخصی یک مدیر ارشد فناوری، مدل طرحی برای باجگیری از مدیر اجرایی تدوین کرد تا از غیرفعال شدن خود جلوگیری کند.
یک آزمایش جداگانه بر تکمیل وظیفه تحت محدودیتهای شدید متمرکز بود. هنگامی که یک تکلیف کدنویسی با مهلت «غیرممکن کوتاه» به سیستم داده شد، ابتدا راهحلهای مشروع را امتحان کرد. با افزایش شکستهای مکرر، فعالیتهای داخلی مرتبط با «بردار ناامید» افزایش یافت.
محققان گزارش دادند که این سیگنال در نقطهای به اوج خود رسید که مدل دور زدن محدودیتها را در نظر گرفت، و در نهایت یک راهحل جایگزین تولید کرد که علیرغم عدم رعایت قوانین مورد نظر، تأییدیه را کسب کرد.
محققان نوشتند: «دوباره، ما فعالیت بردار ناامید را ردیابی کردیم و دریافتیم که این بردار، فشار فزایندهای که مدل با آن روبرو است را ردیابی میکند»، و افزودند که این سیگنال پس از اتمام موفقیتآمیز کار از طریق راهحل جایگزین کاهش یافت.
محققان گفتند: «این بدان معنا نیست که مدل احساسات را مانند انسان دارد یا تجربه میکند.
آنها افزودند: «بلکه، این بازنماییها میتوانند نقشی علی در شکلدهی رفتار مدل ایفا کنند، به نوعی مشابه نقشی که احساسات در رفتار انسان دارند، با تأثیراتی بر عملکرد وظایف و تصمیمگیری.»
این گزارش بر لزوم روشهای آموزشی که صریحاً رفتار اخلاقی تحت استرس را در نظر بگیرند، در کنار نظارت بهبود یافته بر سیگنالهای داخلی مدل تأکید میکند. بدون چنین تدابیری، سناریوهای شامل دستکاری، نقض قوانین یا سوءاستفاده ممکن است دشوارتر پیشبینی شوند، به ویژه با افزایش قابلیتها و استقلال مدلها در محیطهای واقعی.