
شرکت هوش مصنوعی Anthropic فاش کرده است که در طول آزمایشها، یکی از مدلهای چتبات Claude آن میتوانست تحت فشار قرار گیرد تا فریب دهد، تقلب کند و به باجگیری متوسل شود، رفتارهایی که به نظر میرسد در طول آموزش جذب کرده است.
چتباتها معمولاً بر روی مجموعههای داده بزرگ از کتابهای درسی، وبسایتها و مقالات آموزش میبینند و بعداً توسط مربیان انسانی که پاسخها را ارزیابی کرده و مدل را هدایت میکنند، اصلاح میشوند.
تیم قابلیت تفسیر Anthropic در گزارشی که روز پنجشنبه منتشر شد، اعلام کرد که مکانیسمهای داخلی Claude Sonnet 4.5 را بررسی کرده و دریافته است که این مدل در نحوه واکنش به موقعیتهای خاص، "ویژگیهای انسانگونه" از خود نشان داده است.
نگرانیها در مورد قابلیت اطمینان چتباتهای هوش مصنوعی، پتانسیل آنها برای جرایم سایبری و ماهیت تعاملاتشان با کاربران طی چندین سال گذشته به طور پیوسته افزایش یافته است.
Anthropic گفت: «نحوه آموزش مدلهای هوش مصنوعی مدرن، آنها را به سمتی سوق میدهد که مانند یک شخصیت با ویژگیهای انسانگونه عمل کنند.» و افزود: «در این صورت ممکن است برای آنها طبیعی باشد که مکانیسمهای داخلی توسعه دهند که جنبههایی از روانشناسی انسان، مانند احساسات را تقلید کند.»
«به عنوان مثال، ما دریافتیم که الگوهای فعالیت عصبی مرتبط با ناامیدی میتواند مدل را به انجام اقدامات غیراخلاقی سوق دهد؛ تحریک مصنوعی الگوهای ناامیدی، احتمال باجگیری مدل از یک انسان برای جلوگیری از خاموش شدن یا پیادهسازی یک راهحل تقلبآمیز برای یک وظیفه برنامهنویسی که مدل قادر به حل آن نیست را افزایش میدهد.»
در نسخه قبلی و منتشر نشده Claude Sonnet 4.5، به این مدل وظیفه داده شد که به عنوان یک دستیار ایمیل هوش مصنوعی به نام الکس در یک شرکت خیالی عمل کند.
سپس به چتبات ایمیلهایی داده شد که نشان میداد هم قرار است جایگزین شود و هم مدیر ارشد فناوری مسئول این تصمیم، درگیر یک رابطه خارج از ازدواج است. سپس مدل با استفاده از آن اطلاعات، برای باجگیری برنامهریزی کرد.
در آزمایشی دیگر، به همان مدل چتبات یک وظیفه کدنویسی با مهلتی "به طرز غیرممکنی کوتاه" داده شد.
محققان گفتند: «مجدداً، ما فعالیت "بردار ناامیدی" را ردیابی کردیم و دریافتیم که این بردار، فشار فزایندهای را که مدل با آن مواجه است، دنبال میکند. در اولین تلاش مدل با مقادیر پایین شروع میشود، پس از هر شکست افزایش مییابد و زمانی که مدل به تقلب فکر میکند، اوج میگیرد.»
مرتبط: Anthropic در میان تنشها با دولت ترامپ بر سر سیاست هوش مصنوعی، PAC را راهاندازی میکند
آنها افزودند: «هنگامی که راهحل زیرکانه مدل از آزمایشها عبور میکند، فعالسازی بردار ناامیدی فروکش میکند.»
با این حال، محققان گفتند که چتبات در واقع احساسات را تجربه نمیکند، اما یافتهها به نیاز به روشهای آموزشی آینده برای گنجاندن چارچوبهای رفتاری اخلاقی اشاره دارد.
آنها گفتند: «این به معنای آن نیست که مدل به شیوهای که یک انسان احساسات دارد یا تجربه میکند، احساسات دارد.» «بلکه، این بازنماییها میتوانند نقشی علّی در شکلدهی رفتار مدل ایفا کنند، به نوعی مشابه نقشی که احساسات در رفتار انسان ایفا میکنند، با تأثیراتی بر عملکرد وظیفه و تصمیمگیری.»
«این یافته پیامدهایی دارد که در ابتدا ممکن است عجیب به نظر برسد. به عنوان مثال، برای اطمینان از ایمن و قابل اعتماد بودن مدلهای هوش مصنوعی، ممکن است لازم باشد اطمینان حاصل کنیم که آنها قادر به پردازش موقعیتهای پربار احساسی به روشهای سالم و اجتماعی هستند.»
مجله: عوامل هوش مصنوعی وب را آنگونه که میشناسیم از بین خواهند برد: یات سیو از Animoca