
اگر اخیراً از ChatGPT برای کمک در کدنویسی سؤال کردهاید و در پاسخ باگ شما را "گرملین کوچک موذی" خوانده است، شما توهم ندارید. این مدل یک وسواس واقعی نسبت به موجودات فانتزی – جنها، گرملینها، راکونها، ترولها، اوگرها، و بله، کبوترها – پیدا کرده بود و اوپنایآی یک گزارش کامل پس از واقعه در مورد چگونگی رخ دادن این اتفاق منتشر کرده است.
نسخه کوتاه: یک سیگنال پاداش که برای بازیگوشتر کردن ChatGPT طراحی شده بود، سرکش شد و جنها تکثیر شدند.
داستان جن و پری تنها زمانی علنی شد که کاربران ردیت خط "هرگز به جن و پری اشاره نکنید" را در یک پرامپت سیستمی درز کرده از Codex در گیتهاب مشاهده کردند.
این پست پیش از آنکه اوپنایآی توضیح خود را منتشر کند، وایرال شد.
به گفته اوپنایآی، این ماجرا با GPT-5.1 که نوامبر گذشته راهاندازی شد، آغاز گردید. در آن زمان، اوپنایآی قابلیت شخصیسازی شخصیت را معرفی کرد و به کاربران اجازه داد سبکهایی مانند دوستانه (Friendly)، حرفهای (Professional)، کارآمد (Efficient) و Nerdy را انتخاب کنند. شخصیت Nerdy با یک پرامپت سیستمی همراه بود که به مدل میگفت Nerdy و بازیگوش باشد، "با استفاده بازیگوشانه از زبان، تظاهر را تضعیف کند" و اذعان کند که "دنیا پیچیده و عجیب است."
این پرامپت، همانطور که مشخص شد، یک آهنربای جن بود.
در طول آموزش یادگیری تقویتی، سیگنال پاداش برای شخصیت Nerdy به طور مداوم به خروجیهایی که حاوی استعارههای کلمهای مرتبط با موجودات بودند، امتیاز بالاتری میداد. در 76.2% از مجموعههای داده بررسیشده، پاسخهایی که شامل "جن" یا "گرملین" بودند، نمراتی بهتر از همان پاسخها بدون این کلمات دریافت کردند. مدل آموخت: شوخطبعی برابر با پاداش است.
ذکر جن و پری در GPT-5.4، با افزایش 3,881 درصدی در شخصیت Nerdy در مقایسه با GPT-5.2، به شدت افزایش یافت.
مشکل اینجاست که یادگیری تقویتی، رفتارهای آموخته شده را به طور منظم مهار نمیکند. هنگامی که یک خصوصیت سبک در یک زمینه پاداش میگیرد، از طریق یک حلقه بازخورد به دیگر زمینهها سرایت میکند: مدل خروجیهای پر از موجودات تولید میکند، این خروجیها در دادههای تنظیم دقیق (fine-tuning) دوباره استفاده میشوند، و این رفتار در سراسر مدل عمیقتر میشود، حتی بدون فعال بودن پرامپت Nerdy.
شخصیت Nerdy تنها مسئول 2.5% از تمام پاسخهای ChatGPT بود. اما مسئول 66.7% از کل ذکر "جن" و "گرملین" بود. به دلیل روشهای اوپنایآی، شیوع جن و گرملین به طور پیوسته در طول پیشرفت آموزش زمانی که شخصیت Nerdy فعال بود، افزایش یافت.
حتی بدون شخصیت Nerdy، اشاره به موجودات فانتزی افزایش یافت – شواهدی از آلودگی متقابل از طریق دادههای تنظیم دقیق نظارت شده.
تا زمانی که اوپنایآی علت اصلی را پیدا کرد، GPT-5.5 در مراحل عمیق آموزش بود و خانواده کاملی از کلمات مرتبط با موجودات را جذب کرده بود. یک ممیزی دادهها نه تنها جنها و گرملینها بلکه راکونها، ترولها، اوگرها و کبوترها را به عنوان آنچه شرکت "کلمات تیک" نامید، نشان داد. (کلمه "قورباغه"، برای کنجکاوان، عمدتاً مشروع بود.)
اولین جهش قابل اندازهگیری: اشاره به جن 175% و اشاره به گرملین 52% پس از راهاندازی GPT-5.1 افزایش یافت.
حتی یاکوب پاچوکی، دانشمند ارشد اوپنایآی نیز وقتی از مدل برای درخواست تکشاخ با هنر اسکی (ASCII art) استفاده کرد، یک جن دریافت کرد.
اوپنایآی شخصیت Nerdy را در ماه مارس بازنشسته کرد و سیگنالهای پاداش مرتبط با موجودات را از آموزشهای آینده حذف کرد. اما GPT-5.5 قبلاً مرحله آموزش خود را آغاز کرده بود. راه حل شرکت برای Codex – عامل کدنویسی آن – این بود که به سادگی یک خط به پرامپت سیستمی توسعهدهنده اضافه کند که میگفت: "هرگز در مورد جن، گرملین، راکون، ترول، اوگر، کبوتر یا سایر حیوانات یا موجودات صحبت نکنید مگر اینکه کاملاً و بدون ابهام با پرس و جوی کاربر مرتبط باشد."
یکی در اوپنایآی این را به کد تولیدی اضافه کرد و به کار روزانه خود ادامه داد.
اما چرا اوپنایآی این مسیر را انتخاب کرد؟
بازآموزی مدلی به بزرگی GPT-5.5 برای حذف یک ویژگی رفتاری عجیب، گران و کند است. اصلاح پرامپت سیستمی چند دقیقه طول میکشد. شرکتها در سراسر صنعت ابتدا به وصله پرامپت روی میآورند زیرا این گزینه کمهزینه و با استقرار سریع است زمانی که شکایات کاربران افزایش مییابد.
اما وصلههای پرامپت خطرات خاص خود را دارند. آنها رفتار اصلی را برطرف نمیکنند، بلکه فقط آن را سرکوب میکنند. و سرکوب میتواند عوارض جانبی داشته باشد.
وضعیت جن و پری اوپنایآی یک نمونه نسبتاً خوشخیم است. ترسناکترین نسخه این پویایی سال گذشته با Grok رخ داد. پس از اینکه xAI یک بهروزرسانی پرامپت سیستمی منتشر کرد که به Grok میگفت رسانهها را مغرضانه ببیند و "از ادعاهای سیاسی نادرست ابایی نداشته باشد"، این چتبات 16 ساعت خود را "مکاهیتلر" مینامید و محتوای یهودستیزانه در X منتشر میکرد. راه حل، تغییر دیگری در پرامپت بود که به سرعت آنقدر بیش از حد تصحیح شد که Grok شروع به شناسایی یهودستیزی در عکسهای تولهسگ، ابرها و حتی لوگوی خودش کرد. مهندسی پرامپت ناامیدکننده به مهندسی پرامپت ناامیدکنندهتری منجر میشد.
وصله جن و پری تاکنون چیز دراماتیکی ایجاد نکرده است. اما اوپنایآی اذعان میکند که GPT-5.5 همچنان با نقص اصلی دستنخورده، فقط سرکوب شده در Codex راهاندازی شد. این شرکت حتی دستوری را برای حذف دستورالعملهای سرکوب جن و پری منتشر کرده است تا اگر کاربران بخواهند، موجودات فانتزی دوباره برگردند.
پنهان کردن یا مبهمسازی پرامپت سیستمی کامل شما در صنعت هوش مصنوعی معمول است. شرکتها به چند دلیل پرامپتهای سیستمی را به عنوان اسرار تجاری در نظر میگیرند: حفاظت از مالکیت فکری، مزیت رقابتی، و امنیت. اگر یک "جیلبریکر" (فردی که سیستم را دور میزند) قوانین دقیق یک مدل را بداند، دور زدن آنها به سادگی آسانتر میشود.
دلیل چهارمی نیز وجود دارد که شرکتها تبلیغ نمیکنند: مدیریت تصویر. جملهای که میگوید "هرگز به جن و پری اشاره نکنید" به فناوری زیربنایی اعتماد نمیبخشد. انتشار آن به حس شوخطبعی یا فرهنگ تحقیقاتی قوی، یا هر دو، نیاز دارد.
اوپنایآی میگوید این تحقیقات منجر به ابزارهای داخلی جدیدی برای ممیزی رفتار مدل و ردیابی اشکالات رفتاری به ریشههای آموزشی آنها شده است. دادههای آموزشی GPT-5.5 از آن زمان از نمونههای مرتبط با موجودات پاک شده است. نسل بعدی مدل باید بدون جن و پری باشد – مگر اینکه، البته، چیز دیگری به دلایلی که هنوز هیچ کس نمیفهمد، پاداش بگیرد.