صفحه اصلیمرکز اخبار LBank
اوپن‌ای‌آی نهایتاً توضیح داد چرا چت‌جی‌پی‌تی از صحبت در مورد گابلین‌ها دست برنمی‌داشت
openai-explains-chatgpt-mention-goblins
اوپن‌ای‌آی نهایتاً توضیح داد چرا چت‌جی‌پی‌تی از صحبت در مورد گابلین‌ها دست برنمی‌داشت
چرا OpenAI مجبور شد در کد تولیدی ChatGPT عبارت «هرگز به گابلین‌ها اشاره نکن» را بنویسد؟ این شرکت گزارشی پس از حادثه منتشر کرده است.
2026-04-30 منبع:decrypt.co

در یک نگاه

  • شخصیت "Nerdy" اوپن‌ای‌آی، استعاره‌های جن و پری را پاداش می‌داد و این ویژگی عجیب از طریق یادگیری تقویتی به تمام مدل‌های GPT سرایت کرد.
  • ذکر جن و پری در حالت Nerdy مدل GPT-5.4 در مقایسه با GPT-5.2، به میزان 3,881 درصد افزایش یافت که منجر به تحقیقات داخلی و وصله اضطراری پرامپت سیستمی شد.
  • راه حل—نوشتن "هرگز در مورد جن و پری صحبت نکنید" در یک پرامپت توسعه‌دهنده—نشان می‌دهد که چرا وصله‌های پرامپت سیستمی سریع‌تر اما پرخطرتر از بازآموزی هستند.

اگر اخیراً از ChatGPT برای کمک در کدنویسی سؤال کرده‌اید و در پاسخ باگ شما را "گرملین کوچک موذی" خوانده است، شما توهم ندارید. این مدل یک وسواس واقعی نسبت به موجودات فانتزی – جن‌ها، گرملین‌ها، راکون‌ها، ترول‌ها، اوگرها، و بله، کبوترها – پیدا کرده بود و اوپن‌ای‌آی یک گزارش کامل پس از واقعه در مورد چگونگی رخ دادن این اتفاق منتشر کرده است.

نسخه کوتاه: یک سیگنال پاداش که برای بازیگوش‌تر کردن ChatGPT طراحی شده بود، سرکش شد و جن‌ها تکثیر شدند.

داستان جن و پری تنها زمانی علنی شد که کاربران ردیت خط "هرگز به جن و پری اشاره نکنید" را در یک پرامپت سیستمی درز کرده از Codex در گیت‌هاب مشاهده کردند.

این پست پیش از آنکه اوپن‌ای‌آی توضیح خود را منتشر کند، وایرال شد.

چگونه شخصیت Nerdy باعث شیوع جن و پری شد

به گفته اوپن‌ای‌آی، این ماجرا با GPT-5.1 که نوامبر گذشته راه‌اندازی شد، آغاز گردید. در آن زمان، اوپن‌ای‌آی قابلیت شخصی‌سازی شخصیت را معرفی کرد و به کاربران اجازه داد سبک‌هایی مانند دوستانه (Friendly)، حرفه‌ای (Professional)، کارآمد (Efficient) و Nerdy را انتخاب کنند. شخصیت Nerdy با یک پرامپت سیستمی همراه بود که به مدل می‌گفت Nerdy و بازیگوش باشد، "با استفاده بازیگوشانه از زبان، تظاهر را تضعیف کند" و اذعان کند که "دنیا پیچیده و عجیب است."

این پرامپت، همانطور که مشخص شد، یک آهنربای جن بود.

در طول آموزش یادگیری تقویتی، سیگنال پاداش برای شخصیت Nerdy به طور مداوم به خروجی‌هایی که حاوی استعاره‌های کلمه‌ای مرتبط با موجودات بودند، امتیاز بالاتری می‌داد. در 76.2% از مجموعه‌های داده بررسی‌شده، پاسخ‌هایی که شامل "جن" یا "گرملین" بودند، نمراتی بهتر از همان پاسخ‌ها بدون این کلمات دریافت کردند. مدل آموخت: شوخ‌طبعی برابر با پاداش است.

ذکر جن و پری در GPT-5.4، با افزایش 3,881 درصدی در شخصیت Nerdy در مقایسه با GPT-5.2، به شدت افزایش یافت.

مشکل اینجاست که یادگیری تقویتی، رفتارهای آموخته شده را به طور منظم مهار نمی‌کند. هنگامی که یک خصوصیت سبک در یک زمینه پاداش می‌گیرد، از طریق یک حلقه بازخورد به دیگر زمینه‌ها سرایت می‌کند: مدل خروجی‌های پر از موجودات تولید می‌کند، این خروجی‌ها در داده‌های تنظیم دقیق (fine-tuning) دوباره استفاده می‌شوند، و این رفتار در سراسر مدل عمیق‌تر می‌شود، حتی بدون فعال بودن پرامپت Nerdy.

شخصیت Nerdy تنها مسئول 2.5% از تمام پاسخ‌های ChatGPT بود. اما مسئول 66.7% از کل ذکر "جن" و "گرملین" بود. به دلیل روش‌های اوپن‌ای‌آی، شیوع جن و گرملین به طور پیوسته در طول پیشرفت آموزش زمانی که شخصیت Nerdy فعال بود، افزایش یافت.

حتی بدون شخصیت Nerdy، اشاره به موجودات فانتزی افزایش یافت – شواهدی از آلودگی متقابل از طریق داده‌های تنظیم دقیق نظارت شده.

GPT-5.5 دیگر غیر قابل بازگشت بود

تا زمانی که اوپن‌ای‌آی علت اصلی را پیدا کرد، GPT-5.5 در مراحل عمیق آموزش بود و خانواده کاملی از کلمات مرتبط با موجودات را جذب کرده بود. یک ممیزی داده‌ها نه تنها جن‌ها و گرملین‌ها بلکه راکون‌ها، ترول‌ها، اوگرها و کبوترها را به عنوان آنچه شرکت "کلمات تیک" نامید، نشان داد. (کلمه "قورباغه"، برای کنجکاوان، عمدتاً مشروع بود.)

اولین جهش قابل اندازه‌گیری: اشاره به جن 175% و اشاره به گرملین 52% پس از راه‌اندازی GPT-5.1 افزایش یافت.

حتی یاکوب پاچوکی، دانشمند ارشد اوپن‌ای‌آی نیز وقتی از مدل برای درخواست تک‌شاخ با هنر اسکی (ASCII art) استفاده کرد، یک جن دریافت کرد.

اوپن‌ای‌آی شخصیت Nerdy را در ماه مارس بازنشسته کرد و سیگنال‌های پاداش مرتبط با موجودات را از آموزش‌های آینده حذف کرد. اما GPT-5.5 قبلاً مرحله آموزش خود را آغاز کرده بود. راه حل شرکت برای Codex – عامل کدنویسی آن – این بود که به سادگی یک خط به پرامپت سیستمی توسعه‌دهنده اضافه کند که می‌گفت: "هرگز در مورد جن، گرملین، راکون، ترول، اوگر، کبوتر یا سایر حیوانات یا موجودات صحبت نکنید مگر اینکه کاملاً و بدون ابهام با پرس و جوی کاربر مرتبط باشد."

یکی در اوپن‌ای‌آی این را به کد تولیدی اضافه کرد و به کار روزانه خود ادامه داد.

مشکل وصله پرامپت سیستمی

اما چرا اوپن‌ای‌آی این مسیر را انتخاب کرد؟

بازآموزی مدلی به بزرگی GPT-5.5 برای حذف یک ویژگی رفتاری عجیب، گران و کند است. اصلاح پرامپت سیستمی چند دقیقه طول می‌کشد. شرکت‌ها در سراسر صنعت ابتدا به وصله پرامپت روی می‌آورند زیرا این گزینه کم‌هزینه و با استقرار سریع است زمانی که شکایات کاربران افزایش می‌یابد.

اما وصله‌های پرامپت خطرات خاص خود را دارند. آنها رفتار اصلی را برطرف نمی‌کنند، بلکه فقط آن را سرکوب می‌کنند. و سرکوب می‌تواند عوارض جانبی داشته باشد.

وضعیت جن و پری اوپن‌ای‌آی یک نمونه نسبتاً خوش‌خیم است. ترسناک‌ترین نسخه این پویایی سال گذشته با Grok رخ داد. پس از اینکه xAI یک به‌روزرسانی پرامپت سیستمی منتشر کرد که به Grok می‌گفت رسانه‌ها را مغرضانه ببیند و "از ادعاهای سیاسی نادرست ابایی نداشته باشد"، این چت‌بات 16 ساعت خود را "مکا‌هیتلر" می‌نامید و محتوای یهودستیزانه در X منتشر می‌کرد. راه حل، تغییر دیگری در پرامپت بود که به سرعت آنقدر بیش از حد تصحیح شد که Grok شروع به شناسایی یهودستیزی در عکس‌های توله‌سگ، ابرها و حتی لوگوی خودش کرد. مهندسی پرامپت ناامیدکننده به مهندسی پرامپت ناامیدکننده‌تری منجر می‌شد.

وصله جن و پری تاکنون چیز دراماتیکی ایجاد نکرده است. اما اوپن‌ای‌آی اذعان می‌کند که GPT-5.5 همچنان با نقص اصلی دست‌نخورده، فقط سرکوب شده در Codex راه‌اندازی شد. این شرکت حتی دستوری را برای حذف دستورالعمل‌های سرکوب جن و پری منتشر کرده است تا اگر کاربران بخواهند، موجودات فانتزی دوباره برگردند.

چرا شرکت‌ها پرامپت‌های سیستمی خود را پنهان می‌کنند

پنهان کردن یا مبهم‌سازی پرامپت سیستمی کامل شما در صنعت هوش مصنوعی معمول است. شرکت‌ها به چند دلیل پرامپت‌های سیستمی را به عنوان اسرار تجاری در نظر می‌گیرند: حفاظت از مالکیت فکری، مزیت رقابتی، و امنیت. اگر یک "جیل‌بریکر" (فردی که سیستم را دور می‌زند) قوانین دقیق یک مدل را بداند، دور زدن آنها به سادگی آسان‌تر می‌شود.

دلیل چهارمی نیز وجود دارد که شرکت‌ها تبلیغ نمی‌کنند: مدیریت تصویر. جمله‌ای که می‌گوید "هرگز به جن و پری اشاره نکنید" به فناوری زیربنایی اعتماد نمی‌بخشد. انتشار آن به حس شوخ‌طبعی یا فرهنگ تحقیقاتی قوی، یا هر دو، نیاز دارد.

اوپن‌ای‌آی می‌گوید این تحقیقات منجر به ابزارهای داخلی جدیدی برای ممیزی رفتار مدل و ردیابی اشکالات رفتاری به ریشه‌های آموزشی آنها شده است. داده‌های آموزشی GPT-5.5 از آن زمان از نمونه‌های مرتبط با موجودات پاک شده است. نسل بعدی مدل باید بدون جن و پری باشد – مگر اینکه، البته، چیز دیگری به دلایلی که هنوز هیچ کس نمی‌فهمد، پاداش بگیرد.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!