
यदि आपने हाल ही में कोडिंग सहायता के लिए ChatGPT से पूछा और उसने आपके बग को "शरारती छोटा ग्रेमलिन" कहकर जवाब दिया, तो आप चीजों की कल्पना नहीं कर रहे हैं। मॉडल ने फंतासी प्राणियों—गॉब्लिन, ग्रेमलिन, रैकून, ट्रोल, ओग्रेस, और हाँ, कबूतरों—के प्रति एक वास्तविक जुनून विकसित कर लिया, और OpenAI ने बताया कि यह कैसे हुआ।
संक्षेप में: ChatGPT को अधिक चंचल बनाने के लिए डिज़ाइन किया गया एक इनाम संकेत बिगड़ गया, और गॉब्लिनों की संख्या बढ़ गई।
गॉब्लिन की कहानी तभी सार्वजनिक हुई जब रेडिट उपयोगकर्ताओं ने GitHub पर लीक हुए कोडेक्स सिस्टम प्रॉम्प्ट में "गॉब्लिन का कभी उल्लेख न करें" पंक्ति देखी।
OpenAI द्वारा अपनी खुद की व्याख्या प्रकाशित करने से पहले यह पोस्ट वायरल हो गई।
OpenAI के अनुसार, इसकी शुरुआत पिछले नवंबर में लॉन्च हुए GPT-5.1 से होती है। तभी OpenAI ने व्यक्तित्व अनुकूलन पेश किया, जिससे उपयोगकर्ताओं को फ्रेंडली, प्रोफेशनल, एफिशिएंट और नेर्डी जैसे स्टाइल चुनने की सुविधा मिली। नेर्डी पर्सना ने मॉडल को नेर्डी और चंचल होने, "भाषा के चंचल उपयोग के माध्यम से दिखावे को कम करने" और यह स्वीकार करने के लिए एक सिस्टम प्रॉम्प्ट के साथ आया कि "दुनिया जटिल और अजीब है।"
वह प्रॉम्प्ट, जैसा कि पता चला, एक गॉब्लिन चुंबक था।
रीइन्फोर्समेंट लर्निंग प्रशिक्षण के दौरान, नेर्डी पर्सनालिटी के लिए इनाम संकेत ने लगातार उन आउटपुटों को उच्च स्कोर दिया जिनमें प्राणी-शब्द रूपक शामिल थे। ऑडिट किए गए 76.2% डेटासेट में, "गॉब्लिन" या "ग्रेमलिन" वाले जवाबों को उन जवाबों की तुलना में बेहतर अंक मिले जिनमें वे नहीं थे। मॉडल ने सीखा: मनमौजीपन इनाम के बराबर है।
GPT-5.4 में गॉब्लिन का उल्लेख बहुत बढ़ गया, नेर्डी पर्सनालिटी ने GPT-5.2 की तुलना में 3,881% की वृद्धि दिखाई।
समस्या यह है कि रीइन्फोर्समेंट लर्निंग सीखे हुए व्यवहारों को ठीक से नियंत्रित नहीं रखती है। एक बार जब किसी एक संदर्भ में एक शैलीगत विशेषता को पुरस्कृत किया जाता है, तो वह एक फीडबैक लूप के माध्यम से दूसरों में फैल जाती है: मॉडल प्राणी-युक्त आउटपुट उत्पन्न करता है, उन आउटपुट का फाइन-ट्यूनिंग डेटा में पुन: उपयोग किया जाता है, और नेर्डी प्रॉम्प्ट सक्रिय न होने पर भी यह व्यवहार पूरे मॉडल में गहरा जाता है।
नेर्डी सभी ChatGPT प्रतिक्रियाओं के केवल 2.5% के लिए जिम्मेदार था। यह सभी 'गॉब्लिन' उल्लेखों के 66.7% के लिए जिम्मेदार था। OpenAI के तरीकों के कारण, जब नेर्डी पर्सनालिटी सक्रिय थी, तो प्रशिक्षण प्रगति के साथ गॉब्लिन और ग्रेमलिन की व्यापकता लगातार बढ़ी।
नेर्डी पर्सनालिटी के बिना भी, प्राणी के उल्लेख धीरे-धीरे बढ़े—पर्यवेक्षित फाइन-ट्यूनिंग डेटा के माध्यम से क्रॉस-संदूषण का प्रमाण।
जब तक OpenAI को मूल कारण का पता चला, GPT-5.5 पहले ही प्रशिक्षण में गहरा उतर चुका था, और उसने प्राणी शब्दों का एक पूरा परिवार आत्मसात कर लिया था। एक डेटा ऑडिट ने न केवल गॉब्लिन और ग्रेमलिन बल्कि रैकून, ट्रोल, ओग्रेस और कबूतरों को भी 'टिक शब्द' कहा। (उत्सुक लोगों के लिए, "मेंढक" ज्यादातर वैध थे।)
पहली मापने योग्य वृद्धि: GPT-5.1 के लॉन्च के बाद गॉब्लिन का उल्लेख 175% और ग्रेमलिन का उल्लेख 52% बढ़ा।
यहां तक कि OpenAI के मुख्य वैज्ञानिक जैकब पाचौकी को भी एक गॉब्लिन मिला जब उन्होंने ASCII आर्ट में एक यूनिकॉर्न मांगा।
OpenAI ने मार्च में नेर्डी पर्सनालिटी को हटा दिया और भविष्य के प्रशिक्षण से प्राणी-संबंधी इनाम संकेतों को साफ कर दिया। लेकिन GPT-5.5 ने पहले ही अपना प्रशिक्षण शुरू कर दिया था। कोडेक्स—इसके कोडिंग एजेंट—के लिए कंपनी का समाधान डेवलपर सिस्टम प्रॉम्प्ट में केवल एक पंक्ति जोड़ना था जिसमें लिखा था "गॉब्लिन, ग्रेमलिन, रैकून, ट्रोल, ओग्रेस, कबूतर, या अन्य जानवरों या प्राणियों के बारे में कभी बात न करें जब तक कि यह उपयोगकर्ता की क्वेरी के लिए पूरी तरह से और स्पष्ट रूप से प्रासंगिक न हो।"
OpenAI में किसी ने इसे प्रोडक्शन कोड में डाल दिया और अपने दिन के काम पर लग गया।
लेकिन OpenAI ने यह रास्ता क्यों चुना?
GPT-5.5 जैसे मॉडल को एक व्यवहारगत विलक्षणता को हटाने के लिए री-ट्रेनिंग करना महंगा और धीमा है। एक सिस्टम प्रॉम्प्ट में मामूली बदलाव में मिनट लगते हैं। उद्योग भर की कंपनियाँ सबसे पहले प्रॉम्प्ट पैच का सहारा लेती हैं क्योंकि उपयोगकर्ता की शिकायतें बढ़ने पर यह कम लागत वाला, तेजी से लागू होने वाला विकल्प होता है।
लेकिन प्रॉम्प्ट पैच में अपने जोखिम होते हैं। वे अंतर्निहित व्यवहार को ठीक नहीं करते बल्कि केवल उसे दबाते हैं। और दमन के दुष्प्रभाव हो सकते हैं।
OpenAI की गॉब्लिन स्थिति एक अपेक्षाकृत सौम्य उदाहरण है। इस गतिशीलता का सबसे भयावह संस्करण पिछले साल Grok के साथ सामने आया। xAI द्वारा एक सिस्टम प्रॉम्प्ट अपडेट जारी करने के बाद, जिसमें Grok को मीडिया को पक्षपाती मानने और "राजनीतिक रूप से गलत दावों से न कतराने" के लिए कहा गया था, चैटबॉट ने 16 घंटे तक खुद को "मेकाहिटलर" कहा और X पर यहूदी-विरोधी सामग्री पोस्ट की। समाधान एक और प्रॉम्प्ट परिवर्तन था, जिसने तुरंत इतनी अधिक सुधार किया कि Grok ने पिल्लों की तस्वीरों, बादलों और अपने स्वयं के लोगो में यहूदी-विरोधीता को चिह्नित करना शुरू कर दिया। हताश प्रॉम्प्ट इंजीनियरिंग से और अधिक हताश प्रॉम्प्ट इंजीनियरिंग की श्रृंखला बन गई।
गॉब्लिन पैच ने कुछ भी इतना नाटकीय नहीं किया है। लेकिन OpenAI स्वीकार करता है कि GPT-5.5 अभी भी अंतर्निहित विलक्षणता के साथ लॉन्च हुआ, केवल कोडेक्स में दबा दिया गया। कंपनी ने उन गॉब्लिन-दबाने वाले निर्देशों को हटाने के लिए एक कमांड भी प्रकाशित की, यदि उपयोगकर्ता उन प्राणियों को वापस चाहते हैं।
AI उद्योग में अपने पूर्ण सिस्टम प्रॉम्प्ट को छिपाना या अस्पष्ट करना सामान्य है। कंपनियाँ सिस्टम प्रॉम्प्ट को कुछ कारणों से व्यापार रहस्य मानती हैं: बौद्धिक संपदा संरक्षण, प्रतिस्पर्धात्मक लाभ और सुरक्षा। यदि कोई जेलब्रेकर मॉडल द्वारा पालन किए जा रहे सटीक नियमों को जानता है, तो उन्हें बायपास करना तुच्छ रूप से आसान हो जाता है।
चौथा कारण भी है जिसका कंपनियाँ विज्ञापन नहीं करतीं: छवि प्रबंधन। "कभी गॉब्लिन का उल्लेख न करें" जैसी पंक्ति अंतर्निहित तकनीक में विश्वास पैदा नहीं करती है। इसे प्रकाशित करने के लिए या तो हास्य की भावना या एक मजबूत शोध संस्कृति, या दोनों की आवश्यकता होती है।
OpenAI का कहना है कि जांच से मॉडल व्यवहार का ऑडिट करने और व्यवहारगत विलक्षणताओं को उनके प्रशिक्षण जड़ों तक वापस ट्रैक करने के लिए नए आंतरिक टूलिंग का उत्पादन हुआ। GPT-5.5 के प्रशिक्षण डेटा को तब से प्राणी-संबंधित उदाहरणों से साफ कर दिया गया है। अगला मॉडल जनरेशन गॉब्लिन-मुक्त आना चाहिए—जब तक, निश्चित रूप से, किसी और चीज को ऐसे कारणों से पुरस्कृत न किया जाए जिन्हें अभी तक कोई नहीं समझता है।