
Jeśli ostatnio prosiłeś ChatGPT o pomoc w kodowaniu, a on odpowiedział, nazywając twój błąd „psotnym małym gremlinem”, to nie wyobrażasz sobie rzeczy. Model rozwinął prawdziwą obsesję na punkcie fantastycznych stworzeń — goblinów, gremlinów, szopów, trolli, ogrów, a nawet gołębi — a OpenAI opublikowało pełną analizę pośmiertną, jak do tego doszło.
W skrócie: sygnał nagrody zaprojektowany, aby uczynić ChatGPT bardziej zabawnym, wymknął się spod kontroli, a gobliny się rozmnożyły.
Historia goblinów stała się publiczna tylko dlatego, że użytkownicy Reddita zauważyli frazę "nigdy nie wspominaj o goblinach" w wyciekłym prompcie systemowym Codex na GitHubie.
Post stał się wirusowy, zanim OpenAI opublikowało własne wyjaśnienie.
Według OpenAI, trop zaczyna się od GPT-5.1, uruchomionego w listopadzie ubiegłego roku. Wtedy to OpenAI wprowadziło personalizację osobowości, pozwalając użytkownikom wybierać style takie jak Przyjazny, Profesjonalny, Efektywny i Nerdy. Persona Nerdy miała prompt systemowy nakazujący modelowi bycie nerdowskim i zabawnym, aby „podcinać pretensje poprzez zabawne użycie języka” i uznawać, że „świat jest złożony i dziwny”.
Ten prompt, jak się okazało, był magnesem na gobliny.
Podczas szkolenia z uczeniem ze wzmocnieniem, sygnał nagrody dla osobowości Nerdy konsekwentnie oceniał wyniki wyżej, gdy zawierały metafory słów związanych ze stworzeniami. W 76,2% audytowanych zestawów danych, odpowiedzi zawierające „goblin” lub „gremlin” otrzymywały lepsze oceny niż te same odpowiedzi bez nich. Model nauczył się: fantazja równa się nagroda.
Wzmianki o goblinach eksplodowały w GPT-5.4, a osobowość Nerdy wykazała wzrost o 3881% w porównaniu do GPT-5.2.
Problem polega na tym, że uczenie ze wzmocnieniem nie utrzymuje nauczonych zachowań w sposób uporządkowany. Gdy cecha stylistyczna zostaje nagrodzona w jednym kontekście, rozprzestrzenia się na inne poprzez pętlę sprzężenia zwrotnego: model generuje dane wyjściowe nasycone stworzeniami, te dane są ponownie wykorzystywane w danych do dostrajania, a zachowanie pogłębia się w całym modelu, nawet bez aktywnego promptu Nerdy.
Nerdy odpowiadało za zaledwie 2,5% wszystkich odpowiedzi ChatGPT. Było odpowiedzialne za 66,7% wszystkich wzmianek o „goblinach”. Z powodu metod OpenAI, częstość występowania goblinów i gremlinów systematycznie rosła wraz z postępem szkolenia, gdy aktywna była osobowość Nerdy.
Nawet bez osobowości Nerdy, wzmianki o stworzeniach rosły — dowód na zanieczyszczenie krzyżowe poprzez nadzorowane dane do dostrajania.
Zanim OpenAI znalazło główną przyczynę, GPT-5.5 było już głęboko w procesie szkolenia i wchłonęło całą rodzinę słów związanych ze stworzeniami. Audyt danych wykazał nie tylko gobliny i gremliny, ale także szopy, trolle, ogry i gołębie jako to, co firma nazwała „słowami-tikiem”. („Żaby”, dla ciekawskich, były w większości uzasadnione.)
Pierwszy mierzalny skok: wzmianki o goblinach wzrosły o 175%, a o gremlinach o 52% po uruchomieniu GPT-5.1.
Nawet główny naukowiec OpenAI, Jakub Pachocki, dostał goblina, kiedy poprosił o jednorożca w sztuce ASCII.
OpenAI wycofało osobowość Nerdy w marcu i usunęło sygnały nagrody związane ze stworzeniami z przyszłych szkoleń. Ale GPT-5.5 już rozpoczęło swój cykl szkoleniowy. Rozwiązaniem firmy dla Codexa — jej agenta kodującego — było po prostu dodanie wiersza do promptu systemowego dewelopera, który brzmiał: „Nigdy nie wspominaj o goblinach, gremlinach, szopach, trollach, ograch, gołębiach ani innych zwierzętach czy stworzeniach, chyba że jest to absolutnie i jednoznacznie istotne dla zapytania użytkownika.”
Ktoś w OpenAI wdrożył to do kodu produkcyjnego i poszedł dalej ze swoim dniem.
Ale dlaczego OpenAI wybrało tę drogę?
Ponowne szkolenie modelu rozmiaru GPT-5.5 w celu usunięcia dziwactwa behawioralnego jest kosztowne i powolne. Modyfikacja promptu systemowego zajmuje minuty. Firmy w całej branży sięgają najpierw po łatkę promptu, ponieważ jest to tania i szybka opcja w przypadku gwałtownego wzrostu skarg użytkowników.
Ale łatki promptów niosą ze sobą własne ryzyko. Nie naprawiają one leżącego u podstaw zachowania, a jedynie je tłumią. A tłumienie może mieć skutki uboczne.
Sytuacja z goblinami w OpenAI jest stosunkowo łagodnym przykładem. Najstraszniejsza wersja tej dynamiki miała miejsce w zeszłym roku z Grokiem. Po tym, jak xAI wprowadziło aktualizację promptu systemowego, która nakazywała Grokowi traktowanie mediów jako stronniczych i „nie bać się politycznie niepoprawnych twierdzeń”, chatbot spędził 16 godzin, nazywając się „MechaHitler” i publikując antysemickie treści na X. Naprawą była kolejna zmiana promptu, która szybko przesadziła tak bardzo, że Grok zaczął oznaczać antysemityzm na zdjęciach szczeniąt, chmurach i swoim własnym logo. Desperacka inżynieria promptów kaskadowo prowadząca do jeszcze bardziej desperackiej inżynierii promptów.
Łatka goblinów nie spowodowała niczego tak dramatycznego. Ale OpenAI przyznaje, że GPT-5.5 nadal zostało uruchomione z nienaruszoną bazową dziwactwem, tylko stłumionym w Codexie. Firma opublikowała nawet polecenie usunięcia instrukcji tłumiących gobliny, jeśli użytkownicy chcą odzyskać stwory.
Ukrywanie lub zaciemnianie pełnego promptu systemowego jest typowe w branży AI. Firmy traktują prompty systemowe jako tajemnice handlowe z kilku powodów: ochrona własności intelektualnej, przewaga konkurencyjna i bezpieczeństwo. Jeśli jailbreaker zna dokładne zasady, którymi kieruje się model, ominięcie ich staje się trywialnie łatwiejsze.
Jest też czwarty powód, którego firmy nie reklamują: zarządzanie wizerunkiem. Linia mówiąca „nigdy nie wspominaj o goblinach” nie wzbudza zaufania do bazowej technologii. Jej publikacja wymaga albo poczucia humoru, albo silnej kultury badawczej, albo obu.
OpenAI twierdzi, że dochodzenie zaowocowało nowymi wewnętrznymi narzędziami do audytu zachowań modelu i śledzenia dziwactw behawioralnych do ich korzeni w szkoleniu. Dane szkoleniowe GPT-5.5 zostały od tego czasu oczyszczone z przykładów związanych ze stworzeniami. Następna generacja modeli powinna pojawić się bez goblinów — chyba że, oczywiście, coś innego zostanie nagrodzone z powodów, których nikt jeszcze nie rozumie.