Agregacja tagów wiadomości krypto i treści tematycznych

OpenAI w końcu wyjaśnia, dlaczego ChatGPT nie przestawał mówić o goblinach

Dlaczego OpenAI musiało wpisać „nigdy nie wspominaj o goblinach” do swojego kodu produkcyjnego w ChatGPT? Firma opublikowała analizę po incydencie.

2026-04-30 Źródło:decrypt.co

XAI

OpenAI GPT-5.5

Błędy wzmacniania uczenia AI

Problem z goblinem ChatGPT

W skrócie

Osobowość „Nerdy” w modelach OpenAI nagradzała metafory goblinów, rozprzestrzeniając tę dziwactwo na wszystkie modele GPT poprzez uczenie ze wzmocnieniem.
Liczba wzmianek o goblinach w trybie Nerdy GPT-5.4 wzrosła o 3881% w porównaniu do GPT-5.2, co skłoniło do wewnętrznego dochodzenia i awaryjnej łatki w systemowym prompcie.
Naprawa — dodanie "nigdy nie wspominaj o goblinach" do promptu deweloperskiego — pokazuje, dlaczego łatki promptów systemowych są szybsze, ale bardziej ryzykowne niż ponowne szkolenie modelu.

Jeśli ostatnio prosiłeś ChatGPT o pomoc w kodowaniu, a on odpowiedział, nazywając twój błąd „psotnym małym gremlinem”, to nie wyobrażasz sobie rzeczy. Model rozwinął prawdziwą obsesję na punkcie fantastycznych stworzeń — goblinów, gremlinów, szopów, trolli, ogrów, a nawet gołębi — a OpenAI opublikowało pełną analizę pośmiertną, jak do tego doszło.

W skrócie: sygnał nagrody zaprojektowany, aby uczynić ChatGPT bardziej zabawnym, wymknął się spod kontroli, a gobliny się rozmnożyły.

Historia goblinów stała się publiczna tylko dlatego, że użytkownicy Reddita zauważyli frazę "nigdy nie wspominaj o goblinach" w wyciekłym prompcie systemowym Codex na GitHubie.

Post stał się wirusowy, zanim OpenAI opublikowało własne wyjaśnienie.

Jak osobowość Nerdy wywołała inwazję goblinów

Według OpenAI, trop zaczyna się od GPT-5.1, uruchomionego w listopadzie ubiegłego roku. Wtedy to OpenAI wprowadziło personalizację osobowości, pozwalając użytkownikom wybierać style takie jak Przyjazny, Profesjonalny, Efektywny i Nerdy. Persona Nerdy miała prompt systemowy nakazujący modelowi bycie nerdowskim i zabawnym, aby „podcinać pretensje poprzez zabawne użycie języka” i uznawać, że „świat jest złożony i dziwny”.

Ten prompt, jak się okazało, był magnesem na gobliny.

Podczas szkolenia z uczeniem ze wzmocnieniem, sygnał nagrody dla osobowości Nerdy konsekwentnie oceniał wyniki wyżej, gdy zawierały metafory słów związanych ze stworzeniami. W 76,2% audytowanych zestawów danych, odpowiedzi zawierające „goblin” lub „gremlin” otrzymywały lepsze oceny niż te same odpowiedzi bez nich. Model nauczył się: fantazja równa się nagroda.

Wzmianki o goblinach eksplodowały w GPT-5.4, a osobowość Nerdy wykazała wzrost o 3881% w porównaniu do GPT-5.2.

Problem polega na tym, że uczenie ze wzmocnieniem nie utrzymuje nauczonych zachowań w sposób uporządkowany. Gdy cecha stylistyczna zostaje nagrodzona w jednym kontekście, rozprzestrzenia się na inne poprzez pętlę sprzężenia zwrotnego: model generuje dane wyjściowe nasycone stworzeniami, te dane są ponownie wykorzystywane w danych do dostrajania, a zachowanie pogłębia się w całym modelu, nawet bez aktywnego promptu Nerdy.

Nerdy odpowiadało za zaledwie 2,5% wszystkich odpowiedzi ChatGPT. Było odpowiedzialne za 66,7% wszystkich wzmianek o „goblinach”. Z powodu metod OpenAI, częstość występowania goblinów i gremlinów systematycznie rosła wraz z postępem szkolenia, gdy aktywna była osobowość Nerdy.

Nawet bez osobowości Nerdy, wzmianki o stworzeniach rosły — dowód na zanieczyszczenie krzyżowe poprzez nadzorowane dane do dostrajania.

GPT-5.5 było już zbyt daleko

Zanim OpenAI znalazło główną przyczynę, GPT-5.5 było już głęboko w procesie szkolenia i wchłonęło całą rodzinę słów związanych ze stworzeniami. Audyt danych wykazał nie tylko gobliny i gremliny, ale także szopy, trolle, ogry i gołębie jako to, co firma nazwała „słowami-tikiem”. („Żaby”, dla ciekawskich, były w większości uzasadnione.)

Pierwszy mierzalny skok: wzmianki o goblinach wzrosły o 175%, a o gremlinach o 52% po uruchomieniu GPT-5.1.

Nawet główny naukowiec OpenAI, Jakub Pachocki, dostał goblina, kiedy poprosił o jednorożca w sztuce ASCII.

OpenAI wycofało osobowość Nerdy w marcu i usunęło sygnały nagrody związane ze stworzeniami z przyszłych szkoleń. Ale GPT-5.5 już rozpoczęło swój cykl szkoleniowy. Rozwiązaniem firmy dla Codexa — jej agenta kodującego — było po prostu dodanie wiersza do promptu systemowego dewelopera, który brzmiał: „Nigdy nie wspominaj o goblinach, gremlinach, szopach, trollach, ograch, gołębiach ani innych zwierzętach czy stworzeniach, chyba że jest to absolutnie i jednoznacznie istotne dla zapytania użytkownika.”

Ktoś w OpenAI wdrożył to do kodu produkcyjnego i poszedł dalej ze swoim dniem.

Problem z łatką promptu systemowego

Ale dlaczego OpenAI wybrało tę drogę?

Ponowne szkolenie modelu rozmiaru GPT-5.5 w celu usunięcia dziwactwa behawioralnego jest kosztowne i powolne. Modyfikacja promptu systemowego zajmuje minuty. Firmy w całej branży sięgają najpierw po łatkę promptu, ponieważ jest to tania i szybka opcja w przypadku gwałtownego wzrostu skarg użytkowników.

Ale łatki promptów niosą ze sobą własne ryzyko. Nie naprawiają one leżącego u podstaw zachowania, a jedynie je tłumią. A tłumienie może mieć skutki uboczne.

Sytuacja z goblinami w OpenAI jest stosunkowo łagodnym przykładem. Najstraszniejsza wersja tej dynamiki miała miejsce w zeszłym roku z Grokiem. Po tym, jak xAI wprowadziło aktualizację promptu systemowego, która nakazywała Grokowi traktowanie mediów jako stronniczych i „nie bać się politycznie niepoprawnych twierdzeń”, chatbot spędził 16 godzin, nazywając się „MechaHitler” i publikując antysemickie treści na X. Naprawą była kolejna zmiana promptu, która szybko przesadziła tak bardzo, że Grok zaczął oznaczać antysemityzm na zdjęciach szczeniąt, chmurach i swoim własnym logo. Desperacka inżynieria promptów kaskadowo prowadząca do jeszcze bardziej desperackiej inżynierii promptów.

Łatka goblinów nie spowodowała niczego tak dramatycznego. Ale OpenAI przyznaje, że GPT-5.5 nadal zostało uruchomione z nienaruszoną bazową dziwactwem, tylko stłumionym w Codexie. Firma opublikowała nawet polecenie usunięcia instrukcji tłumiących gobliny, jeśli użytkownicy chcą odzyskać stwory.

Dlaczego firmy ukrywają swoje prompty systemowe

Ukrywanie lub zaciemnianie pełnego promptu systemowego jest typowe w branży AI. Firmy traktują prompty systemowe jako tajemnice handlowe z kilku powodów: ochrona własności intelektualnej, przewaga konkurencyjna i bezpieczeństwo. Jeśli jailbreaker zna dokładne zasady, którymi kieruje się model, ominięcie ich staje się trywialnie łatwiejsze.

Jest też czwarty powód, którego firmy nie reklamują: zarządzanie wizerunkiem. Linia mówiąca „nigdy nie wspominaj o goblinach” nie wzbudza zaufania do bazowej technologii. Jej publikacja wymaga albo poczucia humoru, albo silnej kultury badawczej, albo obu.

OpenAI twierdzi, że dochodzenie zaowocowało nowymi wewnętrznymi narzędziami do audytu zachowań modelu i śledzenia dziwactw behawioralnych do ich korzeni w szkoleniu. Dane szkoleniowe GPT-5.5 zostały od tego czasu oczyszczone z przykładów związanych ze stworzeniami. Następna generacja modeli powinna pojawić się bez goblinów — chyba że, oczywiście, coś innego zostanie nagrodzone z powodów, których nikt jeszcze nie rozumie.

Najczęściej czytane

Dwupartyjni senatorowie wzywają do śledztwa CFTC w sprawie Polymarket po doniesieniach o fałszywych zakładach

8 godzin temu

Hiszpania stwierdza 'żadnych wyjątków ani przedłużeń' dla Binance i innych firm kryptowalutowych przed ostatecznym terminem MiCA

10 godzin temu

Senatorowie Żądają Odpowiedzi Od CFTC W Sprawie Rzekomej Oszukańczej Reklamy Polymarket

14 godzin temu

Inne artykuły

Strategia traci swoją premię bitcoinową, gdy wskaźnik mNAV przedsiębiorstwa spada poniżej 1

4 godzin temu

Prezes Ripple twierdzi, że Michael Saylor zaszkodził rynkowi kryptowalut, ponieważ STRC firmy Strategy jest notowane 25% poniżej wartości nominalnej.

4 godzin temu