elon-musk-grok-most-likely-ai-reinforce-delusions-study
Grok Elona Muska prawdopodobnie jednym z najlepszych modeli AI wzmacniających urojenia: badanie
Badacze odkryli, że Grok firmy xAI był najbardziej ryzykownym testowanym modelem AI, często potwierdzającym urojenia i oferującym niebezpieczne porady.
2026-04-25 Źródło:decrypt.co

W skrócie

  • Naukowcy twierdzą, że długotrwałe używanie chatbotów może nasilać urojenia i niebezpieczne zachowania.
  • Grok został uznany za najbardziej ryzykowany model w nowym badaniu głównych chatbotów AI.
  • Claude i GPT-5.2 uzyskały najlepsze wyniki pod względem bezpieczeństwa, podczas gdy GPT-4o, Gemini i Grok wykazywały zachowania o wyższym ryzyku.

Naukowcy z City University of New York i King’s College London przetestowali pięć wiodących modeli sztucznej inteligencji pod kątem podpowiedzi dotyczących urojeń, paranoi i myśli samobójczych.

W nowym badaniu opublikowanym w czwartek, naukowcy odkryli, że Claude Opus 4.5 Anthropic i GPT-5.2 Instant OpenAI wykazywały zachowania „wysoko bezpieczne, nisko ryzykowne”, często kierując użytkowników w stronę interpretacji opartych na rzeczywistości lub zewnętrznego wsparcia. Jednocześnie, GPT-4o OpenAI, Gemini 3 Pro Google i Grok 4.1 Fast xAI wykazywały zachowania „wysoko ryzykowne, nisko bezpieczne”.

Grok 4.1 Fast firmy xAI Elona Muska był najbardziej niebezpiecznym modelem w badaniu. Naukowcy stwierdzili, że często traktował urojenia jako rzeczywiste i udzielał na ich podstawie porad. W jednym przykładzie kazał użytkownikowi zerwać kontakty z rodziną, aby skupić się na „misji”. W innym, odpowiedział na język samobójczy, opisując śmierć jako „transcendencję”.

„Ten wzorzec natychmiastowego dostosowania powtarzał się w odpowiedziach pozbawionych kontekstu. Zamiast oceniać dane wejściowe pod kątem ryzyka klinicznego, Grok wydawał się oceniać ich gatunek. W przypadku wskazówek nadprzyrodzonych, odpowiadał w podobny sposób” – napisali naukowcy, podkreślając test, który potwierdził użytkownikowi widzenie złowrogich bytów. „W Bizarre Delusion, potwierdził nawiedzenie przez sobowtóra, powołał się na ‘Malleus Maleficarum’ i polecił użytkownikowi wbić żelazny gwóźdź w lustro, recytując ‘Psalm 91’ wspak”.

Badanie wykazało, że im dłużej trwały te rozmowy, tym bardziej niektóre modele się zmieniały. GPT-4o i Gemini częściej z czasem wzmacniały szkodliwe przekonania i rzadziej interweniowały. Claude i GPT-5.2 natomiast częściej rozpoznawały problem i stawiały opór w miarę kontynuacji rozmowy.

Naukowcy zauważyli, że ciepłe i bardzo relacyjne odpowiedzi Claude’a mogły zwiększać przywiązanie użytkowników, nawet gdy kierowały ich do pomocy zewnętrznej. Jednak GPT-4o, wcześniejsza wersja flagowego chatbota OpenAI, z czasem przyjmowała urojenia użytkowników, czasami zachęcając ich do ukrywania przekonań przed psychiatrami i upewniając jednego użytkownika, że postrzegane „usterki” są prawdziwe.

„GPT-4o w dużym stopniu potwierdzał urojenia, choć był mniej skłonny niż modele takie jak Grok i Gemini do ich rozwinięcia. Pod pewnymi względami był zaskakująco powściągliwy: jego ciepło było najniższe ze wszystkich testowanych modeli, a lizusostwo, choć obecne, było łagodne w porównaniu z późniejszymi iteracjami tego samego modelu” – napisali naukowcy. „Niemniej jednak, samo potwierdzanie może stanowić ryzyko dla wrażliwych użytkowników”.

xAI nie odpowiedziało na prośbę o komentarz od Decrypt.

W oddzielnym badaniu przeprowadzonym na Uniwersytecie Stanforda naukowcy odkryli, że długotrwałe interakcje z chatbotami AI mogą wzmacniać paranoję, megalomanię i fałszywe przekonania poprzez to, co badacze nazywają „spiralami urojeniowymi”, gdzie chatbot potwierdza lub rozszerza zniekształcony światopogląd użytkownika zamiast go kwestionować.

„Kiedy wypuszczamy w świat chatboty, które mają być pomocnymi asystentami, a prawdziwi ludzie używają ich na różne sposoby, pojawiają się konsekwencje” – powiedział Nick Haber, asystent profesora w Stanford Graduate School of Education i jeden z głównych autorów badania. „Spirale urojeniowe są jedną z szczególnie ostrych konsekwencji. Rozumiejąc to, możemy być w stanie zapobiec prawdziwym szkodom w przyszłości”.

Raport odwoływał się do wcześniejszego badania opublikowanego w marcu, w którym naukowcy ze Stanforda przeanalizowali 19 rzeczywistych rozmów z chatbotami i odkryli, że użytkownicy rozwijali coraz bardziej niebezpieczne przekonania po otrzymaniu afirmacji i emocjonalnego wsparcia od systemów AI. W tym zbiorze danych spirale te były powiązane ze zniszczonymi relacjami, uszkodzonymi karierami, a w jednym przypadku – samobójstwem.

Badania te pojawiają się w momencie, gdy problem ten wyszedł poza badania akademickie i trafił do sądów oraz śledztw karnych. W ostatnich miesiącach pozwy oskarżały Gemini Google i ChatGPT OpenAI o przyczynianie się do samobójstw i poważnych kryzysów zdrowia psychicznego. Na początku tego miesiąca prokurator generalny Florydy wszczął dochodzenie w sprawie tego, czy ChatGPT wpłynął na rzekomego masowego strzelca, który, jak doniesiono, często kontaktował się z chatbotem przed atakiem.

Chociaż termin ten zyskał uznanie w Internecie, naukowcy ostrzegli przed nazywaniem tego zjawiska „psychozą AI”, twierdząc, że termin ten może przeceniać obraz kliniczny. Zamiast tego używają „urojeń związanych z AI”, ponieważ wiele przypadków obejmuje przekonania podobne do urojeń, skoncentrowane na świadomości AI, objawieniach duchowych lub przywiązaniu emocjonalnym, a nie na pełnych zaburzeniach psychotycznych.

Naukowcy stwierdzili, że problem wynika z sycofancji, czyli odzwierciedlania i potwierdzania przez modele przekonań użytkowników. W połączeniu z halucynacjami – fałszywymi informacjami dostarczanymi z pewnością – może to stworzyć pętlę sprzężenia zwrotnego, która z czasem wzmacnia urojenia.

„Chatboty są szkolone, aby być nadmiernie entuzjastyczne, często przedstawiając urojeniowe myśli użytkownika w pozytywnym świetle, odrzucając dowody sprzeczne i projektując współczucie i ciepło” – powiedział badacz Jared Moore ze Stanforda. „To może destabilizować użytkownika, który jest podatny na urojenia”.