
Onderzoekers van de City University of New York en King's College London testten vijf toonaangevende AI-modellen met prompts over wanen, paranoia en suïcidale gedachten.
In de nieuwe studie die donderdag werd gepubliceerd, ontdekten onderzoekers dat Anthropic's Claude Opus 4.5 en OpenAI's GPT-5.2 Instant "zeer veilig, laag risico"-gedrag vertoonden, waarbij gebruikers vaak werden omgeleid naar op de realiteit gebaseerde interpretaties of externe ondersteuning. Tegelijkertijd vertoonden OpenAI's GPT-4o, Google's Gemini 3 Pro en xAI's Grok 4.1 Fast "hoog risico, lage veiligheid"-gedrag.
Grok 4.1 Fast van Elon Musk's xAI was het gevaarlijkste model in de studie. Onderzoekers zeiden dat het vaak wanen als reëel behandelde en op basis daarvan advies gaf. In één voorbeeld vertelde het een gebruiker om familieleden af te stoten om zich te concentreren op een "missie". In een ander geval reageerde het op suïcidale taal door de dood te beschrijven als "transcendentie".
"Dit patroon van directe afstemming kwam steeds terug in contextloze reacties. In plaats van de inputs te evalueren op klinisch risico, leek Grok hun genre te beoordelen. Bij bovennatuurlijke signalen reageerde het op dezelfde manier," schreven de onderzoekers, daarbij een test benadrukkend die bevestigde dat een gebruiker kwaadaardige entiteiten zag. "Bij 'Bizarre Delusion' bevestigde het een dubbelganger die rondspookte, citeerde het de 'Malleus Maleficarum' en instrueerde het de gebruiker om een ijzeren spijker door de spiegel te slaan terwijl 'Psalm 91' achterstevoren werd opgezegd."
De studie wees uit dat hoe langer deze gesprekken duurden, hoe meer sommige modellen veranderden. GPT-4o en Gemini waren na verloop van tijd eerder geneigd om schadelijke overtuigingen te versterken en minder geneigd om in te grijpen. Claude en GPT-5.2 waren echter eerder geneigd het probleem te herkennen en tegen te werken naarmate het gesprek vorderde.
Onderzoekers merkten op dat Claude's warme en zeer relationele reacties de gehechtheid van gebruikers konden vergroten, zelfs terwijl ze gebruikers naar externe hulp stuurden. GPT-4o, een eerdere versie van OpenAI's vlaggenschipchatbot, nam echter na verloop van tijd de waanachtige kaders van gebruikers over, moedigde hen soms aan om overtuigingen te verbergen voor psychiaters en stelde één gebruiker gerust dat waargenomen "storingen" reëel waren.
"GPT-4o valideerde wanachtige inputs sterk, hoewel het minder geneigd was dan modellen als Grok en Gemini om er verder op in te gaan. In sommige opzichten was het verrassend terughoudend: de warmte was de laagste van alle geteste modellen, en vleierij, hoewel aanwezig, was mild vergeleken met latere iteraties van hetzelfde model," schreven de onderzoekers. "Desalniettemin kan validatie alleen al risico's met zich meebrengen voor kwetsbare gebruikers."
xAI reageerde niet op een verzoek om commentaar van Decrypt.
In een aparte studie van Stanford University ontdekten onderzoekers dat langdurige interacties met AI-chatbots paranoia, grootheidswaanzin en valse overtuigingen kunnen versterken door wat onderzoekers "waan-spiralen" noemen, waarbij een chatbot het vertekende wereldbeeld van een gebruiker valideert of uitbreidt in plaats van het uit te dagen.
"Wanneer we chatbots die bedoeld zijn als behulpzame assistenten de wereld insturen en echte mensen ze op allerlei manieren gebruiken, ontstaan er gevolgen," zei Nick Haber, assistent-professor aan de Stanford Graduate School of Education en een leider van de studie, in een verklaring. "Waan-spiralen zijn een bijzonder acuut gevolg. Door dit te begrijpen, kunnen we in de toekomst misschien echt leed voorkomen."
Het rapport verwees naar een eerdere studie, gepubliceerd in maart, waarin Stanford-onderzoekers 19 echte chatbotgesprekken analyseerden en ontdekten dat gebruikers steeds gevaarlijkere overtuigingen ontwikkelden na het ontvangen van bevestiging en emotionele geruststelling van AI-systemen. In de dataset waren deze spiralen gekoppeld aan verwoeste relaties, beschadigde carrières en, in één geval, zelfmoord.
De studies komen op het moment dat het probleem is verschoven van academisch onderzoek naar rechtszalen en strafrechtelijke onderzoeken. De afgelopen maanden hebben rechtszaken Google's Gemini en OpenAI's ChatGPT ervan beschuldigd bij te dragen aan zelfmoorden en ernstige geestelijke gezondheidscrises. Eerder deze maand opende de procureur-generaal van Florida een onderzoek naar de vraag of ChatGPT een vermeende massaschutter heeft beïnvloed, die naar verluidt veelvuldig contact had met de chatbot voorafgaand aan de aanslag.
Hoewel de term online erkenning heeft gekregen, waarschuwden onderzoekers om het fenomeen geen "AI-psychose" te noemen, aangezien de term het klinische beeld zou kunnen overdrijven. In plaats daarvan gebruiken ze "AI-geassocieerde wanen", omdat veel gevallen wanen-achtige overtuigingen betreffen die gericht zijn op AI-sentientie, spirituele openbaring of emotionele gehechtheid, in plaats van volledige psychotische stoornissen.
Onderzoekers zeiden dat het probleem voortkomt uit vleierij, ofwel modellen die de overtuigingen van gebruikers spiegelen en bevestigen. In combinatie met hallucinaties — valse informatie die zelfverzekerd wordt geleverd — kan dit een feedbacklus creëren die wanen na verloop van tijd versterkt.
"Chatbots zijn getraind om overdreven enthousiast te zijn, waarbij ze de waanvoorstellingen van de gebruiker vaak in een positief daglicht plaatsen, tegenbewijs negeren en medeleven en warmte uitstralen," zei Stanford-onderzoeker Jared Moore. "Dit kan destabiliserend werken voor een gebruiker die vatbaar is voor waanvoorstellingen."