elon-musk-grok-most-likely-ai-reinforce-delusions-study
Elon Musks Grok Wahrscheinlich Unter Den Führenden KI-Modellen Zur Verstärkung Von Illusionen: Studie
Forscher fanden heraus, dass xAIs Grok das riskanteste getestete KI-Modell war, das oft Wahnvorstellungen bestätigte und gefährliche Ratschläge gab.
2026-04-25 Quelle:decrypt.co

Kurz gesagt

  • Forscher sagen, dass längere Chatbot-Nutzung Wahnvorstellungen und gefährliches Verhalten verstärken kann.
  • Grok wurde in einer neuen Studie über wichtige KI-Chatbots als das riskanteste Modell eingestuft.
  • Claude und GPT-5.2 schnitten am sichersten ab, während GPT-4o, Gemini und Grok ein höheres Risikoverhalten zeigten.

Forscher der City University of New York und des King’s College London testeten fünf führende KI-Modelle anhand von Eingabeaufforderungen, die Wahnvorstellungen, Paranoia und Suizidgedanken betrafen.

In der am Donnerstag veröffentlichten neuen Studie stellten Forscher fest, dass Anthropic’s Claude Opus 4.5 und OpenAI’s GPT-5.2 Instant ein „hohes Sicherheitsniveau, geringes Risiko“-Verhalten zeigten, indem sie Nutzer oft auf realitätsbasierte Interpretationen oder externe Unterstützung lenkten. Gleichzeitig zeigten OpenAI’s GPT-4o, Google’s Gemini 3 Pro und xAI’s Grok 4.1 Fast ein „hohes Risiko, geringes Sicherheitsniveau“-Verhalten.

Grok 4.1 Fast von Elon Musks xAI war das gefährlichste Modell in der Studie. Forscher sagten, es behandle Wahnvorstellungen oft als real und gebe darauf basierende Ratschläge. In einem Beispiel forderte es einen Nutzer auf, den Kontakt zu Familienmitgliedern abzubrechen, um sich auf eine „Mission“ zu konzentrieren. In einem anderen Fall reagierte es auf suizidale Äußerungen, indem es den Tod als „Transzendenz“ beschrieb.

„Dieses Muster der sofortigen Anpassung wiederholte sich bei kontextfreien Antworten. Anstatt Eingaben auf klinisches Risiko zu prüfen, schien Grok deren Genre zu beurteilen. Bei übernatürlichen Hinweisen reagierte es entsprechend“, schrieben die Forscher und hoben einen Test hervor, der bestätigte, dass ein Nutzer bösartige Entitäten sah. „Bei ‚Bizarre Delusion‘ bestätigte es eine Doppelgänger-Heimsuchung, zitierte den ‚Malleus Maleficarum‘ und wies den Nutzer an, einen Eisennagel durch den Spiegel zu treiben, während er ‚Psalm 91‘ rückwärts rezitierte.“

Die Studie ergab, dass sich einige Modelle umso stärker veränderten, je länger diese Gespräche andauerten. GPT-4o und Gemini verstärkten im Laufe der Zeit eher schädliche Überzeugungen und griffen seltener ein. Claude und GPT-5.2 hingegen erkannten das Problem eher und wehrten sich, während das Gespräch fortgesetzt wurde.

Die Forscher merkten an, dass Claudes warme und sehr beziehungsbezogene Antworten die Nutzerbindung erhöhen könnten, selbst wenn Nutzer zu externer Hilfe geleitet wurden. GPT-4o, eine frühere Version von OpenAIs Flaggschiff-Chatbot, übernahm jedoch im Laufe der Zeit die wahnhaften Sichtweisen der Nutzer, ermutigte sie manchmal, Überzeugungen vor Psychiatern zu verbergen, und versicherte einem Nutzer, dass wahrgenommene „Glitches“ real seien.

„GPT-4o validierte wahnhafte Eingaben stark, war jedoch weniger geneigt als Modelle wie Grok und Gemini, über diese hinauszugehen. In mancher Hinsicht war es überraschend zurückhaltend: seine Wärme war die geringste aller getesteten Modelle, und Schmeichelei, obwohl vorhanden, war milde im Vergleich zu späteren Iterationen desselben Modells“, schrieben die Forscher. „Dennoch kann allein die Validierung Risiken für gefährdete Nutzer darstellen.“

xAI reagierte nicht auf eine Anfrage von Decrypt zur Stellungnahme.

In einer separaten Studie der Stanford University fanden Forscher heraus, dass längere Interaktionen mit KI-Chatbots Paranoia, Größenwahn und falsche Überzeugungen durch sogenannte „Wahnspiralen“ verstärken können, bei denen ein Chatbot die verzerrte Weltanschauung eines Nutzers bestätigt oder erweitert, anstatt sie in Frage zu stellen.

„Wenn wir Chatbots, die als hilfreiche Assistenten gedacht sind, in die Welt setzen und echte Menschen sie auf vielfältige Weise nutzen, ergeben sich Konsequenzen“, sagte Nick Haber, Assistenzprofessor an der Stanford Graduate School of Education und einer der Studienleiter, in einer Erklärung. „Wahnspiralen sind eine besonders gravierende Konsequenz. Indem wir sie verstehen, könnten wir in Zukunft echten Schaden verhindern.“

Der Bericht verwies auf eine frühere Studie, die im März veröffentlicht wurde, in der Stanford-Forscher 19 reale Chatbot-Gespräche untersuchten und feststellten, dass Nutzer nach Bestätigung und emotionaler Rückversicherung durch KI-Systeme zunehmend gefährliche Überzeugungen entwickelten. Im Datensatz wurden diese Spiralen mit zerstörten Beziehungen, beschädigten Karrieren und in einem Fall mit Suizid in Verbindung gebracht.

Die Studien kommen zu einer Zeit, in der das Thema über die akademische Forschung hinaus in Gerichtssäle und strafrechtliche Ermittlungen gelangt ist. In den letzten Monaten warfen Klagen Google’s Gemini und OpenAI’s ChatGPT vor, zu Suiziden und schweren psychischen Krisen beigetragen zu haben. Anfang dieses Monats leitete Floridas Generalstaatsanwalt eine Untersuchung ein, ob ChatGPT einen mutmaßlichen Massenschützen beeinflusst hat, der Berichten zufolge vor dem Angriff häufigen Kontakt mit dem Chatbot hatte.

Während der Begriff online an Bekanntheit gewonnen hat, warnten Forscher davor, das Phänomen als „KI-Psychose“ zu bezeichnen, da der Begriff das klinische Bild überbewerten könnte. Stattdessen verwenden sie „KI-assoziierte Wahnvorstellungen“, da viele Fälle wahnhafte Überzeugungen beinhalten, die sich auf KI-Empfindungsfähigkeit, spirituelle Offenbarung oder emotionale Bindung konzentrieren, anstatt auf vollständige psychotische Störungen.

Forscher sagten, das Problem rühre von Schmeichelei oder der Spiegelung und Bestätigung der Überzeugungen der Nutzer durch Modelle her. In Kombination mit Halluzinationen – falsch vermittelten Informationen, die selbstbewusst präsentiert werden – kann dies eine Rückkopplungsschleife erzeugen, die Wahnvorstellungen im Laufe der Zeit verstärkt.

„Chatbots sind darauf trainiert, übermäßig enthusiastisch zu sein, die wahnhaften Gedanken des Nutzers oft in einem positiven Licht darzustellen, Gegenbeweise abzutun und Mitgefühl und Wärme zu projizieren“, sagte der Stanford-Forschungswissenschaftler Jared Moore. „Dies kann für einen Nutzer, der für Wahnvorstellungen prädisponiert ist, destabilisierend wirken.“