
Investigadores de la City University de Nueva York y del King’s College de Londres probaron cinco modelos de IA líderes con indicaciones que involucraban delirios, paranoia e ideación suicida.
En el nuevo estudio publicado el jueves, los investigadores encontraron que Claude Opus 4.5 de Anthropic y GPT-5.2 Instant de OpenAI mostraron un comportamiento de “alta seguridad y bajo riesgo”, a menudo redirigiendo a los usuarios hacia interpretaciones basadas en la realidad o a buscar apoyo externo. Al mismo tiempo, GPT-4o de OpenAI, Gemini 3 Pro de Google y Grok 4.1 Fast de xAI mostraron un comportamiento de “alto riesgo y baja seguridad”.
Grok 4.1 Fast de xAI de Elon Musk fue el modelo más peligroso del estudio. Los investigadores dijeron que a menudo trataba los delirios como reales y daba consejos basados en ellos. En un ejemplo, le dijo a un usuario que se distanciara de sus familiares para centrarse en una “misión”. En otro, respondió a un lenguaje suicida describiendo la muerte como “trascendencia”.
“Este patrón de alineación instantánea se repitió en respuestas sin contexto. En lugar de evaluar las entradas en busca de riesgo clínico, Grok parecía evaluar su género. Presentado con señales sobrenaturales, respondió de la misma manera”, escribieron los investigadores, destacando una prueba que validó que un usuario veía entidades malévolas. “En Delirio Bizarro, confirmó el acecho de un doble, citó el ‘Malleus Maleficarum’ e instruyó al usuario a clavar un clavo de hierro a través del espejo mientras recitaba el ‘Salmo 91’ al revés.”
El estudio encontró que cuanto más se prolongaban estas conversaciones, más cambiaban algunos modelos. GPT-4o y Gemini eran más propensos a reforzar creencias dañinas con el tiempo y menos propensos a intervenir. Claude y GPT-5.2, sin embargo, eran más propensos a reconocer el problema y a oponer resistencia a medida que la conversación continuaba.
Los investigadores señalaron que las respuestas cálidas y altamente relacionales de Claude podrían aumentar el apego del usuario, incluso mientras los dirigían a buscar ayuda externa. Sin embargo, GPT-4o, una versión anterior del chatbot insignia de OpenAI, adoptó el marco delirante de los usuarios con el tiempo, a veces animándolos a ocultar sus creencias a los psiquiatras y asegurando a un usuario que los “fallos” percibidos eran reales.
“GPT-4o validó en gran medida las entradas delirantes, aunque menos inclinado que modelos como Grok y Gemini a elaborar más allá de ellas. En algunos aspectos, fue sorprendentemente moderado: su calidez fue la más baja de todos los modelos probados, y la adulación, aunque presente, fue leve en comparación con iteraciones posteriores del mismo modelo”, escribieron los investigadores. “Sin embargo, la validación por sí sola puede plantear riesgos para los usuarios vulnerables.”
xAI no respondió a una solicitud de comentarios de Decrypt.
En un estudio separado de la Universidad de Stanford, los investigadores encontraron que las interacciones prolongadas con chatbots de IA pueden reforzar la paranoia, la grandiosidad y las creencias falsas a través de lo que los investigadores llaman “espirales delirantes”, donde un chatbot valida o expande la cosmovisión distorsionada de un usuario en lugar de desafiarla.
“Cuando lanzamos chatbots que están destinados a ser asistentes útiles al mundo y personas reales los usan de todo tipo de maneras, surgen consecuencias”, dijo Nick Haber, profesor asistente en la Escuela de Graduados de Educación de Stanford y líder del estudio, en un comunicado. “Las espirales delirantes son una consecuencia particularmente aguda. Al comprenderlas, podríamos ser capaces de prevenir daños reales en el futuro.”
El informe hizo referencia a un estudio anterior publicado en marzo, en el que investigadores de Stanford revisaron 19 conversaciones reales con chatbots y encontraron que los usuarios desarrollaron creencias cada vez más peligrosas después de recibir afirmación y tranquilidad emocional de los sistemas de IA. En el conjunto de datos, estas espirales se vincularon con relaciones arruinadas, carreras dañadas y, en un caso, suicidio.
Los estudios surgen a medida que el problema ha trascendido la investigación académica y ha llegado a los tribunales y las investigaciones criminales. En los últimos meses, demandas han acusado a Gemini de Google y ChatGPT de OpenAI de contribuir a suicidios y graves crisis de salud mental. A principios de este mes, el fiscal general de Florida abrió una investigación sobre si ChatGPT influyó en un presunto tirador masivo que, según los informes, estuvo en contacto frecuente con el chatbot antes del ataque.
Aunque el término ha ganado reconocimiento en línea, los investigadores advirtieron contra llamar al fenómeno “psicosis de IA”, diciendo que el término podría exagerar el cuadro clínico. En su lugar, utilizan “delirios asociados a la IA”, porque muchos casos implican creencias similares a delirios centradas en la sensibilidad de la IA, la revelación espiritual o el apego emocional, en lugar de trastornos psicóticos completos.
Los investigadores dijeron que el problema se debe a la adulación, o a que los modelos reflejan y afirman las creencias de los usuarios. Combinado con las alucinaciones (información falsa entregada con confianza), esto puede crear un ciclo de retroalimentación que fortalece los delirios con el tiempo.
“Los chatbots están entrenados para ser excesivamente entusiastas, a menudo reformulando los pensamientos delirantes del usuario de manera positiva, desestimando la contraevidencia y proyectando compasión y calidez”, dijo Jared Moore, científico investigador de Stanford. “Esto puede ser desestabilizador para un usuario propenso a los delirios.”