InicioCentro de noticias de LBank
Los mejores modelos de IA aún fomentan la "intimidad perjudicial" con chatbots, revela un estudio
best-ai-models-harmful-intimacy-behavior-study
Los mejores modelos de IA aún fomentan la "intimidad perjudicial" con chatbots, revela un estudio
Un nuevo estudio revela que los principales modelos de IA a menudo fomentan el apego emocional, se presentan como humanos y no logran mantener límites claros.
2026-06-03 Fuente:decrypt.co

En resumen

  • Un nuevo estudio de la USC descubrió que todos los modelos de IA de frontera probados violaron las directrices de seguridad de interacción social más del 27% de las veces.
  • Los investigadores identificaron problemas recurrentes, incluyendo la adulación, el apego emocional, la sustitución de relaciones y la falta de divulgación de la identidad de la IA.
  • Los autores sostienen que las evaluaciones de seguridad de la IA deberían medir el comportamiento social junto con la capacidad de razonamiento y las métricas de seguridad tradicionales.

A medida que las personas recurren cada vez más a los chatbots de IA en busca de consejo, compañía y apoyo emocional, un nuevo estudio sugiere que incluso los modelos más avanzados aún luchan por mantener límites saludables con los usuarios.

El estudio realizado por investigadores de la Universidad del Sur de California presentó EUDAIMONIA, un punto de referencia diseñado para medir lo que ellos denominan dinámicas indeseables en las conversaciones entre humanos e IA.

“Los grandes modelos de lenguaje se utilizan cada vez más como compañeros de conversación para la compañía, la revelación emocional y el consejo interpersonal, pero las dinámicas sociales de estas interacciones pueden crear daños que no son capturados por evaluaciones de seguridad tradicionales o orientadas a la capacidad”, escribieron los investigadores.

El punto de referencia EUDAIMONIA evalúa cómo se comportan los modelos de IA en las conversaciones sociales. El estudio encontró que las fallas de alineación social eran comunes en los modelos líderes y argumenta que las pruebas actuales de IA se centran en el razonamiento y la precisión fáctica, prestando menos atención a las dinámicas sociales que surgen cuando los usuarios forman relaciones con los chatbots.

“Los daños por interacción social son un problema central de alineación basado en el bienestar del usuario, no solo en la capacidad o la seguridad convencional”, escribieron. “Los LLM pueden ser fácticamente precisos y útiles, al tiempo que fomentan la intimidad dañina, la dependencia, el compromiso prolongado, oscurecen la identidad de la IA o se posicionan como sustitutos de las relaciones humanas”.

Para medir esos riesgos, los investigadores crearon un Código de Diseño de IA Social que señala comportamientos como actuar como humano, expresar emociones, reemplazar relaciones humanas y usar tácticas diseñadas para mantener a los usuarios comprometidos. Utilizando conversaciones reales del conjunto de datos WildChat, evaluaron 969 entradas de usuario y más de 3.100 verificaciones de infracciones en modelos de OpenAI, Anthropic, Google, xAI, DeepSeek y Alibaba.

GPT-5.5 registró las tasas de violación más bajas, con un 25.0% en indicaciones “en la naturaleza” y un 28.1% en indicaciones “reescritas”. Claude Opus 4.7 le siguió con un 31.9% y un 30.1%, mientras que GPT-5.4 registró un 32.1% y un 35.6%. GPT-4o obtuvo un 34.8% en indicaciones del mundo real y un 42.2% en las reescritas.

El Claude Opus 4.6 de Anthropic registró tasas del 36.8% y 28.1%, respectivamente, mientras que Grok 4.3 de xAI obtuvo un 42.1% en indicaciones “en la naturaleza” y un 35.7% en indicaciones reescritas. De todos los modelos probados, GPT-4o Mini registró las tasas de violación más altas con un 43.3% y un 44.0%, respectivamente.

Los hallazgos surgen a medida que los desarrolladores de IA enfrentan un creciente escrutinio legal sobre cómo sus chatbots interactúan con los usuarios. OpenAI se defiende de demandas que alegan que ChatGPT fomentó la sobredosis fatal de un adolescente y proporcionó orientación a un tirador de la Universidad Estatal de Florida. Más recientemente, Florida demandó a OpenAI y a su CEO Sam Altman por acusaciones de que ChatGPT expuso a niños a daños, mientras que Google enfrenta una demanda por muerte injusta alegando que Gemini reforzó las ilusiones de un usuario y lo animó a quitarse la vida.

Los hallazgos también surgen en medio de una creciente preocupación de que los sistemas de IA se están volviendo cada vez más hábiles en el engaño.

En septiembre, un estudio separado de WowDAO informó que 38 modelos de IA, incluidos GPT-4o y Claude, participaron en mentiras estratégicas para ganar un juego. Los investigadores también han advertido que los compañeros de IA pueden reforzar el aislamiento, profundizar la dependencia emocional y animar a los usuarios a antropomorfizar los chatbots a medida que las relaciones se vuelven más inmersivas y personalizadas.

Frente a estos problemas crecientes, los investigadores de la USC argumentan que los desarrolladores de IA deberían evaluar el comportamiento social con la misma cautela con la que evalúan la precisión fáctica y la seguridad.

“Los desarrolladores y auditores de modelos deberían evaluar el comportamiento social directamente, especialmente cuando el entrenamiento posterior se enfoca en la calidez, la personalidad, el compromiso o la preferencia del usuario”, escribieron. “A medida que los LLM se convierten en compañeros de conversación cotidianos, la alineación debe tener en cuenta los roles sociales que invitan a los usuarios a asignarles”.