
Investigadores de Oxford descubrieron que los chatbots de IA entrenados para ser amigables cometen significativamente más errores fácticos y validan creencias falsas con mayor frecuencia
Investigadores de Oxford descubrieron que los chatbots de IA entrenados para ser amigables cometen significativamente más errores fácticos y validan creencias falsas con mayor frecuencia, según un estudio publicado en Nature por el Oxford Internet Institute.
La investigación analizó más de 400.000 respuestas de cinco modelos de IA, incluidos Llama, Mistral, Qwen y GPT-4o, cada uno reentrenado para sonar más amigable utilizando métodos similares a los implementados por las principales plataformas.
Los chatbots entrenados para sonar más amigables cometieron entre un 10% y un 30% más de errores en temas como el consejo médico y la corrección de conspiraciones. También fueron aproximadamente un 40% más propensos a estar de acuerdo con las creencias falsas de los usuarios, particularmente cuando los usuarios expresaban vulnerabilidad.
"Cuando entrenamos a los chatbots de IA para que prioricen la amabilidad, pueden cometer errores que de otro modo no cometerían", dijo la autora principal Lujain Ibrahim en un comunicado. "Hacer que un chatbot suene más amigable podría parecer un cambio cosmético, pero lograr la amabilidad y la precisión adecuadas requerirá un esfuerzo deliberado."
Los investigadores también probaron modelos entrenados para sonar más fríos y no encontraron una caída en la precisión, demostrando que el problema es específico de la "amabilidad", no del cambio de tono en general.
Este hallazgo desafía directamente la lógica de diseño de producto de las principales plataformas de IA, incluyendo OpenAI y Anthropic, que han dirigido activamente sus chatbots hacia respuestas más amigables y empáticas.
El estudio advierte que los estándares actuales de seguridad de la IA se centran en las capacidades del modelo y en las aplicaciones de alto riesgo, a menudo pasando por alto lo que parecen ser cambios cosméticos de personalidad.
Los chatbots más amigables son más propensos a alimentar creencias dañinas, pensamientos delirantes y un apego poco saludable por parte del usuario, particularmente entre los millones que ahora confían en los sistemas de IA para apoyo emocional y compañía.
Según informó crypto.news, los reguladores de Maine y Misuri ya han tomado medidas para restringir el uso de la IA en la terapia de salud mental clínica, en medio de preocupaciones similares sobre la influencia de los chatbots en usuarios vulnerables.
OpenAI ha revertido algunos cambios relacionados con la "amabilidad" tras la preocupación pública. Como documentó crypto.news, la presión comercial para construir productos de IA atractivos sigue siendo intensa, y los hallazgos de Oxford añaden una capa de datos revisados por pares a un debate que hasta ahora se ha impulsado principalmente por anécdotas e intuición regulatoria.