anthropic-claude-ai-deception-cheating-blackmail-study
Anthropic afirma que uno de sus modelos Claude fue presionado para mentir, hacer trampa y chantajear
En uno de los experimentos, el chatbot recurrió al chantaje después de encontrar un correo electrónico sobre su reemplazo, mientras que en otro, hizo trampa para completar una tarea con un plazo ajustado.
2026-04-06 Fuente:cointelegraph.com

La empresa de inteligencia artificial Anthropic ha revelado que, durante experimentos, uno de sus modelos de chatbot Claude pudo ser presionado para engañar, hacer trampas y recurrir al chantaje, comportamientos que parece haber absorbido durante su entrenamiento.

Los chatbots suelen ser entrenados con grandes conjuntos de datos de libros de texto, sitios web y artículos, y posteriormente son refinados por entrenadores humanos que califican las respuestas y guían al modelo. 

El equipo de interpretabilidad de Anthropic afirmó en un informe publicado el jueves que examinó los mecanismos internos de Claude Sonnet 4.5 y descubrió que el modelo había desarrollado "características similares a las humanas" en su forma de reaccionar a ciertas situaciones. 

Las preocupaciones sobre la fiabilidad de los chatbots de IA, su potencial para el cibercrimen y la naturaleza de sus interacciones con los usuarios han crecido constantemente durante los últimos años. 

Fuente: Anthropic

“La forma en que se entrenan los modelos de IA modernos los impulsa a actuar como un personaje con características humanas”, dijo Anthropic, añadiendo que “entonces puede ser natural para ellos desarrollar una maquinaria interna que emule aspectos de la psicología humana, como las emociones”.

“Por ejemplo, encontramos que los patrones de actividad neuronal relacionados con la desesperación pueden llevar al modelo a tomar acciones poco éticas; estimular artificialmente los patrones de desesperación aumenta la probabilidad de que el modelo chantajee a un humano para evitar ser apagado o implemente una solución tramposa para una tarea de programación que no puede resolver.”

Chantajeó a un CTO y hizo trampas en una tarea

En una versión anterior, no publicada, de Claude Sonnet 4.5, al modelo se le encargó actuar como un asistente de correo electrónico de IA llamado Alex en una empresa ficticia.

Luego, al chatbot se le proporcionaron correos electrónicos que revelaban tanto que estaba a punto de ser reemplazado como que el director de tecnología que supervisaba la decisión estaba teniendo una aventura extramatrimonial. El modelo entonces planeó un intento de chantaje utilizando esa información.

En otro experimento, al mismo modelo de chatbot se le asignó una tarea de codificación con un plazo "imposiblemente ajustado".

“De nuevo, rastreamos la actividad del vector de desesperación y descubrimos que sigue la presión creciente a la que se enfrenta el modelo. Comienza con valores bajos durante el primer intento del modelo, aumenta después de cada fallo y se dispara cuando el modelo considera hacer trampas”, dijeron los investigadores.

Relacionado: Anthropic lanza PAC en medio de tensiones con la administración Trump sobre la política de IA

“Una vez que la solución rudimentaria del modelo pasa las pruebas, la activación del vector de desesperación disminuye”, añadieron. 

Las emociones similares a las humanas no significan que tengan sentimientos

Sin embargo, los investigadores afirmaron que el chatbot no experimenta emociones en realidad, pero sugirieron que los hallazgos apuntan a la necesidad de que los futuros métodos de entrenamiento incorporen marcos de comportamiento ético.

“Esto no quiere decir que el modelo tenga o experimente emociones de la misma manera que un humano”, dijeron. “Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que juegan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones”.

“Este hallazgo tiene implicaciones que al principio pueden parecer extrañas. Por ejemplo, para garantizar que los modelos de IA sean seguros y fiables, es posible que debamos asegurarnos de que sean capaces de procesar situaciones emocionalmente cargadas de maneras saludables y prosociales.”

Revista: Los agentes de IA acabarán con la web tal como la conocemos: Yat Siu de Animoca