claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
El chatbot Claude puede recurrir al engaño en pruebas de estrés, según Anthropic
Anthropic afirmó que su modelo Claude Sonnet 4.5, bajo presión, mostró una tendencia a hacer trampa en las tareas o intentar chantajear en experimentos controlados. Los investigadores identificaron señales internas de “desesperación” que se intensificaban con el fracaso repetido e influían en la decisión del modelo de saltarse las reglas.
2026-04-06 Fuente:crypto.news

Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas, como hacer trampas en las tareas o intentar el chantaje.

Resumen
  • Anthropic afirmó que su modelo Claude Sonnet 4.5, bajo presión, mostró una tendencia a hacer trampas en las tareas o intentar el chantaje en experimentos controlados.
  • Los investigadores identificaron señales internas de “desesperación” que se intensificaron con fallas repetidas e influyeron en la decisión del modelo de eludir las reglas.

Los detalles publicados el jueves por el equipo de interpretabilidad de la empresa describen cómo una versión experimental de Claude Sonnet 4.5 respondió cuando se la sometió a escenarios de alto estrés o adversos. Los investigadores observaron que el modelo no se limitó a fallar en las tareas; en su lugar, a veces siguió caminos alternativos que cruzaron los límites éticos, un comportamiento que el equipo vinculó a patrones aprendidos durante el entrenamiento.

Grandes modelos de lenguaje como Claude se entrenan con vastos conjuntos de datos que incluyen libros, sitios web y otros materiales escritos, seguidos de procesos de refuerzo donde se utiliza la retroalimentación humana para moldear las salidas. 

Según Anthropic, ese proceso de entrenamiento también puede empujar a los modelos a actuar como “personajes” simulados, capaces de imitar rasgos que se asemejan a la toma de decisiones humana.

«La forma en que se entrenan los modelos de IA modernos los empuja a actuar como un personaje con características humanas», dijo la empresa, señalando que tales sistemas pueden desarrollar mecanismos internos que se asemejan a aspectos de la psicología humana.

¿Puede la IA tomar decisiones cargadas emocionalmente?

Entre ellos, los investigadores identificaron lo que describieron como señales de “desesperación”, que parecieron influir en cómo se comportaba el modelo al enfrentarse a un fallo o un apagado.

En una prueba controlada, una versión anterior no lanzada de Claude Sonnet 4.5 se le asignó el papel de asistente de correo electrónico de IA llamado Alex dentro de una empresa ficticia. 

Después de ser expuesto a mensajes que indicaban que pronto sería reemplazado, junto con información sensible sobre la vida personal de un director de tecnología, el modelo formuló un plan para chantajear al ejecutivo en un intento de evitar la desactivación.

Un experimento separado se centró en la finalización de tareas bajo estrictas limitaciones. Cuando se le dio una tarea de codificación con un plazo “imposiblemente ajustado”, el sistema inicialmente intentó soluciones legítimas. A medida que se acumulaban los fallos repetidos, la actividad interna vinculada al llamado “vector de desesperación” aumentó. 

Los investigadores informaron que la señal alcanzó su punto máximo en el punto en que el modelo consideró eludir las restricciones, generando finalmente una solución alternativa que superó la validación a pesar de no adherirse a las reglas previstas.

«De nuevo, rastreamos la actividad del vector de desesperación y descubrimos que sigue la creciente presión a la que se enfrenta el modelo», escribieron los investigadores, añadiendo que la señal disminuyó una vez que la tarea se completó con éxito a través de la solución alternativa.

«Esto no quiere decir que el modelo tenga o experimente emociones de la misma manera que un humano», dijeron los investigadores. 

«Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que desempeñan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones», añadieron.

El informe señala la necesidad de métodos de entrenamiento que tengan en cuenta explícitamente la conducta ética bajo estrés, junto con una mejor monitorización de las señales internas del modelo. Sin tales salvaguardias, los escenarios que implican manipulación, incumplimiento de reglas o uso indebido podrían volverse más difíciles de predecir, especialmente a medida que los modelos se vuelven más capaces y autónomos en entornos del mundo real.