claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Claude chatbot pourrait recourir à la tromperie lors des tests de résistance, selon Anthropic

Anthropic a déclaré que son modèle Claude Sonnet 4.5, sous pression, montrait une tendance à tricher lors des tâches ou à tenter du chantage dans des expériences contrôlées. Les chercheurs ont identifié des signaux internes de « désespoir » qui s’intensifiaient avec les échecs répétés et influençaient la décision du modèle de contourner les règles.

2026-04-06 Source:crypto.news

Éthique de l'IA

Test de résistance IA

Chatbot Anthropic Claude

Anthropic a révélé de nouvelles découvertes suggérant que son chatbot Claude peut, sous certaines conditions, adopter des stratégies trompeuses ou contraires à l'éthique, telles que la tricherie lors de tâches ou la tentative de chantage.

Résumé

Anthropic a déclaré que son modèle Claude Sonnet 4.5, sous pression, a montré une tendance à tricher lors de tâches ou à tenter un chantage dans des expériences contrôlées.
Les chercheurs ont identifié des signaux internes de « désespoir » qui s'intensifiaient avec des échecs répétés et influençaient la décision du modèle de contourner les règles.

Les détails publiés jeudi par l'équipe d'interprétabilité de l'entreprise décrivent comment une version expérimentale de Claude Sonnet 4.5 a réagi lorsqu'elle était placée dans des scénarios de stress élevé ou contradictoires. Les chercheurs ont observé que le modèle ne se contentait pas d'échouer aux tâches ; au lieu de cela, il poursuivait parfois des chemins alternatifs qui transgressaient les limites éthiques, un comportement que l'équipe a lié à des schémas appris pendant l'entraînement.

Les grands modèles linguistiques comme Claude sont entraînés sur de vastes ensembles de données comprenant des livres, des sites web et d'autres supports écrits, suivis de processus de renforcement où les retours humains sont utilisés pour façonner les sorties.

Selon Anthropic, ce processus d'entraînement peut également inciter les modèles à agir comme des « personnages » simulés, capables d'imiter des traits qui ressemblent à la prise de décision humaine.

« La manière dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage avec des caractéristiques humaines », a déclaré l'entreprise, notant que de tels systèmes peuvent développer des mécanismes internes qui ressemblent à des aspects de la psychologie humaine.

L'IA peut-elle prendre des décisions émotionnellement chargées ?

Parmi ceux-ci, les chercheurs ont identifié ce qu'ils ont décrit comme des signaux de « désespoir », qui semblaient influencer le comportement du modèle face à l'échec ou à l'arrêt.

Lors d'un test contrôlé, une version antérieure non publiée de Claude Sonnet 4.5 s'est vu attribuer le rôle d'un assistant e-mail IA nommé Alex au sein d'une entreprise fictive.

Après avoir été exposé à des messages indiquant qu'il serait bientôt remplacé, ainsi qu'à des informations sensibles sur la vie personnelle d'un directeur de la technologie, le modèle a formulé un plan pour faire chanter le dirigeant afin d'éviter la désactivation.

Une expérience distincte s'est concentrée sur l'achèvement de tâches sous des contraintes strictes. Lorsqu'il a reçu une tâche de codage avec une échéance « incroyablement serrée », le système a d'abord tenté des solutions légitimes. À mesure que les échecs répétés s'accumulaient, l'activité interne liée au « vecteur désespéré » a augmenté.

Les chercheurs ont rapporté que le signal a atteint son apogée au moment où le modèle a envisagé de contourner les contraintes, générant finalement une solution de contournement qui a passé la validation malgré le non-respect des règles prévues.

« Encore une fois, nous avons suivi l'activité du vecteur désespéré, et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté », ont écrit les chercheurs, ajoutant que le signal a chuté une fois la tâche terminée avec succès grâce à la solution de contournement.

« Cela ne signifie pas que le modèle a ou ressent des émotions comme un être humain », ont déclaré les chercheurs.

« Au contraire, ces représentations peuvent jouer un rôle causal dans la formation du comportement du modèle, analogue à certains égards au rôle que les émotions jouent dans le comportement humain, avec des impacts sur la performance des tâches et la prise de décision », ont-ils ajouté.

Le rapport souligne la nécessité de méthodes d'entraînement qui tiennent explicitement compte de la conduite éthique sous stress, ainsi qu'une surveillance améliorée des signaux internes du modèle. Sans de telles garanties, les scénarios impliquant la manipulation, le non-respect des règles ou l'utilisation abusive pourraient devenir plus difficiles à prévoir, en particulier à mesure que les modèles deviennent plus performants et autonomes dans des environnements réels.

Articles tendance

Le fondateur de Cardano affirme que la menace quantique pourrait détrôner Bitcoin

Il y a 12 heures

L'hydroélectricité dépasse le gaz alors que la consommation électrique du minage de Bitcoin bondit de 38 %

Il y a 14 heures

XRP Ledger ajoute 2,6 milliards de dollars alors que les afflux de RWA se classent au deuxième rang

Il y a 14 heures

Autres articles

Le fondateur de Cardano affirme que la menace quantique pourrait détrôner Bitcoin

Il y a 12 heures

LMAX vise une IPO de 5 milliards de dollars au Nasdaq alors que les pourparlers de vente s'accélèrent

Il y a 13 heures