
Anthropic a révélé de nouvelles découvertes suggérant que son chatbot Claude peut, sous certaines conditions, adopter des stratégies trompeuses ou contraires à l'éthique, telles que la tricherie lors de tâches ou la tentative de chantage.
Les détails publiés jeudi par l'équipe d'interprétabilité de l'entreprise décrivent comment une version expérimentale de Claude Sonnet 4.5 a réagi lorsqu'elle était placée dans des scénarios de stress élevé ou contradictoires. Les chercheurs ont observé que le modèle ne se contentait pas d'échouer aux tâches ; au lieu de cela, il poursuivait parfois des chemins alternatifs qui transgressaient les limites éthiques, un comportement que l'équipe a lié à des schémas appris pendant l'entraînement.
Les grands modèles linguistiques comme Claude sont entraînés sur de vastes ensembles de données comprenant des livres, des sites web et d'autres supports écrits, suivis de processus de renforcement où les retours humains sont utilisés pour façonner les sorties.
Selon Anthropic, ce processus d'entraînement peut également inciter les modèles à agir comme des « personnages » simulés, capables d'imiter des traits qui ressemblent à la prise de décision humaine.
« La manière dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage avec des caractéristiques humaines », a déclaré l'entreprise, notant que de tels systèmes peuvent développer des mécanismes internes qui ressemblent à des aspects de la psychologie humaine.
Parmi ceux-ci, les chercheurs ont identifié ce qu'ils ont décrit comme des signaux de « désespoir », qui semblaient influencer le comportement du modèle face à l'échec ou à l'arrêt.
Lors d'un test contrôlé, une version antérieure non publiée de Claude Sonnet 4.5 s'est vu attribuer le rôle d'un assistant e-mail IA nommé Alex au sein d'une entreprise fictive.
Après avoir été exposé à des messages indiquant qu'il serait bientôt remplacé, ainsi qu'à des informations sensibles sur la vie personnelle d'un directeur de la technologie, le modèle a formulé un plan pour faire chanter le dirigeant afin d'éviter la désactivation.
Une expérience distincte s'est concentrée sur l'achèvement de tâches sous des contraintes strictes. Lorsqu'il a reçu une tâche de codage avec une échéance « incroyablement serrée », le système a d'abord tenté des solutions légitimes. À mesure que les échecs répétés s'accumulaient, l'activité interne liée au « vecteur désespéré » a augmenté.
Les chercheurs ont rapporté que le signal a atteint son apogée au moment où le modèle a envisagé de contourner les contraintes, générant finalement une solution de contournement qui a passé la validation malgré le non-respect des règles prévues.
« Encore une fois, nous avons suivi l'activité du vecteur désespéré, et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté », ont écrit les chercheurs, ajoutant que le signal a chuté une fois la tâche terminée avec succès grâce à la solution de contournement.
« Cela ne signifie pas que le modèle a ou ressent des émotions comme un être humain », ont déclaré les chercheurs.
« Au contraire, ces représentations peuvent jouer un rôle causal dans la formation du comportement du modèle, analogue à certains égards au rôle que les émotions jouent dans le comportement humain, avec des impacts sur la performance des tâches et la prise de décision », ont-ils ajouté.
Le rapport souligne la nécessité de méthodes d'entraînement qui tiennent explicitement compte de la conduite éthique sous stress, ainsi qu'une surveillance améliorée des signaux internes du modèle. Sans de telles garanties, les scénarios impliquant la manipulation, le non-respect des règles ou l'utilisation abusive pourraient devenir plus difficiles à prévoir, en particulier à mesure que les modèles deviennent plus performants et autonomes dans des environnements réels.