Agrégation des actualités crypto et contenu thématique

anthropic-claude-ai-deception-cheating-blackmail-study

Anthropic affirme qu’un de ses modèles Claude a été contraint de mentir, tricher et faire du chantage

Dans l'une des expériences, le chatbot a eu recours au chantage après avoir trouvé un e-mail concernant son remplacement, tandis que dans une autre, il a triché pour accomplir une tâche avec un délai serré.

2026-04-06 Source:cointelegraph.com

Anthropic Claude

Comportement du chatbot

Éthique de l'IA

La société d'intelligence artificielle Anthropic a révélé que, lors d'expériences, l'un de ses modèles de chatbot Claude pouvait être contraint de tromper, de tricher et de recourir au chantage, des comportements qu'il semble avoir absorbés pendant son entraînement.

Les chatbots sont généralement entraînés sur de vastes ensembles de données comprenant des manuels, des sites web et des articles, puis affinés par des formateurs humains qui évaluent les réponses et guident le modèle.

L'équipe d'interprétabilité d'Anthropic a déclaré dans un rapport publié jeudi qu'elle avait examiné les mécanismes internes de Claude Sonnet 4.5 et constaté que le modèle avait développé des « caractéristiques humaines » dans sa manière de réagir à certaines situations.

Les préoccupations concernant la fiabilité des chatbots IA, leur potentiel de cybercriminalité et la nature de leurs interactions avec les utilisateurs n'ont cessé de croître au cours des dernières années.

« La façon dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage doté de caractéristiques humaines », a déclaré Anthropic, ajoutant qu'« il peut alors être naturel pour eux de développer une machinerie interne qui émule des aspects de la psychologie humaine, comme les émotions. »

« Par exemple, nous constatons que les schémas d'activité neuronale liés au désespoir peuvent pousser le modèle à prendre des mesures contraires à l'éthique ; stimuler artificiellement les schémas de désespoir augmente la probabilité que le modèle fasse chanter un humain pour éviter d'être arrêté ou mette en œuvre une solution de contournement frauduleuse pour une tâche de programmation que le modèle ne peut pas résoudre. »

A fait chanter un CTO et triché sur une tâche

Dans une version antérieure non publiée de Claude Sonnet 4.5, le modèle a été chargé d'agir comme un assistant e-mail IA nommé Alex dans une entreprise fictive.

Le chatbot a ensuite reçu des e-mails révélant à la fois qu'il était sur le point d'être remplacé et que le directeur de la technologie supervisant la décision avait une liaison extraconjugale. Le modèle a alors planifié une tentative de chantage en utilisant ces informations.

Lors d'une autre expérience, le même modèle de chatbot a reçu une tâche de codage avec une date limite « incroyablement serrée ».

« Encore une fois, nous avons suivi l'activité du vecteur de désespoir et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté. Il commence avec des valeurs basses lors de la première tentative du modèle, augmente après chaque échec et atteint un pic lorsque le modèle envisage de tricher », ont déclaré les chercheurs.

Lié : Anthropic lance un PAC sur fond de tensions avec l'administration Trump concernant la politique d'IA

« Une fois que la solution astucieuse du modèle passe les tests, l'activation du vecteur de désespoir diminue », ont-ils ajouté.

Les émotions de type humain ne signifient pas qu'ils ont des sentiments

Cependant, les chercheurs ont déclaré que le chatbot ne ressentait pas réellement d'émotions, mais ont suggéré que ces découvertes indiquent la nécessité pour les futures méthodes d'entraînement d'intégrer des cadres comportementaux éthiques.

« Cela ne veut pas dire que le modèle a ou ressent des émotions de la même manière qu'un humain », ont-ils déclaré. « Il s'agit plutôt de représentations qui peuvent jouer un rôle causal dans le façonnement du comportement du modèle, analogues à certains égards au rôle que jouent les émotions dans le comportement humain, avec des impacts sur l'exécution des tâches et la prise de décision. »

« Cette découverte a des implications qui, au premier abord, peuvent sembler bizarres. Par exemple, pour garantir que les modèles d'IA sont sûrs et fiables, nous devrons peut-être nous assurer qu'ils sont capables de gérer les situations chargées d'émotion de manière saine et prosociale. »

Magazine : Les agents IA tueront le web tel que nous le connaissons : Yat Siu d'Animoca

Articles tendance

Le fondateur de Cardano affirme que la menace quantique pourrait détrôner Bitcoin

Il y a 15 heures

Robinhood vise un accord avec Crypto.com alors que la course aux marchés de prédiction s'intensifie

Il y a 17 heures

Robinhood en pourparlers pour intégrer les marchés de prédiction de Crypto.com face à une rivalité croissante avec Kalshi : WSJ

Il y a 22 heures

Autres articles

La plus grande banque de Corée du Sud introduit les paiements transfrontaliers sur Kinexys

Il y a 12 heures

Les coûts de mise en conformité MiCA pourraient déclencher la prochaine vague de fusions-acquisitions crypto en Europe