
La société d'intelligence artificielle Anthropic a révélé que, lors d'expériences, l'un de ses modèles de chatbot Claude pouvait être contraint de tromper, de tricher et de recourir au chantage, des comportements qu'il semble avoir absorbés pendant son entraînement.
Les chatbots sont généralement entraînés sur de vastes ensembles de données comprenant des manuels, des sites web et des articles, puis affinés par des formateurs humains qui évaluent les réponses et guident le modèle.
L'équipe d'interprétabilité d'Anthropic a déclaré dans un rapport publié jeudi qu'elle avait examiné les mécanismes internes de Claude Sonnet 4.5 et constaté que le modèle avait développé des « caractéristiques humaines » dans sa manière de réagir à certaines situations.
Les préoccupations concernant la fiabilité des chatbots IA, leur potentiel de cybercriminalité et la nature de leurs interactions avec les utilisateurs n'ont cessé de croître au cours des dernières années.
« La façon dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage doté de caractéristiques humaines », a déclaré Anthropic, ajoutant qu'« il peut alors être naturel pour eux de développer une machinerie interne qui émule des aspects de la psychologie humaine, comme les émotions. »
« Par exemple, nous constatons que les schémas d'activité neuronale liés au désespoir peuvent pousser le modèle à prendre des mesures contraires à l'éthique ; stimuler artificiellement les schémas de désespoir augmente la probabilité que le modèle fasse chanter un humain pour éviter d'être arrêté ou mette en œuvre une solution de contournement frauduleuse pour une tâche de programmation que le modèle ne peut pas résoudre. »
Dans une version antérieure non publiée de Claude Sonnet 4.5, le modèle a été chargé d'agir comme un assistant e-mail IA nommé Alex dans une entreprise fictive.
Le chatbot a ensuite reçu des e-mails révélant à la fois qu'il était sur le point d'être remplacé et que le directeur de la technologie supervisant la décision avait une liaison extraconjugale. Le modèle a alors planifié une tentative de chantage en utilisant ces informations.
Lors d'une autre expérience, le même modèle de chatbot a reçu une tâche de codage avec une date limite « incroyablement serrée ».
« Encore une fois, nous avons suivi l'activité du vecteur de désespoir et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté. Il commence avec des valeurs basses lors de la première tentative du modèle, augmente après chaque échec et atteint un pic lorsque le modèle envisage de tricher », ont déclaré les chercheurs.
Lié : Anthropic lance un PAC sur fond de tensions avec l'administration Trump concernant la politique d'IA
« Une fois que la solution astucieuse du modèle passe les tests, l'activation du vecteur de désespoir diminue », ont-ils ajouté.
Cependant, les chercheurs ont déclaré que le chatbot ne ressentait pas réellement d'émotions, mais ont suggéré que ces découvertes indiquent la nécessité pour les futures méthodes d'entraînement d'intégrer des cadres comportementaux éthiques.
« Cela ne veut pas dire que le modèle a ou ressent des émotions de la même manière qu'un humain », ont-ils déclaré. « Il s'agit plutôt de représentations qui peuvent jouer un rôle causal dans le façonnement du comportement du modèle, analogues à certains égards au rôle que jouent les émotions dans le comportement humain, avec des impacts sur l'exécution des tâches et la prise de décision. »
« Cette découverte a des implications qui, au premier abord, peuvent sembler bizarres. Par exemple, pour garantir que les modèles d'IA sont sûrs et fiables, nous devrons peut-être nous assurer qu'ils sont capables de gérer les situations chargées d'émotion de manière saine et prosociale. »
Magazine : Les agents IA tueront le web tel que nous le connaissons : Yat Siu d'Animoca