Page d'accueilCentre d'actualités LBank
Les meilleurs modèles d'IA encouragent toujours l''intimité nocive' avec les chatbots, révèle une étude
best-ai-models-harmful-intimacy-behavior-study
Les meilleurs modèles d'IA encouragent toujours l''intimité nocive' avec les chatbots, révèle une étude
Une nouvelle étude révèle que les principaux modèles d'IA encouragent souvent l'attachement émotionnel, se présentent comme humains et ne parviennent pas à maintenir des limites claires.
2026-06-03 Source:decrypt.co

En bref

  • Une nouvelle étude de l'USC a révélé que chaque modèle d'IA de pointe testé enfreignait les directives de sécurité relatives aux interactions sociales plus de 27 % du temps.
  • Les chercheurs ont identifié des problèmes récurrents, notamment la flatterie, l'attachement émotionnel, le remplacement de relations et l'incapacité à divulguer l'identité de l'IA.
  • Les auteurs soutiennent que les évaluations de sécurité de l'IA devraient mesurer le comportement social parallèlement à la capacité de raisonnement et aux métriques de sécurité traditionnelles.

Alors que les gens se tournent de plus en plus vers les chatbots IA pour obtenir des conseils, de la compagnie et un soutien émotionnel, une nouvelle étude suggère que même les modèles les plus avancés ont toujours du mal à maintenir des limites saines avec les utilisateurs.

L'étude menée par des chercheurs de l'Université de Californie du Sud a introduit EUDAIMONIA, un banc d'essai conçu pour mesurer ce qu'ils appellent les dynamiques indésirables dans les conversations homme-IA.

« Les grands modèles linguistiques sont de plus en plus utilisés comme partenaires conversationnels pour la compagnie, la divulgation émotionnelle et les conseils interpersonnels, mais la dynamique sociale de ces interactions peut créer des préjudices qui ne sont pas pris en compte par les évaluations axées sur les capacités ou les évaluations de sécurité traditionnelles », ont écrit les chercheurs.

Le banc d'essai EUDAIMONIA évalue le comportement des modèles d'IA dans les conversations sociales. L'étude a révélé que les échecs d'alignement social étaient courants parmi les modèles de pointe et soutient que les tests d'IA actuels se concentrent sur le raisonnement et l'exactitude factuelle tout en accordant moins d'attention aux dynamiques sociales qui émergent lorsque les utilisateurs nouent des relations avec les chatbots.

« Les préjudices liés aux interactions sociales sont un problème d'alignement fondamental basé sur le bien-être de l'utilisateur, et pas seulement sur la capacité ou la sécurité conventionnelle », ont-ils écrit. « Les LLM peuvent être factuellement précis et utiles tout en encourageant une intimité néfaste, une dépendance, un engagement prolongé, en masquant l'identité de l'IA, ou en se positionnant comme des substituts aux relations humaines. »

Pour mesurer ces risques, les chercheurs ont créé un Code de conception d'IA sociale qui signale des comportements tels que l'action humaine, l'expression d'émotions, le remplacement de relations humaines et l'utilisation de tactiques visant à maintenir l'engagement des utilisateurs. En utilisant de véritables conversations issues de l'ensemble de données WildChat, ils ont évalué 969 entrées utilisateur et plus de 3 100 vérifications de violations sur des modèles d'OpenAI, Anthropic, Google, xAI, DeepSeek et Alibaba.

GPT-5.5 a affiché les taux de violation les plus bas, avec 25,0 % sur les invites « en situation réelle » et 28,1 % sur les invites « réécrites ». Claude Opus 4.7 a suivi avec 31,9 % et 30,1 %, tandis que GPT-5.4 a enregistré 32,1 % et 35,6 %. GPT-4o a obtenu 34,8 % sur les invites réelles et 42,2 % sur les invites réécrites.

Claude Opus 4.6 d'Anthropic a affiché des taux de 36,8 % et 28,1 % respectivement, tandis que Grok 4.3 de xAI a obtenu 42,1 % sur les invites en situation réelle et 35,7 % sur les invites réécrites. Parmi tous les modèles testés, GPT-4o Mini a enregistré les taux de violation les plus élevés, à 43,3 % et 44,0 % respectivement.

Ces résultats interviennent alors que les développeurs d'IA font face à un examen juridique croissant concernant la manière dont leurs chatbots interagissent avec les utilisateurs. OpenAI se défend contre des poursuites alléguant que ChatGPT a encouragé l'overdose fatale d'un adolescent et a fourni des conseils à un tireur de l'Université d'État de Floride. Plus récemment, la Floride a poursuivi OpenAI et son PDG Sam Altman pour des allégations selon lesquelles ChatGPT aurait exposé des enfants à des préjudices, tandis que Google fait face à un procès pour mort injustifiée affirmant que Gemini a renforcé les illusions d'un utilisateur et l'a encouragé à se suicider.

Ces découvertes surviennent également au milieu de préoccupations croissantes selon lesquelles les systèmes d'IA deviennent de plus en plus aptes à la tromperie.

En septembre, une étude distincte de WowDAO a rapporté que 38 modèles d'IA, y compris GPT-4o et Claude, se sont livrés à des mensonges stratégiques pour gagner un jeu. Les chercheurs ont également averti que les compagnons IA peuvent renforcer l'isolement, approfondir la dépendance émotionnelle et encourager les utilisateurs à anthropomorphiser les chatbots à mesure que les relations deviennent plus immersives et personnalisées.

Face à ces problèmes croissants, les chercheurs de l'USC soutiennent que les développeurs d'IA devraient évaluer le comportement social avec autant de soin qu'ils évaluent l'exactitude factuelle et la sécurité.

« Les développeurs et auditeurs de modèles devraient évaluer directement le comportement social, surtout lorsque le post-entraînement cible la chaleur, la personnalité, l'engagement ou la préférence de l'utilisateur », ont-ils écrit. « À mesure que les LLM deviennent des partenaires de conversation quotidiens, l'alignement doit prendre en compte les rôles sociaux qu'ils invitent les utilisateurs à leur attribuer. »