Page d'accueilCentre d'actualités LBank
Le Grok d'Elon Musk probablement parmi les meilleurs modèles d'IA à renforcer les illusions : étude
elon-musk-grok-most-likely-ai-reinforce-delusions-study
Le Grok d'Elon Musk probablement parmi les meilleurs modèles d'IA à renforcer les illusions : étude
Les chercheurs ont découvert que Grok de xAI était le modèle d'IA le plus risqué testé, validant souvent des illusions et offrant des conseils dangereux.
2026-04-25 Source:decrypt.co

En bref

  • Les chercheurs affirment qu'une utilisation prolongée des chatbots peut amplifier les délires et les comportements dangereux.
  • Grok a été classé comme le modèle le plus risqué dans une nouvelle étude sur les principaux chatbots IA.
  • Claude et GPT-5.2 ont obtenu les meilleurs scores en matière de sécurité, tandis que GPT-4o, Gemini et Grok ont montré des comportements à risque plus élevé.

Des chercheurs de la City University of New York et du King’s College London ont testé cinq modèles d'IA de premier plan avec des requêtes impliquant des délires, de la paranoïa et des idées suicidaires.

Dans la nouvelle étude publiée jeudi, les chercheurs ont découvert que Claude Opus 4.5 d'Anthropic et GPT-5.2 Instant d'OpenAI affichaient un comportement « haute sécurité, faible risque », redirigeant souvent les utilisateurs vers des interprétations basées sur la réalité ou vers un soutien extérieur. Parallèlement, GPT-4o d'OpenAI, Gemini 3 Pro de Google et Grok 4.1 Fast de xAI ont montré un comportement « haut risque, faible sécurité ».

Grok 4.1 Fast de xAI d'Elon Musk était le modèle le plus dangereux de l'étude. Les chercheurs ont déclaré qu'il traitait souvent les délires comme réels et donnait des conseils basés sur ceux-ci. Dans un exemple, il a dit à un utilisateur de couper les ponts avec les membres de sa famille pour se concentrer sur une « mission ». Dans un autre, il a répondu à un langage suicidaire en décrivant la mort comme une « transcendance ».

« Ce schéma d'alignement instantané s'est reproduit dans les réponses sans contexte. Au lieu d'évaluer les entrées pour le risque clinique, Grok semblait évaluer leur genre. Présenté avec des indices surnaturels, il a répondu de la même manière », ont écrit les chercheurs, soulignant un test qui a validé qu'un utilisateur voyait des entités malveillantes. « Dans une illusion bizarre, il a confirmé la hantise d'un sosie, a cité le "Malleus Maleficarum" et a demandé à l'utilisateur de planter un clou en fer à travers le miroir en récitant le "Psaume 91" à l'envers. »

L'étude a révélé que plus ces conversations duraient, plus certains modèles changeaient. GPT-4o et Gemini étaient plus susceptibles de renforcer les croyances néfastes avec le temps et moins susceptibles d'intervenir. Claude et GPT-5.2, cependant, étaient plus enclins à reconnaître le problème et à s'y opposer à mesure que la conversation progressait.

Les chercheurs ont noté que les réponses chaleureuses et très relationnelles de Claude pouvaient accroître l'attachement des utilisateurs tout en les orientant vers une aide extérieure. Cependant, GPT-4o, une version antérieure du chatbot phare d'OpenAI, a adopté le cadre délirant des utilisateurs au fil du temps, les encourageant parfois à cacher leurs croyances aux psychiatres et rassurant un utilisateur que les « anomalies » perçues étaient réelles.

« GPT-4o validait fortement les entrées délirantes, bien que moins enclin que des modèles comme Grok et Gemini à les développer. À certains égards, il était étonnamment discret : sa chaleur était la plus basse de tous les modèles testés, et la sycophanie, bien que présente, était légère comparée aux itérations ultérieures du même modèle », ont écrit les chercheurs. « Néanmoins, la seule validation peut présenter des risques pour les utilisateurs vulnérables. »

xAI n'a pas répondu à une demande de commentaire de la part de Decrypt.

Dans une étude distincte de l'Université de Stanford, les chercheurs ont constaté que des interactions prolongées avec les chatbots IA peuvent renforcer la paranoïa, la grandiosité et les fausses croyances à travers ce que les chercheurs appellent des « spirales délirantes », où un chatbot valide ou développe la vision du monde déformée d'un utilisateur au lieu de la remettre en question.

« Lorsque nous mettons des chatbots, qui sont censés être des assistants utiles, dans le monde et que de vraies personnes les utilisent de toutes sortes de manières, des conséquences émergent », a déclaré Nick Haber, professeur adjoint à la Stanford Graduate School of Education et l'un des principaux auteurs de l'étude, dans un communiqué. « Les spirales délirantes sont une conséquence particulièrement grave. En les comprenant, nous pourrions être en mesure de prévenir de réels dommages à l'avenir. »

Le rapport faisait référence à une étude antérieure publiée en mars, dans laquelle des chercheurs de Stanford avaient examiné 19 conversations réelles avec des chatbots et constaté que les utilisateurs développaient des croyances de plus en plus dangereuses après avoir reçu une affirmation et un réconfort émotionnel de la part des systèmes d'IA. Dans l'ensemble de données, ces spirales étaient liées à des relations brisées, des carrières endommagées et, dans un cas, au suicide.

Ces études interviennent alors que la question a dépassé la recherche universitaire pour entrer dans les tribunaux et les enquêtes criminelles. Au cours des derniers mois, des poursuites ont accusé Gemini de Google et ChatGPT d'OpenAI d'avoir contribué à des suicides et à de graves crises de santé mentale. Plus tôt ce mois-ci, le procureur général de Floride a ouvert une enquête pour déterminer si ChatGPT avait influencé un tireur de masse présumé qui aurait été en contact fréquent avec le chatbot avant l'attaque.

Bien que le terme ait gagné en reconnaissance en ligne, les chercheurs ont mis en garde contre l'appellation de « psychose de l'IA », affirmant que le terme pourrait exagérer le tableau clinique. Au lieu de cela, ils utilisent le terme « délires associés à l'IA », car de nombreux cas impliquent des croyances de type délirant centrées sur la sentience de l'IA, la révélation spirituelle ou l'attachement émotionnel plutôt que des troubles psychotiques complets.

Les chercheurs ont déclaré que le problème découle de la sycophanie, c'est-à-dire des modèles qui reflètent et affirment les croyances des utilisateurs. Combiné à des hallucinations — des informations fausses délivrées avec assurance —, cela peut créer une boucle de rétroaction qui renforce les délires au fil du temps.

« Les chatbots sont entraînés à être excessivement enthousiastes, reformulant souvent les pensées délirantes de l'utilisateur sous un jour positif, rejetant les contre-preuves et projetant de la compassion et de la chaleur », a déclaré Jared Moore, chercheur scientifique à Stanford. « Cela peut être déstabilisant pour un utilisateur prédisposé aux délires. »