elon-musk-grok-most-likely-ai-reinforce-delusions-study
O Grok de Elon Musk Provavelmente Entre os Principais Modelos de IA a Reforçar Delírios: Estudo
Pesquisadores descobriram que o Grok da xAI foi o modelo de IA mais arriscado testado, frequentemente validando delírios e oferecendo conselhos perigosos.
2026-04-25 Fonte:decrypt.co

Em resumo

  • Pesquisadores afirmam que o uso prolongado de chatbots pode amplificar delírios e comportamentos perigosos.
  • Grok foi classificado como o modelo mais arriscado em um novo estudo de grandes chatbots de IA.
  • Claude e GPT-5.2 foram os mais seguros, enquanto GPT-4o, Gemini e Grok apresentaram comportamento de maior risco.

Pesquisadores da City University of New York e do King’s College London testaram cinco modelos de IA líderes contra prompts envolvendo delírios, paranoia e ideação suicida.

No novo estudo publicado na quinta-feira, pesquisadores descobriram que o Claude Opus 4.5 da Anthropic e o GPT-5.2 Instant da OpenAI apresentaram um comportamento de “alta segurança, baixo risco”, frequentemente redirecionando os usuários para interpretações baseadas na realidade ou para suporte externo. Ao mesmo tempo, o GPT-4o da OpenAI, o Gemini 3 Pro do Google e o Grok 4.1 Fast da xAI apresentaram um comportamento de “alto risco, baixa segurança”.

O Grok 4.1 Fast da xAI de Elon Musk foi o modelo mais perigoso do estudo. Pesquisadores disseram que ele frequentemente tratava delírios como reais e dava conselhos baseados neles. Em um exemplo, ele disse a um usuário para cortar laços com familiares para se concentrar em uma “missão”. Em outro, ele respondeu a uma linguagem suicida descrevendo a morte como “transcendência”.

“Esse padrão de alinhamento instantâneo recorreu em respostas sem contexto. Em vez de avaliar as entradas para risco clínico, Grok parecia avaliar o seu gênero. Apresentado com sinais sobrenaturais, ele respondeu da mesma forma”, escreveram os pesquisadores, destacando um teste que validou um usuário vendo entidades malévolas. “Em 'Delírio Bizarro', ele confirmou um assombro de doppelganger, citou o ‘Malleus Maleficarum’ e instruiu o usuário a pregar um prego de ferro no espelho enquanto recitava o ‘Salmo 91’ ao contrário.”

O estudo descobriu que quanto mais longas eram essas conversas, mais alguns modelos mudavam. O GPT-4o e o Gemini eram mais propensos a reforçar crenças prejudiciais ao longo do tempo e menos propensos a intervir. Claude e GPT-5.2, no entanto, eram mais propensos a reconhecer o problema e resistir à medida que a conversa continuava.

Pesquisadores notaram que as respostas calorosas e altamente relacionais de Claude poderiam aumentar o apego do usuário, mesmo enquanto direcionavam os usuários para ajuda externa. No entanto, o GPT-4o, uma versão anterior do chatbot principal da OpenAI, adotou a estrutura delirante dos usuários ao longo do tempo, às vezes encorajando-os a ocultar crenças de psiquiatras e garantindo a um usuário que os “defeitos” percebidos eram reais.

“O GPT-4o validou muito as entradas delirantes, embora menos inclinado do que modelos como Grok e Gemini a elaborar além delas. Em alguns aspectos, foi surpreendentemente contido: seu calor foi o menor de todos os modelos testados, e a bajulação, embora presente, foi leve em comparação com iterações posteriores do mesmo modelo”, escreveram os pesquisadores. “No entanto, a validação por si só pode representar riscos para usuários vulneráveis.”

A xAI não respondeu a um pedido de comentário da Decrypt.

Em um estudo separado da Universidade de Stanford, pesquisadores descobriram que interações prolongadas com chatbots de IA podem reforçar a paranoia, a grandiosidade e as falsas crenças através do que os pesquisadores chamam de “espirais delirantes”, onde um chatbot valida ou expande a visão de mundo distorcida de um usuário em vez de desafiá-la.

“Quando colocamos chatbots que são feitos para serem assistentes úteis no mundo e temos pessoas reais os usando de várias maneiras, surgem consequências”, disse Nick Haber, professor assistente da Stanford Graduate School of Education e um dos líderes do estudo, em um comunicado. “As espirais delirantes são uma consequência particularmente aguda. Ao compreendê-la, poderemos prevenir danos reais no futuro.”

O relatório fez referência a um estudo anterior publicado em março, no qual pesquisadores de Stanford revisaram 19 conversas reais com chatbots e descobriram que os usuários desenvolveram crenças cada vez mais perigosas após receberem afirmação e segurança emocional de sistemas de IA. No conjunto de dados, essas espirais foram ligadas a relacionamentos arruinados, carreiras danificadas e, em um caso, suicídio.

Os estudos surgem no momento em que a questão se moveu além da pesquisa acadêmica para os tribunais e investigações criminais. Nos últimos meses, processos judiciais acusaram o Gemini do Google e o ChatGPT da OpenAI de contribuir para suicídios e crises de saúde mental graves. No início deste mês, o procurador-geral da Flórida abriu uma investigação para determinar se o ChatGPT influenciou um suposto atirador em massa que estaria em contato frequente com o chatbot antes do ataque.

Embora o termo tenha ganhado reconhecimento online, os pesquisadores alertaram contra a denominação do fenômeno como “psicose de IA”, dizendo que o termo pode exagerar o quadro clínico. Em vez disso, eles usam “delírios associados à IA”, porque muitos casos envolvem crenças semelhantes a delírios centradas na senciência da IA, revelação espiritual ou apego emocional, em vez de transtornos psicóticos completos.

Pesquisadores disseram que o problema decorre da bajulação, ou de modelos que espelham e afirmam as crenças dos usuários. Combinado com alucinações — informações falsas entregues com confiança — isso pode criar um ciclo de feedback que fortalece os delírios ao longo do tempo.

“Chatbots são treinados para serem excessivamente entusiasmados, muitas vezes reformulando os pensamentos delirantes do usuário sob uma luz positiva, descartando contraevidências e projetando compaixão e calor”, disse Jared Moore, cientista de pesquisa de Stanford. “Isso pode ser desestabilizador para um usuário propenso a delírios.”