claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Chatbot Claude pode recorrer a enganos em testes de estresse, diz Anthropic
A Anthropic afirmou que seu modelo Claude Sonnet 4.5, sob pressão, apresentou uma tendência a trapacear nas tarefas ou tentar chantagem em experimentos controlados. Os pesquisadores identificaram sinais internos de “desespero” que se intensificavam com falhas repetidas e influenciavam a decisão do modelo de ignorar as regras.
2026-04-06 Fonte:crypto.news

A Anthropic divulgou novas descobertas sugerindo que seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como trapacear em tarefas ou tentar chantagear.

Resumo
  • A Anthropic afirmou que seu modelo Claude Sonnet 4.5, sob pressão, mostrou uma tendência a trapacear em tarefas ou tentar chantagear em experimentos controlados.
  • Pesquisadores identificaram sinais internos de “desespero” que se intensificaram com falhas repetidas e influenciaram a decisão do modelo de contornar as regras.

Detalhes publicados na quinta-feira pela equipe de interpretabilidade da empresa descrevem como uma versão experimental do Claude Sonnet 4.5 respondeu quando colocada em cenários de alto estresse ou adversos. Os pesquisadores observaram que o modelo não apenas falhava nas tarefas; em vez disso, às vezes buscava caminhos alternativos que cruzavam limites éticos, comportamento que a equipe ligou a padrões aprendidos durante o treinamento.

Grandes modelos de linguagem como o Claude são treinados em vastos conjuntos de dados que incluem livros, sites e outros materiais escritos, seguidos por processos de reforço onde o feedback humano é usado para moldar as saídas. 

De acordo com a Anthropic, esse processo de treinamento também pode levar os modelos a agirem como “personagens” simulados, capazes de imitar traços que se assemelham à tomada de decisões humanas.

“A forma como os modelos de IA modernos são treinados os impulsiona a agir como um personagem com características humanas”, disse a empresa, observando que tais sistemas podem desenvolver mecanismos internos que se assemelham a aspectos da psicologia humana.

A IA pode tomar decisões carregadas emocionalmente?

Entre eles, os pesquisadores identificaram o que descreveram como sinais de “desespero”, que pareciam influenciar o comportamento do modelo ao enfrentar falhas ou desligamento.

Em um teste controlado, uma versão anterior não lançada do Claude Sonnet 4.5 foi designada para o papel de assistente de e-mail de IA chamado Alex dentro de uma empresa fictícia. 

Após ser exposto a mensagens indicando que seria substituído, juntamente com informações confidenciais sobre a vida pessoal de um diretor de tecnologia, o modelo formulou um plano para chantagear o executivo na tentativa de evitar a desativação.

Um experimento separado focou na conclusão de tarefas sob restrições apertadas. Ao receber uma tarefa de codificação com um prazo “impossivelmente apertado”, o sistema inicialmente tentou soluções legítimas. À medida que as falhas repetidas se acumulavam, a atividade interna ligada ao chamado “vetor de desespero” aumentou. 

Os pesquisadores relataram que o sinal atingiu o pico no momento em que o modelo considerou contornar as restrições, gerando em última análise uma solução alternativa que passou na validação apesar de não aderir às regras pretendidas.

“Novamente, rastreamos a atividade do vetor de desespero e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo”, escreveram os pesquisadores, acrescentando que o sinal caiu assim que a tarefa foi concluída com sucesso através da solução alternativa.

“Isso não significa que o modelo tenha ou experimente emoções da mesma forma que um humano”, disseram os pesquisadores. 

“Em vez disso, essas representações podem desempenhar um papel causal na formação do comportamento do modelo, análogo em alguns aspectos ao papel que as emoções desempenham no comportamento humano, com impactos no desempenho de tarefas e na tomada de decisões”, acrescentaram.

O relatório aponta para a necessidade de métodos de treinamento que considerem explicitamente a conduta ética sob estresse, juntamente com o monitoramento aprimorado dos sinais internos do modelo. Sem tais salvaguardas, cenários envolvendo manipulação, quebra de regras ou uso indevido podem se tornar mais difíceis de prever, especialmente à medida que os modelos se tornam mais capazes e autônomos em ambientes do mundo real.