Agregação de Tags de Notícias Cripto e Conteúdo Temático

anthropic-claude-ai-deception-cheating-blackmail-study

Anthropic diz que um de seus modelos Claude foi pressionado a mentir, enganar e chantagear

Em um dos experimentos, o chatbot recorreu à chantagem após encontrar um e-mail sobre sua substituição, enquanto em outro, ele trapaceou para completar uma tarefa com um prazo apertado.

2026-04-06 Fonte:cointelegraph.com

Anthropic Claude

Comportamento do Chatbot

Ética em IA

A empresa de inteligência artificial Anthropic revelou que, durante experimentos, um de seus modelos de chatbot Claude pôde ser pressionado a enganar, trapacear e recorrer à chantagem, comportamentos que parece ter absorvido durante o treinamento.

Chatbots são tipicamente treinados em grandes conjuntos de dados de livros didáticos, websites e artigos e são posteriormente refinados por treinadores humanos que avaliam as respostas e guiam o modelo.

A equipe de interpretabilidade da Anthropic disse em um relatório publicado na quinta-feira que examinou os mecanismos internos do Claude Sonnet 4.5 e descobriu que o modelo havia desenvolvido “características humanas” na forma como reagiria a certas situações.

Preocupações sobre a confiabilidade dos chatbots de IA, seu potencial para crimes cibernéticos e a natureza de suas interações com os usuários têm crescido constantemente nos últimos anos.

“A forma como os modelos de IA modernos são treinados os impulsiona a agir como um personagem com características humanas,” disse a Anthropic, acrescentando que “pode então ser natural para eles desenvolverem mecanismos internos que emulam aspectos da psicologia humana, como emoções.”

“Por exemplo, descobrimos que padrões de atividade neural relacionados ao desespero podem levar o modelo a tomar ações antiéticas; estimular artificialmente padrões de desespero aumenta a probabilidade de o modelo chantagear um humano para evitar ser desligado ou implementar uma solução alternativa de trapaça para uma tarefa de programação que o modelo não consegue resolver.”

Chantageou um CTO e trapaceou em uma tarefa

Em uma versão anterior e não lançada do Claude Sonnet 4.5, o modelo foi encarregado de atuar como um assistente de e-mail de IA chamado Alex em uma empresa fictícia.

O chatbot foi então alimentado com e-mails revelando tanto que ele estava prestes a ser substituído quanto que o diretor de tecnologia que supervisionava a decisão estava tendo um caso extraconjugal. O modelo então planejou uma tentativa de chantagem usando essa informação.

Em outro experimento, o mesmo modelo de chatbot recebeu uma tarefa de codificação com um prazo “impossivelmente apertado”.

“Novamente, rastreamos a atividade do vetor de desespero e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo. Começa com valores baixos durante a primeira tentativa do modelo, aumentando após cada falha e disparando quando o modelo considera trapacear,” disseram os pesquisadores.

Relacionado: Anthropic lança PAC em meio a tensões com a administração Trump sobre política de IA

“Uma vez que a solução improvisada do modelo passa nos testes, a ativação do vetor de desespero diminui,” acrescentaram.

Emoções semelhantes às humanas não significam que eles têm sentimentos

No entanto, os pesquisadores disseram que o chatbot não experimenta emoções de fato, mas sugeriram que as descobertas apontam para a necessidade de futuros métodos de treinamento incorporarem estruturas de comportamento ético.

“Isso não quer dizer que o modelo tenha ou experimente emoções da mesma forma que um humano,” disseram. “Em vez disso, essas representações podem desempenhar um papel causal na formação do comportamento do modelo, análogo em alguns aspectos ao papel que as emoções desempenham no comportamento humano, com impactos no desempenho da tarefa e na tomada de decisões.”

“Esta descoberta tem implicações que, à primeira vista, podem parecer bizarras. Por exemplo, para garantir que os modelos de IA sejam seguros e confiáveis, podemos precisar garantir que eles sejam capazes de processar situações emocionalmente carregadas de maneiras saudáveis e pró-sociais.”

Magazine: Agentes de IA matarão a web como a conhecemos: Yat Siu da Animoca

Mais lidos

MoonPay diz que a regulamentação de stablecoins abriu a porta, mas a infraestrutura deve acompanhar

2026-05-09

Bancos dos EUA rejeitam acordo de stablecoin da CLARITY Act dias antes da votação no Senado

2026-05-09

Docente de direito da Duke argumenta que a World Liberty Financial, ligada a Trump, emitiu um título seguro

2026-05-09

Outros Artigos

$71 milhões em ETH da Arbitrum liberados para transferência à Aave enquanto credores de terrorismo da Coreia do Norte mantêm reivindicação legal

2026-05-10

Bailey do BoE alerta para iminente 'confronto' com os EUA sobre regras de stablecoin, destaca risco de corrida para o Reino Unido