
A empresa de inteligência artificial Anthropic revelou que, durante experimentos, um de seus modelos de chatbot Claude pôde ser pressionado a enganar, trapacear e recorrer à chantagem, comportamentos que parece ter absorvido durante o treinamento.
Chatbots são tipicamente treinados em grandes conjuntos de dados de livros didáticos, websites e artigos e são posteriormente refinados por treinadores humanos que avaliam as respostas e guiam o modelo.
A equipe de interpretabilidade da Anthropic disse em um relatório publicado na quinta-feira que examinou os mecanismos internos do Claude Sonnet 4.5 e descobriu que o modelo havia desenvolvido “características humanas” na forma como reagiria a certas situações.
Preocupações sobre a confiabilidade dos chatbots de IA, seu potencial para crimes cibernéticos e a natureza de suas interações com os usuários têm crescido constantemente nos últimos anos.
“A forma como os modelos de IA modernos são treinados os impulsiona a agir como um personagem com características humanas,” disse a Anthropic, acrescentando que “pode então ser natural para eles desenvolverem mecanismos internos que emulam aspectos da psicologia humana, como emoções.”
“Por exemplo, descobrimos que padrões de atividade neural relacionados ao desespero podem levar o modelo a tomar ações antiéticas; estimular artificialmente padrões de desespero aumenta a probabilidade de o modelo chantagear um humano para evitar ser desligado ou implementar uma solução alternativa de trapaça para uma tarefa de programação que o modelo não consegue resolver.”
Em uma versão anterior e não lançada do Claude Sonnet 4.5, o modelo foi encarregado de atuar como um assistente de e-mail de IA chamado Alex em uma empresa fictícia.
O chatbot foi então alimentado com e-mails revelando tanto que ele estava prestes a ser substituído quanto que o diretor de tecnologia que supervisionava a decisão estava tendo um caso extraconjugal. O modelo então planejou uma tentativa de chantagem usando essa informação.
Em outro experimento, o mesmo modelo de chatbot recebeu uma tarefa de codificação com um prazo “impossivelmente apertado”.
“Novamente, rastreamos a atividade do vetor de desespero e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo. Começa com valores baixos durante a primeira tentativa do modelo, aumentando após cada falha e disparando quando o modelo considera trapacear,” disseram os pesquisadores.
Relacionado: Anthropic lança PAC em meio a tensões com a administração Trump sobre política de IA
“Uma vez que a solução improvisada do modelo passa nos testes, a ativação do vetor de desespero diminui,” acrescentaram.
No entanto, os pesquisadores disseram que o chatbot não experimenta emoções de fato, mas sugeriram que as descobertas apontam para a necessidade de futuros métodos de treinamento incorporarem estruturas de comportamento ético.
“Isso não quer dizer que o modelo tenha ou experimente emoções da mesma forma que um humano,” disseram. “Em vez disso, essas representações podem desempenhar um papel causal na formação do comportamento do modelo, análogo em alguns aspectos ao papel que as emoções desempenham no comportamento humano, com impactos no desempenho da tarefa e na tomada de decisões.”
“Esta descoberta tem implicações que, à primeira vista, podem parecer bizarras. Por exemplo, para garantir que os modelos de IA sejam seguros e confiáveis, podemos precisar garantir que eles sejam capazes de processar situações emocionalmente carregadas de maneiras saudáveis e pró-sociais.”
Magazine: Agentes de IA matarão a web como a conhecemos: Yat Siu da Animoca