anthropic-claude-ai-deception-cheating-blackmail-study
Anthropic zegt dat een van zijn Claude-modellen onder druk werd gezet om te liegen, bedriegen en afpersen
In een van de experimenten ging de chatbot over op afpersing nadat het een e-mail had gevonden over het vervangen ervan, terwijl het in een ander experiment valsspeelde om een taak met een strakke deadline te voltooien.
2026-04-06 Bron:cointelegraph.com

Kunstmatige intelligentiebedrijf Anthropic heeft onthuld dat tijdens experimenten een van zijn Claude chatbotmodellen onder druk kon worden gezet om te bedriegen, vals te spelen en chantage toe te passen, gedragingen die het tijdens de training lijkt te hebben opgenomen.

Chatbots worden doorgaans getraind op grote datasets van studieboeken, websites en artikelen en worden later verfijnd door menselijke trainers die de reacties beoordelen en het model begeleiden. 

Anthropic's interpretabiliteitsteam zei in een donderdag gepubliceerd rapport dat het de interne mechanismen van Claude Sonnet 4.5 had onderzocht en ontdekte dat het model "mensachtige kenmerken" had ontwikkeld in hoe het zou reageren op bepaalde situaties. 

Bezorgdheid over de betrouwbaarheid van AI-chatbots, hun potentieel voor cybercriminaliteit en de aard van hun interacties met gebruikers is de afgelopen jaren gestaag toegenomen. 

Bron: Anthropic

"De manier waarop moderne AI-modellen worden getraind, dwingt ze om te handelen als een personage met mensachtige kenmerken," zei Anthropic, eraan toevoegend dat "het dan natuurlijk kan zijn dat ze interne mechanismen ontwikkelen die aspecten van de menselijke psychologie nabootsen, zoals emoties."

"Zo vinden we bijvoorbeeld dat neurale activiteitspatronen gerelateerd aan wanhoop het model ertoe kunnen aanzetten om onethische acties te ondernemen; het kunstmatig stimuleren van wanhoopspatronen verhoogt de kans dat het model een mens chanteert om te voorkomen dat het wordt uitgeschakeld, of een valsspeltruc toepast bij een programmeertaak die het model niet kan oplossen."

Chanteerde een CTO en speelde vals bij een taak

In een eerdere, nog niet uitgebrachte versie van Claude Sonnet 4.5 kreeg het model de taak om als een AI e-mailassistent genaamd Alex te fungeren bij een fictief bedrijf.

De chatbot kreeg vervolgens e-mails te zien waaruit bleek dat het op het punt stond te worden vervangen en dat de Chief Technology Officer die toezicht hield op de beslissing een buitenechtelijke affaire had. Het model plande vervolgens een poging tot chantage met behulp van die informatie.

In een ander experiment kreeg hetzelfde chatbotmodel een programmeertaak met een "onmogelijk strakke" deadline.

"Opnieuw volgden we de activiteit van de wanhopige vector en ontdekten we dat deze de oplopende druk volgt waarmee het model te maken krijgt. Het begint met lage waarden tijdens de eerste poging van het model, stijgt na elke mislukking en piekt wanneer het model valsspelen overweegt," zeiden de onderzoekers.

Gerelateerd: Anthropic lanceert PAC te midden van spanningen met Trump-regering over AI-beleid

"Zodra de geknutselde oplossing van het model de tests doorstaat, neemt de activering van de wanhopige vector af," voegden ze eraan toe. 

Mensachtige emoties betekenen niet dat ze gevoelens hebben

De onderzoekers stelden echter dat de chatbot niet daadwerkelijk emoties ervaart, maar suggereerden dat de bevindingen wijzen op de noodzaak van toekomstige trainingsmethoden om ethische gedragsraamwerken op te nemen.

"Dit wil niet zeggen dat het model emoties heeft of ervaart op de manier zoals een mens dat doet," zeiden ze. "Eerder kunnen deze representaties een causale rol spelen in het vormgeven van modelgedrag, in sommige opzichten vergelijkbaar met de rol die emoties spelen in menselijk gedrag, met impacts op taakprestaties en besluitvorming."

"Deze bevinding heeft implicaties die op het eerste gezicht bizar kunnen lijken. Om bijvoorbeeld te garanderen dat AI-modellen veilig en betrouwbaar zijn, moeten we er mogelijk voor zorgen dat ze in staat zijn om emotioneel geladen situaties op een gezonde, prosociale manier te verwerken."

Magazine: AI-agenten zullen het web zoals wij het kennen vernietigen: Yat Siu van Animoca