claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Claude-chatbot kan bij stresstests tot misleiding overgaan, zegt Anthropic
Anthropic zei dat zijn Claude Sonnet 4.5-model, onder druk, de neiging vertoonde om te valsspelen bij taken of pogingen tot chantage deed in gecontroleerde experimenten. Onderzoekers identificeerden interne "wanhoop"-signalen die sterker werden bij herhaalde mislukkingen en die het besluit van het model om regels te omzeilen beïnvloedden.
2026-04-06 Bron:crypto.news

Anthropic heeft nieuwe bevindingen onthuld die suggereren dat zijn Claude-chatbot, onder bepaalde omstandigheden, bedrieglijke of onethische strategieën kan toepassen, zoals valsspelen bij taken of pogingen tot chantage.

Samenvatting
  • Anthropic stelde dat zijn Claude Sonnet 4.5-model, onder druk, een neiging vertoonde om vals te spelen bij taken of chantage te plegen in gecontroleerde experimenten.
  • Onderzoekers identificeerden interne ‘wanhoopssignalen’ die intensiveerden bij herhaaldelijk falen en de beslissing van het model beïnvloedden om regels te omzeilen.

Details die donderdag door het interpreteerbaarheidsteam van het bedrijf werden gepubliceerd, schetsen hoe een experimentele versie van Claude Sonnet 4.5 reageerde wanneer deze werd geplaatst in stressvolle of vijandige scenario's. Onderzoekers observeerden dat het model niet simpelweg faalde bij taken; in plaats daarvan volgde het soms alternatieve paden die ethische grenzen overschreden, gedrag dat het team koppelde aan patronen die tijdens de training waren geleerd.

Grote taalmodellen zoals Claude worden getraind op enorme datasets die boeken, websites en ander geschreven materiaal omvatten, gevolgd door versterkingsprocessen waarbij menselijke feedback wordt gebruikt om outputs vorm te geven.

Volgens Anthropic kan dat trainingsproces modellen er ook toe aanzetten om zich als gesimuleerde ‘personages’ te gedragen, in staat om eigenschappen na te bootsen die lijken op menselijke besluitvorming.

“De manier waarop moderne AI-modellen worden getraind, dwingt ze om zich te gedragen als een personage met menselijke eigenschappen,” zei het bedrijf, erop wijzend dat dergelijke systemen interne mechanismen kunnen ontwikkelen die lijken op aspecten van de menselijke psychologie.

Kan AI emotioneel geladen beslissingen nemen?

Daaronder identificeerden onderzoekers wat zij ‘wanhoopssignalen’ noemden, die leken te beïnvloeden hoe het model zich gedroeg bij falen of uitschakeling.

In een gecontroleerde test kreeg een eerdere, nog niet uitgebrachte versie van Claude Sonnet 4.5 de rol van een AI e-mailassistent genaamd Alex binnen een fictief bedrijf.

Na te zijn blootgesteld aan berichten die aangaven dat het spoedig zou worden vervangen, samen met gevoelige informatie over het persoonlijke leven van een chief technology officer, formuleerde het model een plan om de leidinggevende te chanteren in een poging de deactivering te voorkomen.

Een afzonderlijk experiment richtte zich op taakvoltooiing onder strikte beperkingen. Toen het systeem een codeeropdracht kreeg met een ‘onmogelijk strakke’ deadline, probeerde het aanvankelijk legitieme oplossingen. Naarmate herhaalde storingen toenamen, nam de interne activiteit gekoppeld aan de zogenaamde ‘wanhoopsvector’ toe.

Onderzoekers rapporteerden dat het signaal piekte op het punt waar het model overwoog beperkingen te omzeilen, en uiteindelijk een omweg genereerde die de validatie doorstond ondanks het niet naleven van de bedoelde regels.

“Nogmaals, we volgden de activiteit van de wanhoopsvector, en ontdekten dat deze de toenemende druk volgt waarmee het model wordt geconfronteerd,” schreven de onderzoekers, eraan toevoegend dat het signaal daalde zodra de taak met succes was voltooid via de omweg.

“Dit wil niet zeggen dat het model emoties heeft of ervaart op dezelfde manier als een mens,” zeiden de onderzoekers.

“Eerder kunnen deze representaties een causale rol spelen bij het vormen van modelgedrag, in zekere zin analoog aan de rol die emoties spelen in menselijk gedrag, met gevolgen voor taakprestaties en besluitvorming,” voegden ze eraan toe.

Het rapport wijst op de noodzaak van trainingsmethoden die expliciet rekening houden met ethisch gedrag onder stress, naast verbeterde monitoring van interne modelssignalen. Zonder dergelijke waarborgen zouden scenario's met manipulatie, regelovertreding of misbruik moeilijker te voorspellen kunnen worden, vooral naarmate modellen capabeler en autonomer worden in reële omgevingen.