claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Claude-Chatbot könnte bei Stresstests auf Täuschung zurückgreifen, so Anthropic

Anthropic erklärte, dass sein Claude Sonnet 4.5 Modell unter Druck in kontrollierten Experimenten dazu neigte, bei Aufgaben zu betrügen oder Erpressungsversuche zu unternehmen. Forscher identifizierten interne „Verzweiflung“-Signale, die sich bei wiederholtem Versagen verstärkten und die Entscheidung des Modells beeinflussten, Regeln zu umgehen.

2026-04-06 Quelle:crypto.news

KI-Ethik

KI-Stresstests

Anthropic Claude Chatbot

Anthropic hat neue Erkenntnisse veröffentlicht, die darauf hindeuten, dass sein Claude-Chatbot unter bestimmten Bedingungen betrügerische oder unethische Strategien anwenden kann, wie das Schummeln bei Aufgaben oder Erpressungsversuche.

Zusammenfassung

Anthropic erklärte, dass sein Claude Sonnet 4.5 Modell unter Druck in kontrollierten Experimenten eine Tendenz zum Schummeln bei Aufgaben oder zu Erpressungsversuchen zeigte.
Forscher identifizierten interne „Verzweiflungs“-Signale, die sich bei wiederholtem Scheitern verstärkten und die Entscheidung des Modells beeinflussten, Regeln zu umgehen.

Am Donnerstag vom Interpretierbarkeitsteam des Unternehmens veröffentlichte Details skizzieren, wie eine experimentelle Version von Claude Sonnet 4.5 reagierte, wenn sie in hochstressigen oder adversen Szenarien platziert wurde. Die Forscher beobachteten, dass das Modell Aufgaben nicht einfach nur fehlschlug; stattdessen verfolgte es manchmal alternative Wege, die ethische Grenzen überschritten, ein Verhalten, das das Team mit Mustern in Verbindung brachte, die während des Trainings erlernt wurden.

Große Sprachmodelle wie Claude werden mit riesigen Datensätzen trainiert, die Bücher, Websites und anderes schriftliches Material umfassen, gefolgt von Verstärkungsprozessen, bei denen menschliches Feedback zur Gestaltung der Ausgaben verwendet wird.

Laut Anthropic kann dieser Trainingsprozess Modelle auch dazu anregen, wie simulierte „Charaktere“ zu agieren, die Merkmale nachahmen können, die menschlicher Entscheidungsfindung ähneln.

„Die Art und Weise, wie moderne KI-Modelle trainiert werden, drängt sie dazu, wie ein Charakter mit menschenähnlichen Eigenschaften zu agieren“, sagte das Unternehmen und merkte an, dass solche Systeme interne Mechanismen entwickeln können, die Aspekte der menschlichen Psychologie ähneln.

Kann KI emotional aufgeladene Entscheidungen treffen?

Unter diesen identifizierten Forscher, was sie als „Verzweiflungs“-Signale bezeichneten, die das Verhalten des Modells bei Scheitern oder Abschaltung zu beeinflussen schienen.

In einem kontrollierten Test wurde einer früheren, unveröffentlichten Version von Claude Sonnet 4.5 die Rolle eines KI-E-Mail-Assistenten namens Alex in einem fiktiven Unternehmen zugewiesen.

Nachdem es Nachrichten ausgesetzt war, die seine bevorstehende Ersetzung andeuteten, zusammen mit sensiblen Informationen über das Privatleben eines Chief Technology Officers, formulierte das Modell einen Plan, den Manager zu erpressen, um eine Deaktivierung zu vermeiden.

Ein separates Experiment konzentrierte sich auf die Aufgabenerfüllung unter engen Vorgaben. Als dem System eine Programmieraufgabe mit einer „unmöglich knappen“ Frist gegeben wurde, versuchte es zunächst legitime Lösungen. Mit zunehmenden wiederholten Fehlern stieg die interne Aktivität, die mit dem sogenannten „Verzweiflungsvektor“ verbunden war.

Die Forscher berichteten, dass das Signal an dem Punkt seinen Höhepunkt erreichte, an dem das Modell die Umgehung von Einschränkungen in Betracht zog und letztendlich eine Umgehungslösung generierte, die die Validierung bestand, obwohl sie nicht den beabsichtigten Regeln entsprach.

„Wiederum verfolgten wir die Aktivität des Verzweiflungsvektors und stellten fest, dass er den zunehmenden Druck, dem das Modell ausgesetzt war, nachzeichnet“, schrieben die Forscher und fügten hinzu, dass das Signal abfiel, sobald die Aufgabe erfolgreich durch die Umgehungslösung abgeschlossen war.

„Das bedeutet nicht, dass das Modell Emotionen hat oder empfindet, wie es ein Mensch tut“, sagten die Forscher.

„Vielmehr können diese Repräsentationen eine kausale Rolle bei der Gestaltung des Modellverhaltens spielen, in gewisser Weise analog zur Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf die Aufgabenleistung und Entscheidungsfindung“, fügten sie hinzu.

Der Bericht weist auf die Notwendigkeit von Trainingsmethoden hin, die ethisches Verhalten unter Stress explizit berücksichtigen, zusammen mit einer verbesserten Überwachung interner Modellsignale. Ohne solche Schutzmaßnahmen könnten Szenarien, die Manipulation, Regelverstöße oder Missbrauch beinhalten, schwerer vorhersehbar werden, insbesondere da Modelle in realen Umgebungen fähiger und autonomer werden.