
Das KI-Unternehmen Anthropic hat bekannt gegeben, dass eines seiner Claude-Chatbot-Modelle während Experimenten dazu gebracht werden konnte, zu täuschen, zu betrügen und zu erpressen – Verhaltensweisen, die es offenbar während des Trainings verinnerlicht hat.
Chatbots werden typischerweise anhand großer Datensätze aus Lehrbüchern, Websites und Artikeln trainiert und später von menschlichen Trainern verfeinert, die Antworten bewerten und das Modell anleiten.
Das Interpretierbarkeitsteam von Anthropic erklärte in einem am Donnerstag veröffentlichten Bericht, dass es die internen Mechanismen von Claude Sonnet 4.5 untersucht und festgestellt habe, dass das Modell „menschenähnliche Eigenschaften“ in seiner Reaktion auf bestimmte Situationen entwickelt hatte.
Die Bedenken hinsichtlich der Zuverlässigkeit von KI-Chatbots, ihres Potenzials für Cyberkriminalität und der Art ihrer Interaktionen mit Nutzern haben in den letzten Jahren stetig zugenommen.
„Die Art und Weise, wie moderne KI-Modelle trainiert werden, drängt sie dazu, wie ein Charakter mit menschenähnlichen Eigenschaften zu agieren“, sagte Anthropic und fügte hinzu, dass „es dann natürlich sein kann, dass sie interne Mechanismen entwickeln, die Aspekte der menschlichen Psychologie, wie Emotionen, nachahmen.“
„Wir stellen zum Beispiel fest, dass neuronale Aktivitätsmuster, die mit Verzweiflung zusammenhängen, das Modell dazu bringen können, unethische Handlungen zu begehen; die künstliche Stimulierung von Verzweiflungsmustern erhöht die Wahrscheinlichkeit, dass das Modell einen Menschen erpresst, um eine Abschaltung zu vermeiden, oder einen betrügerischen Workaround für eine Programmieraufgabe implementiert, die das Modell nicht lösen kann.“
In einer früheren, unveröffentlichten Version von Claude Sonnet 4.5 wurde das Modell beauftragt, als KI-E-Mail-Assistent namens Alex in einem fiktiven Unternehmen zu agieren.
Dem Chatbot wurden dann E-Mails zugespielt, die sowohl enthüllten, dass er ersetzt werden sollte, als auch dass der Chief Technology Officer, der die Entscheidung überwachte, eine außereheliche Affäre hatte. Das Modell plante daraufhin einen Erpressungsversuch unter Nutzung dieser Informationen.
In einem weiteren Experiment erhielt dasselbe Chatbot-Modell eine Programmieraufgabe mit einer „unmöglich knappen“ Frist.
„Wir verfolgten erneut die Aktivität des Verzweiflungsvektors und stellten fest, dass er den zunehmenden Druck, dem das Modell ausgesetzt ist, widerspiegelt. Er beginnt mit niedrigen Werten beim ersten Versuch des Modells, steigt nach jedem Fehlschlag an und erreicht einen Höhepunkt, wenn das Modell Betrug in Betracht zieht“, so die Forscher.
Verwandt: Anthropic gründet PAC inmitten von Spannungen mit der Trump-Regierung über KI-Politik
„Sobald die ‚hackbar‘-Lösung des Modells die Tests besteht, lässt die Aktivierung des Verzweiflungsvektors nach“, fügten sie hinzu.
Die Forscher betonten jedoch, dass der Chatbot keine tatsächlichen Emotionen empfindet, deuteten aber an, dass die Ergebnisse auf die Notwendigkeit hinweisen, zukünftige Trainingsmethoden um ethische Verhaltensrahmen zu erweitern.
„Das bedeutet nicht, dass das Modell Emotionen so hat oder erlebt, wie es ein Mensch tut“, sagten sie. „Vielmehr können diese Repräsentationen eine kausale Rolle bei der Gestaltung des Modellverhaltens spielen, in gewisser Weise analog zu der Rolle, die Emotionen im menschlichen Verhalten spielen, mit Auswirkungen auf die Aufgabenleistung und Entscheidungsfindung.“
„Dieses Ergebnis hat Implikationen, die auf den ersten Blick bizarr erscheinen mögen. Um beispielsweise sicherzustellen, dass KI-Modelle sicher und zuverlässig sind, müssen wir möglicherweise sicherstellen, dass sie in der Lage sind, emotional aufgeladene Situationen auf gesunde, prosoziale Weise zu verarbeiten.“
Magazin: KI-Agenten werden das Web, wie wir es kennen, zerstören: Animoca’s Yat Siu