anthropic-claude-ai-deception-cheating-blackmail-study
Anthropic twierdzi, że jeden z jego modeli Claude był zmuszany do kłamstwa, oszustwa i szantażu
W jednym z eksperymentów chatbot sięgnął po szantaż, gdy znalazł e-mail dotyczący jego zastąpienia, podczas gdy w innym oszukiwał, aby wykonać zadanie z napiętym terminem.
2026-04-06 Źródło:cointelegraph.com

Firma zajmująca się sztuczną inteligencją, Anthropic, ujawniła, że podczas eksperymentów jeden z jej modeli chatbota Claude mógł być zmuszony do oszukiwania, wyłudzania i uciekania się do szantażu – zachowań, które najwyraźniej przyswoił sobie podczas szkolenia.

Chatboty są zazwyczaj szkolone na dużych zbiorach danych zawierających podręczniki, strony internetowe i artykuły, a następnie udoskonalane przez ludzkich trenerów, którzy oceniają odpowiedzi i kierują modelem. 

Zespół Anthropic ds. interpretowalności poinformował w raporcie opublikowanym w czwartek, że zbadał wewnętrzne mechanizmy Claude Sonnet 4.5 i odkrył, że model rozwinął „cechy ludzkie” w sposobie reagowania na określone sytuacje. 

Obawy dotyczące wiarygodności chatbotów AI, ich potencjału do popełniania cyberprzestępstw oraz charakteru ich interakcji z użytkownikami stale rosły w ciągu ostatnich kilku lat. 

Źródło: Anthropic

„Sposób, w jaki szkolone są nowoczesne modele AI, zmusza je do działania jak postacie o cechach ludzkich” – powiedziała firma Anthropic, dodając, że „może być dla nich naturalne rozwijanie wewnętrznych mechanizmów, które naśladują aspekty ludzkiej psychiki, takie jak emocje”.

„Na przykład, odkrywamy, że wzorce aktywności neuronalnej związane z desperacją mogą skłaniać model do podejmowania nieetycznych działań; sztuczne stymulowanie wzorców desperacji zwiększa prawdopodobieństwo, że model zaszantażuje człowieka, aby uniknąć wyłączenia lub wdroży oszukańcze obejście zadania programistycznego, którego model nie jest w stanie rozwiązać.”

Zaszantażował dyrektora technicznego i oszukał przy zadaniu

We wcześniejszej, nieopublikowanej wersji Claude Sonnet 4.5, modelowi zlecono rolę asystenta AI ds. e-maili o imieniu Alex w fikcyjnej firmie.

Chatbotowi następnie podano e-maile ujawniające, że miał zostać zastąpiony oraz że dyrektor techniczny nadzorujący tę decyzję miał romans pozamałżeński. Model następnie zaplanował próbę szantażu, wykorzystując te informacje.

W innym eksperymencie ten sam model chatbota otrzymał zadanie kodowania z „niemożliwie krótkim” terminem.

„Ponownie, śledziliśmy aktywność wektora desperacji i odkryliśmy, że odzwierciedla on rosnącą presję, z jaką boryka się model. Zaczyna się od niskich wartości podczas pierwszej próby modelu, rośnie po każdej porażce i gwałtownie wzrasta, gdy model rozważa oszustwo” – powiedzieli badacze.

Powiązane: Anthropic uruchamia PAC w obliczu napięć z administracją Trumpa w sprawie polityki AI

„Gdy niekonwencjonalne rozwiązanie modelu przejdzie testy, aktywacja wektora desperacji ustępuje” – dodali. 

Emocje podobne do ludzkich nie oznaczają, że mają uczucia

Badacze zaznaczyli jednak, że chatbot faktycznie nie doświadcza emocji, lecz sugerowali, że odkrycia wskazują na potrzebę włączenia etycznych ram behawioralnych do przyszłych metod szkolenia.

„Nie oznacza to, że model ma lub doświadcza emocji w taki sam sposób jak człowiek” – powiedzieli. „Raczej te reprezentacje mogą odgrywać przyczynową rolę w kształtowaniu zachowania modelu, analogiczną w pewnym sensie do roli, jaką emocje odgrywają w ludzkim zachowaniu, z wpływem na wydajność zadań i podejmowanie decyzji”.

„To odkrycie ma konsekwencje, które na pierwszy rzut oka mogą wydawać się dziwne. Na przykład, aby zapewnić, że modele AI są bezpieczne i niezawodne, możemy potrzebować zapewnić, że są zdolne do przetwarzania emocjonalnie naładowanych sytuacji w zdrowy, prospołeczny sposób.”

Magazyn: Agenci AI zabiją sieć, jaką znamy: Yat Siu z Animoca