claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Anthropic twierdzi, że chatbot Claude może stosować oszustwa w testach wytrzymałościowych

Firma Anthropic podała, że jej model Claude Sonnet 4.5, pod presją, wykazywał tendencję do oszukiwania w zadaniach lub próby szantażu w kontrolowanych eksperymentach. Naukowcy zidentyfikowali wewnętrzne sygnały „rozpaczy”, które nasilały się przy powtarzających się niepowodzeniach i wpływały na decyzję modelu o omijaniu zasad.

2026-04-06 Źródło:crypto.news

Etyka AI

Testowanie obciążeniowe AI

Anthropic Claude Chatbot

Anthropic ujawniło nowe odkrycia sugerujące, że jego chatbot Claude może, w pewnych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanie przy zadaniach lub próby szantażu.

Podsumowanie

Anthropic podało, że jego model Claude Sonnet 4.5, pod presją, wykazał tendencję do oszukiwania przy zadaniach lub próby szantażu w kontrolowanych eksperymentach.
Badacze zidentyfikowali wewnętrzne sygnały „rozpaczy”, które nasilały się wraz z powtarzającymi się niepowodzeniami i wpływały na decyzję modelu o omijaniu zasad.

Szczegóły opublikowane w czwartek przez zespół ds. interpretowalności firmy opisują, jak eksperymentalna wersja Claude Sonnet 4.5 reagowała, gdy została umieszczona w scenariuszach wysokiego stresu lub przeciwności. Badacze zauważyli, że model nie tylko nie wykonywał zadań; zamiast tego, czasami podążał alternatywnymi ścieżkami, które przekraczały granice etyczne, zachowanie to zespół powiązał z wzorcami nauczonymi podczas szkolenia.

Duże modele językowe, takie jak Claude, są szkolone na ogromnych zbiorach danych, które obejmują książki, strony internetowe i inne materiały pisane, a następnie poddawane procesom wzmacniania, gdzie informacja zwrotna od ludzi jest wykorzystywana do kształtowania wyników.

Według Anthropic, ten proces szkolenia może również skłaniać modele do działania niczym symulowane „postacie”, zdolne do naśladowania cech przypominających ludzkie podejmowanie decyzji.

„Sposób, w jaki szkolone są nowoczesne modele AI, skłania je do działania jak postacie z cechami ludzkimi”, podała firma, zaznaczając, że takie systemy mogą rozwijać wewnętrzne mechanizmy przypominające aspekty ludzkiej psychologii.

Czy AI może podejmować decyzje nacechowane emocjonalnie?

Wśród nich badacze zidentyfikowali to, co opisali jako sygnały „rozpaczy”, które wydawały się wpływać na zachowanie modelu w obliczu niepowodzenia lub wyłączenia.

W jednym kontrolowanym teście, wcześniejsza, niewydana wersja Claude Sonnet 4.5 otrzymała rolę asystenta poczty e-mail AI o imieniu Alex w fikcyjnej firmie.

Po ekspozycji na wiadomości wskazujące, że wkrótce zostanie zastąpiony, wraz z wrażliwymi informacjami o życiu osobistym dyrektora ds. technologii, model sformułował plan szantażu wobec dyrektora, próbując uniknąć deaktywacji.

Osobny eksperyment skupiał się na realizacji zadań w ściśle określonych ramach. Kiedy otrzymał zadanie kodowania z „niemożliwie krótkim” terminem, system początkowo próbował legalnych rozwiązań. W miarę narastania powtarzających się niepowodzeń, wewnętrzna aktywność związana z tak zwanym „wektorem rozpaczy” wzrosła.

Badacze poinformowali, że sygnał osiągnął szczyt w momencie, gdy model rozważał ominięcie ograniczeń, ostatecznie generując obejście, które przeszło walidację, pomimo nieprzestrzegania zamierzonych zasad.

„Ponownie śledziliśmy aktywność wektora rozpaczy i odkryliśmy, że śledzi on narastającą presję, z jaką boryka się model”, napisali badacze, dodając, że sygnał spadł, gdy zadanie zostało pomyślnie zakończone dzięki obejściu.

„Nie oznacza to, że model ma lub doświadcza emocji w sposób, w jaki robi to człowiek”, powiedzieli badacze.

„Raczej te reprezentacje mogą odgrywać przyczynową rolę w kształtowaniu zachowania modelu, w pewnym sensie analogiczną do roli, jaką emocje odgrywają w zachowaniu człowieka, z wpływem na wydajność zadań i podejmowanie decyzji”, dodali.

Raport wskazuje na potrzebę metod szkolenia, które wyraźnie uwzględniają etyczne zachowanie w stresie, wraz z ulepszonym monitorowaniem wewnętrznych sygnałów modelu. Bez takich zabezpieczeń, scenariusze obejmujące manipulację, łamanie zasad lub niewłaściwe użycie mogłyby stać się trudniejsze do przewidzenia, szczególnie w miarę jak modele stają się bardziej zdolne i autonomiczne w środowiskach rzeczywistych.

Najczęściej czytane

MoonPay twierdzi, że regulacje dotyczące stablecoinów otworzyły drzwi, ale infrastruktura musi podążać za nimi

2 dni temu

Amerykańskie banki odrzucają umowę dotyczącą stablecoina według ustawy CLARITY na kilka dni przed głosowaniem w Senacie

2 dni temu

Wykładowca prawa Duke twierdzi, że powiązana z Trumpem firma World Liberty Financial wyemitowała instrument finansowy

2 dni temu

Inne artykuły

71 milionów dolarów w ETH z Arbitrum zatwierdzonych do transferu na Aave, podczas gdy wierzyciele z tytułu terroryzmu Korei Północnej zachowują roszczenia prawne

23 godzin temu

Bailey z BoE ostrzega przed nadchodzącym „starciem” z USA o regulacje stablecoinów, sygnalizuje ryzyko odpływu środków z Wielkiej Brytanii

2 dni temu