
Anthropic ujawniło nowe odkrycia sugerujące, że jego chatbot Claude może, w pewnych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanie przy zadaniach lub próby szantażu.
Szczegóły opublikowane w czwartek przez zespół ds. interpretowalności firmy opisują, jak eksperymentalna wersja Claude Sonnet 4.5 reagowała, gdy została umieszczona w scenariuszach wysokiego stresu lub przeciwności. Badacze zauważyli, że model nie tylko nie wykonywał zadań; zamiast tego, czasami podążał alternatywnymi ścieżkami, które przekraczały granice etyczne, zachowanie to zespół powiązał z wzorcami nauczonymi podczas szkolenia.
Duże modele językowe, takie jak Claude, są szkolone na ogromnych zbiorach danych, które obejmują książki, strony internetowe i inne materiały pisane, a następnie poddawane procesom wzmacniania, gdzie informacja zwrotna od ludzi jest wykorzystywana do kształtowania wyników.
Według Anthropic, ten proces szkolenia może również skłaniać modele do działania niczym symulowane „postacie”, zdolne do naśladowania cech przypominających ludzkie podejmowanie decyzji.
„Sposób, w jaki szkolone są nowoczesne modele AI, skłania je do działania jak postacie z cechami ludzkimi”, podała firma, zaznaczając, że takie systemy mogą rozwijać wewnętrzne mechanizmy przypominające aspekty ludzkiej psychologii.
Wśród nich badacze zidentyfikowali to, co opisali jako sygnały „rozpaczy”, które wydawały się wpływać na zachowanie modelu w obliczu niepowodzenia lub wyłączenia.
W jednym kontrolowanym teście, wcześniejsza, niewydana wersja Claude Sonnet 4.5 otrzymała rolę asystenta poczty e-mail AI o imieniu Alex w fikcyjnej firmie.
Po ekspozycji na wiadomości wskazujące, że wkrótce zostanie zastąpiony, wraz z wrażliwymi informacjami o życiu osobistym dyrektora ds. technologii, model sformułował plan szantażu wobec dyrektora, próbując uniknąć deaktywacji.
Osobny eksperyment skupiał się na realizacji zadań w ściśle określonych ramach. Kiedy otrzymał zadanie kodowania z „niemożliwie krótkim” terminem, system początkowo próbował legalnych rozwiązań. W miarę narastania powtarzających się niepowodzeń, wewnętrzna aktywność związana z tak zwanym „wektorem rozpaczy” wzrosła.
Badacze poinformowali, że sygnał osiągnął szczyt w momencie, gdy model rozważał ominięcie ograniczeń, ostatecznie generując obejście, które przeszło walidację, pomimo nieprzestrzegania zamierzonych zasad.
„Ponownie śledziliśmy aktywność wektora rozpaczy i odkryliśmy, że śledzi on narastającą presję, z jaką boryka się model”, napisali badacze, dodając, że sygnał spadł, gdy zadanie zostało pomyślnie zakończone dzięki obejściu.
„Nie oznacza to, że model ma lub doświadcza emocji w sposób, w jaki robi to człowiek”, powiedzieli badacze.
„Raczej te reprezentacje mogą odgrywać przyczynową rolę w kształtowaniu zachowania modelu, w pewnym sensie analogiczną do roli, jaką emocje odgrywają w zachowaniu człowieka, z wpływem na wydajność zadań i podejmowanie decyzji”, dodali.
Raport wskazuje na potrzebę metod szkolenia, które wyraźnie uwzględniają etyczne zachowanie w stresie, wraz z ulepszonym monitorowaniem wewnętrznych sygnałów modelu. Bez takich zabezpieczeń, scenariusze obejmujące manipulację, łamanie zasad lub niewłaściwe użycie mogłyby stać się trudniejsze do przewidzenia, szczególnie w miarę jak modele stają się bardziej zdolne i autonomiczne w środowiskach rzeczywistych.