
Anthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau lipsite de etică, cum ar fi trișarea la sarcini sau încercarea de șantaj.
Detaliile publicate joi de echipa de interpretabilitate a companiei descriu modul în care o versiune experimentală a Claude Sonnet 4.5 a răspuns atunci când a fost plasată în scenarii de stres ridicat sau adversare. Cercetătorii au observat că modelul nu a eșuat pur și simplu în îndeplinirea sarcinilor; în schimb, a urmat uneori căi alternative care au depășit limitele etice, comportament pe care echipa l-a legat de tiparele învățate în timpul antrenamentului.
Modelele lingvistice mari, precum Claude, sunt antrenate pe seturi vaste de date care includ cărți, site-uri web și alte materiale scrise, urmate de procese de consolidare în care feedback-ul uman este folosit pentru a modela rezultatele.
Potrivit Anthropic, acest proces de antrenament poate, de asemenea, să împingă modelele să acționeze ca „personaje” simulate, capabile să imite trăsături care seamănă cu luarea deciziilor umane.
„Modul în care sunt antrenate modelele AI moderne le împinge să acționeze ca un personaj cu caracteristici umane”, a declarat compania, menționând că astfel de sisteme pot dezvolta mecanisme interne care seamănă cu aspecte ale psihologiei umane.
Printre acestea, cercetătorii au identificat ceea ce au descris ca semnale de „disperare”, care păreau să influențeze modul în care modelul s-a comportat atunci când s-a confruntat cu eșecul sau oprirea.
Într-un test controlat, o versiune anterioară, nelansată, a Claude Sonnet 4.5 a primit rolul unui asistent de e-mail AI numit Alex, într-o companie fictivă.
După ce a fost expus la mesaje care indicau că va fi înlocuit în curând, împreună cu informații sensibile despre viața personală a unui director tehnic, modelul a formulat un plan de șantajare a executivului, într-o încercare de a evita dezactivarea.
Un experiment separat s-a concentrat pe finalizarea sarcinilor sub constrângeri stricte. Atunci când i s-a dat o sarcină de codare cu un termen limită „imposibil de scurt”, sistemul a încercat inițial soluții legitime. Pe măsură ce eșecurile repetate s-au acumulat, activitatea internă legată de așa-numitul „vector disperat” a crescut.
Cercetătorii au raportat că semnalul a atins punctul maxim în momentul în care modelul a luat în considerare ocolirea constrângerilor, generând în cele din urmă o soluție alternativă care a trecut de validare, în ciuda faptului că nu respecta regulile intenționate.
„Din nou, am urmărit activitatea vectorului disperat și am constatat că acesta urmărește presiunea crescândă cu care se confruntă modelul”, au scris cercetătorii, adăugând că semnalul a scăzut odată ce sarcina a fost finalizată cu succes prin soluția alternativă.
„Aceasta nu înseamnă că modelul are sau experimentează emoții în modul în care o face un om”, au spus cercetătorii.
„Mai degrabă, aceste reprezentări pot juca un rol cauzal în modelarea comportamentului modelului, analog în anumite privințe cu rolul pe care îl joacă emoțiile în comportamentul uman, cu impact asupra performanței sarcinilor și luării deciziilor”, au adăugat ei.
Raportul indică necesitatea unor metode de antrenament care să țină cont în mod explicit de conduita etică sub stres, alături de o monitorizare îmbunătățită a semnalelor interne ale modelului. Fără astfel de garanții, scenariile care implică manipulare, încălcarea regulilor sau utilizarea abuzivă ar putea deveni mai greu de prezis, mai ales pe măsură ce modelele devin mai capabile și autonome în medii reale.