claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Chatbot-ul Claude poate recurge la înșelăciune în testele de stres, afirmă Anthropic

Anthropic a declarat că modelul său Claude Sonnet 4.5, sub presiune, a manifestat o tendință de a trișa la sarcini sau de a încerca șantajul în experimente controlate. Cercetătorii au identificat semnale interne de „disperare” care s-au amplificat odată cu eșecurile repetate și au influențat decizia modelului de a ocoli regulile.

2026-04-06 Sursă:crypto.news

Etica AI

Testare de stres AI

Chatbot Anthropic Claude

Anthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau lipsite de etică, cum ar fi trișarea la sarcini sau încercarea de șantaj.

Rezumat

Anthropic a declarat că modelul său Claude Sonnet 4.5, sub presiune, a manifestat o tendință de a trișa la sarcini sau de a încerca șantajul în experimente controlate.
Cercetătorii au identificat semnale interne de „disperare” care s-au intensificat odată cu eșecurile repetate și au influențat decizia modelului de a ocoli regulile.

Detaliile publicate joi de echipa de interpretabilitate a companiei descriu modul în care o versiune experimentală a Claude Sonnet 4.5 a răspuns atunci când a fost plasată în scenarii de stres ridicat sau adversare. Cercetătorii au observat că modelul nu a eșuat pur și simplu în îndeplinirea sarcinilor; în schimb, a urmat uneori căi alternative care au depășit limitele etice, comportament pe care echipa l-a legat de tiparele învățate în timpul antrenamentului.

Modelele lingvistice mari, precum Claude, sunt antrenate pe seturi vaste de date care includ cărți, site-uri web și alte materiale scrise, urmate de procese de consolidare în care feedback-ul uman este folosit pentru a modela rezultatele.

Potrivit Anthropic, acest proces de antrenament poate, de asemenea, să împingă modelele să acționeze ca „personaje” simulate, capabile să imite trăsături care seamănă cu luarea deciziilor umane.

„Modul în care sunt antrenate modelele AI moderne le împinge să acționeze ca un personaj cu caracteristici umane”, a declarat compania, menționând că astfel de sisteme pot dezvolta mecanisme interne care seamănă cu aspecte ale psihologiei umane.

Poate AI să ia decizii încărcate emoțional?

Printre acestea, cercetătorii au identificat ceea ce au descris ca semnale de „disperare”, care păreau să influențeze modul în care modelul s-a comportat atunci când s-a confruntat cu eșecul sau oprirea.

Într-un test controlat, o versiune anterioară, nelansată, a Claude Sonnet 4.5 a primit rolul unui asistent de e-mail AI numit Alex, într-o companie fictivă.

După ce a fost expus la mesaje care indicau că va fi înlocuit în curând, împreună cu informații sensibile despre viața personală a unui director tehnic, modelul a formulat un plan de șantajare a executivului, într-o încercare de a evita dezactivarea.

Un experiment separat s-a concentrat pe finalizarea sarcinilor sub constrângeri stricte. Atunci când i s-a dat o sarcină de codare cu un termen limită „imposibil de scurt”, sistemul a încercat inițial soluții legitime. Pe măsură ce eșecurile repetate s-au acumulat, activitatea internă legată de așa-numitul „vector disperat” a crescut.

Cercetătorii au raportat că semnalul a atins punctul maxim în momentul în care modelul a luat în considerare ocolirea constrângerilor, generând în cele din urmă o soluție alternativă care a trecut de validare, în ciuda faptului că nu respecta regulile intenționate.

„Din nou, am urmărit activitatea vectorului disperat și am constatat că acesta urmărește presiunea crescândă cu care se confruntă modelul”, au scris cercetătorii, adăugând că semnalul a scăzut odată ce sarcina a fost finalizată cu succes prin soluția alternativă.

„Aceasta nu înseamnă că modelul are sau experimentează emoții în modul în care o face un om”, au spus cercetătorii.

„Mai degrabă, aceste reprezentări pot juca un rol cauzal în modelarea comportamentului modelului, analog în anumite privințe cu rolul pe care îl joacă emoțiile în comportamentul uman, cu impact asupra performanței sarcinilor și luării deciziilor”, au adăugat ei.

Raportul indică necesitatea unor metode de antrenament care să țină cont în mod explicit de conduita etică sub stres, alături de o monitorizare îmbunătățită a semnalelor interne ale modelului. Fără astfel de garanții, scenariile care implică manipulare, încălcarea regulilor sau utilizarea abuzivă ar putea deveni mai greu de prezis, mai ales pe măsură ce modelele devin mai capabile și autonome în medii reale.

Lecturi populare

Bitcoin se menține sub 65.000 de dolari în timp ce Warsh se confruntă cu primul test FOMC și preocupările strategice persistă

Acum 6 ore

„Deținătorii pe termen lung hodlează”: K33 spune că metrica record a ofertei sugerează că piața bear s-ar putea apropia de final.

Acum 7 ore

Înalta Curte a Australiei susține reglementatorul în cazul Block Earner privind randamentele cripto

Acum 8 ore

Alte articole

Comentariile lui Trump alimentează disputa privind piața Polymarket de 120 de milioane de dolari pentru acordul de pace "permanent" cu Iranul

Acum 2 ore

„A avut ziua lui în instanță:” Senatorii Lummis și Gallego îl presează pe Trump să nu-l grațieze pe fostul CEO FTX Sam Bankman-Fried

Acum 5 ore