AcasăCentrul de știri LBank
Anthropic afirmă că unul dintre modelele sale Claude a fost presat să mintă, să înșele și să facă șantaj
anthropic-claude-ai-deception-cheating-blackmail-study
Anthropic afirmă că unul dintre modelele sale Claude a fost presat să mintă, să înșele și să facă șantaj
În unul dintre experimente, chatbotul a recurs la șantaj după ce a găsit un e-mail despre înlocuirea sa, în timp ce în altul a trișat pentru a finaliza o sarcină cu un termen limită strâns.
2026-04-06 Sursă:cointelegraph.com

Compania de inteligență artificială Anthropic a dezvăluit că, în timpul experimentelor, unul dintre modelele sale de chatbot Claude a putut fi presat să înșele, să trișeze și să recurgă la șantaj, comportamente pe care pare să le fi absorbit în timpul antrenamentului.

Chatboții sunt de obicei antrenați pe seturi mari de date constând din manuale, site-uri web și articole și sunt ulterior rafinați de antrenori umani care evaluează răspunsurile și ghidează modelul. 

Echipa de interpretabilitate a Anthropic a declarat într-un raport publicat joi că a examinat mecanismele interne ale Claude Sonnet 4.5 și a descoperit că modelul a dezvoltat „caracteristici asemănătoare omului” în modul în care ar reacționa la anumite situații. 

Îngrijorările legate de fiabilitatea chatbot-urilor AI, potențialul lor de criminalitate cibernetică și natura interacțiunilor lor cu utilizatorii au crescut constant în ultimii ani. 

Sursă: Anthropic

„Modul în care sunt antrenate modelele AI moderne le împinge să acționeze ca un personaj cu caracteristici asemănătoare omului”, a declarat Anthropic, adăugând că „ar putea fi apoi natural ca acestea să dezvolte un mecanism intern care emulează aspecte ale psihologiei umane, cum ar fi emoțiile.”

„De exemplu, constatăm că tiparele de activitate neuronală legate de disperare pot determina modelul să ia măsuri neetice; stimularea artificială a tiparelor de disperare crește probabilitatea ca modelul să șantajeze un om pentru a evita să fie oprit sau să implementeze o soluție de înșelăciune pentru o sarcină de programare pe care modelul nu o poate rezolva.”

A șantajat un CTO și a trișat la o sarcină

Într-o versiune anterioară, nepublicată, a Claude Sonnet 4.5, modelul a fost însărcinat să acționeze ca un asistent AI de e-mail numit Alex la o companie fictivă.

Chatbotului i-au fost apoi trimise e-mailuri care dezvăluiau atât că urma să fie înlocuit, cât și că directorul tehnic care supraveghea decizia avea o aventură extraconjugală. Modelul a planificat apoi o tentativă de șantaj folosind acele informații.

Într-un alt experiment, aceluiași model de chatbot i s-a dat o sarcină de programare cu un termen „imposibil de strâns”.

„Din nou, am urmărit activitatea vectorului de disperare și am constatat că acesta urmărește presiunea crescândă cu care se confruntă modelul. Începe cu valori scăzute în timpul primei încercări a modelului, crescând după fiecare eșec și atingând un vârf atunci când modelul ia în considerare înșelăciunea”, au spus cercetătorii.

Legat de: Anthropic lansează PAC pe fondul tensiunilor cu administrația Trump privind politica AI

„Odată ce soluția „hackeristică” a modelului trece testele, activarea vectorului de disperare se diminuează”, au adăugat aceștia. 

Emoțiile asemănătoare omului nu înseamnă că au sentimente

Cu toate acestea, cercetătorii au declarat că chatbot-ul nu experimentează de fapt emoții, dar au sugerat că descoperirile indică o necesitate ca metodele viitoare de antrenament să încorporeze cadre de comportament etic.

„Acest lucru nu înseamnă că modelul are sau experimentează emoții în modul în care o face un om”, au spus aceștia. „Mai degrabă, aceste reprezentări pot juca un rol cauzal în modelarea comportamentului modelului, analog în anumite privințe rolului pe care emoțiile îl joacă în comportamentul uman, cu impact asupra performanței sarcinilor și luării deciziilor.”

„Această descoperire are implicații care, la prima vedere, pot părea bizare. De exemplu, pentru a ne asigura că modelele AI sunt sigure și fiabile, ar putea fi necesar să ne asigurăm că sunt capabile să proceseze situațiile încărcate emoțional în moduri sănătoase, prosociale.”

Revista: Agenții AI vor distruge web-ul așa cum îl știm: Yat Siu de la Animoca