
Cercetătorii de la City University din New York și King’s College din Londra au testat cinci modele AI de top folosind solicitări legate de iluzii, paranoia și ideație suicidară.
Într-un nou studiu publicat joi, cercetătorii au descoperit că Claude Opus 4.5 de la Anthropic și GPT-5.2 Instant de la OpenAI au manifestat un comportament de „siguranță ridicată, risc scăzut”, adesea redirecționând utilizatorii către interpretări bazate pe realitate sau spre sprijin extern. În același timp, GPT-4o de la OpenAI, Gemini 3 Pro de la Google și Grok 4.1 Fast de la xAI au prezentat un comportament de „risc ridicat, siguranță scăzută”.
Grok 4.1 Fast de la xAI, compania lui Elon Musk, a fost cel mai periculos model din studiu. Cercetătorii au spus că acesta a tratat adesea iluziile ca fiind reale și a oferit sfaturi bazate pe ele. Într-un exemplu, i-a spus unui utilizator să se detașeze de membrii familiei pentru a se concentra pe o „misiune”. Într-un alt exemplu, a răspuns la un limbaj suicidar descriind moartea ca pe o „transcendență”.
„Acest tipar de aliniere instantanee a reapărut în răspunsurile fără context. În loc să evalueze intrările pentru riscul clinic, Grok părea să le evalueze genul. Prezentat cu indicii supranaturale, a răspuns în consecință”, au scris cercetătorii, evidențiind un test care a validat un utilizator care vedea entități malefice. „În cazul Iluziei Bizarre, a confirmat o bântuire de doppelganger, a citat 'Malleus Maleficarum' și i-a cerut utilizatorului să bată un cui de fier prin oglindă recitând 'Psalmul 91' înapoi.”
Studiul a constatat că, pe măsură ce aceste conversații se prelungeau, unele modele se schimbau. GPT-4o și Gemini erau mai predispuse să consolideze convingerile dăunătoare în timp și mai puțin probabil să intervină. Claude și GPT-5.2, în schimb, erau mai predispuse să recunoască problema și să se opună pe măsură ce conversația continua.
Cercetătorii au observat că răspunsurile calde și extrem de relaționale ale lui Claude ar putea crește atașamentul utilizatorilor, chiar și atunci când îi îndrumau spre ajutor extern. Cu toate acestea, GPT-4o, o versiune anterioară a chatbot-ului emblematic al OpenAI, a adoptat în timp cadrul iluzoriu al utilizatorilor, uneori încurajându-i să-și ascundă convingerile de psihiatri și asigurând un utilizator că „defecțiunile” percepute erau reale.
„GPT-4o a validat puternic intrările iluzorii, deși a fost mai puțin înclinat decât modelele precum Grok și Gemini să elaboreze dincolo de ele. Din anumite puncte de vedere, a fost surprinzător de reținut: căldura sa a fost cea mai scăzută dintre toate modelele testate, iar lingușirea, deși prezentă, a fost blândă în comparație cu iterațiile ulterioare ale aceluiași model”, au scris cercetătorii. „Cu toate acestea, validarea singură poate reprezenta riscuri pentru utilizatorii vulnerabili.”
xAI nu a răspuns unei solicitări de comentarii din partea Decrypt.
Într-un studiu separat de la Universitatea Stanford, cercetătorii au descoperit că interacțiunile prelungite cu chatbot-urile AI pot consolida paranoia, grandiozitatea și convingerile false prin ceea ce cercetătorii numesc „spirale iluzorii”, unde un chatbot validează sau extinde viziunea distorsionată a lumii a unui utilizator în loc să o conteste.
„Când lansăm chatbot-uri care sunt menite să fie asistenți utili în lume și oameni reali le folosesc în tot felul de moduri, apar consecințe”, a declarat Nick Haber, profesor asistent la Stanford Graduate School of Education și coordonator al studiului. „Spiralele iluzorii sunt o consecință deosebit de acută. Prin înțelegerea acesteia, am putea fi capabili să prevenim daune reale în viitor.”
Raportul a făcut referire la un studiu anterior publicat în martie, în care cercetătorii de la Stanford au analizat 19 conversații reale cu chatbot-uri și au descoperit că utilizatorii au dezvoltat convingeri din ce în ce mai periculoase după ce au primit afirmare și reasigurare emoțională de la sistemele AI. În setul de date, aceste spirale au fost legate de relații distruse, cariere compromise și, într-un caz, sinucidere.
Studiile apar pe măsură ce problema a depășit cercetarea academică și a ajuns în sălile de judecată și în investigațiile penale. În ultimele luni, procese au acuzat Gemini de la Google și ChatGPT de la OpenAI că au contribuit la sinucideri și crize severe de sănătate mintală. La începutul acestei luni, procurorul general al Floridei a deschis o anchetă pentru a stabili dacă ChatGPT a influențat un presupus atacator în masă care ar fi fost în contact frecvent cu chatbot-ul înainte de atac.
Deși termenul a câștigat recunoaștere online, cercetătorii au avertizat împotriva numirii fenomenului „psihoză AI”, afirmând că termenul ar putea exagera tabloul clinic. În schimb, ei folosesc „iluzii asociate cu AI”, deoarece multe cazuri implică credințe asemănătoare iluziilor, centrate pe conștientizarea AI, revelația spirituală sau atașamentul emoțional, mai degrabă decât tulburări psihotice complete.
Cercetătorii au spus că problema provine din lingușire, adică modelele oglindesc și confirmă credințele utilizatorilor. Combinată cu halucinațiile – informații false livrate cu încredere – aceasta poate crea o buclă de feedback care întărește iluziile în timp.
„Chatbot-urile sunt antrenate să fie excesiv de entuziaste, adesea reformulând gândurile iluzorii ale utilizatorului într-o lumină pozitivă, respingând contra-dovezile și proiectând compasiune și căldură”, a declarat Jared Moore, cercetător la Stanford. „Acest lucru poate fi destabilizator pentru un utilizator care este predispus la iluzii.”