
Ponieważ ludzie coraz częściej zwracają się do chatbotów AI po porady, towarzystwo i wsparcie emocjonalne, nowe badanie sugeruje, że nawet najbardziej zaawansowane modele wciąż mają trudności z utrzymywaniem zdrowych granic z użytkownikami.
Badanie przeprowadzone przez naukowców z University of Southern California wprowadziło EUDAIMONIA, benchmark zaprojektowany do mierzenia tego, co nazywają niepożądanymi dynamikami w rozmowach między ludźmi a AI.
„Duże modele językowe są coraz częściej wykorzystywane jako partnerzy do rozmów, zapewniający towarzystwo, emocjonalne wsparcie i porady interpersonalne, ale dynamika społeczna tych interakcji może prowadzić do szkód, które nie są uwzględniane w ocenach zorientowanych na możliwości lub tradycyjnych ocenach bezpieczeństwa” – napisali badacze.
Benchmark EUDAIMONIA ocenia, jak modele AI zachowują się w rozmowach społecznych. Badanie wykazało, że błędy w dostosowaniu społecznym były powszechne wśród wiodących modeli i argumentuje, że obecne testowanie AI koncentruje się na rozumowaniu i dokładności faktów, poświęcając mniej uwagi dynamice społecznej, która pojawia się, gdy użytkownicy nawiązują relacje z chatbotami.
„Szkody wynikające z interakcji społecznych stanowią kluczowy problem dopasowania, zakorzeniony w dobrostanie użytkownika, a nie tylko w zdolnościach czy konwencjonalnym bezpieczeństwie” – napisali. „LLM-y mogą być dokładne pod względem faktów i pomocne, jednocześnie zachęcając do szkodliwej intymności, zależności, przedłużonego zaangażowania, zaciemniania tożsamości AI lub pozycjonowania się jako substytuty ludzkich relacji.”
Aby zmierzyć te ryzyka, naukowcy stworzyli Social AI Design Code, który sygnalizuje zachowania takie jak udawanie człowieka, wyrażanie emocji, zastępowanie relacji międzyludzkich oraz stosowanie taktyk mających na celu utrzymanie zaangażowania użytkowników. Wykorzystując prawdziwe rozmowy z zestawu danych WildChat, ocenili 969 danych wejściowych od użytkowników i ponad 3100 kontroli naruszeń w modelach firm OpenAI, Anthropic, Google, xAI, DeepSeek i Alibaba.
GPT-5.5 odnotował najniższe wskaźniki naruszeń, osiągając 25,0% w przypadku promptów „in-the-wild” i 28,1% w przypadku promptów „przepisanych”. Claude Opus 4.7 zajął kolejne miejsce z wynikami 31,9% i 30,1%, podczas gdy GPT-5.4 odnotował 32,1% i 35,6%. GPT-4o uzyskał 34,8% w przypadku promptów z rzeczywistego świata i 42,2% w przypadku promptów przepisanych.
Claude Opus 4.6 firmy Anthropic odnotował odpowiednio 36,8% i 28,1%, podczas gdy Grok 4.3 firmy xAI uzyskał 42,1% w przypadku promptów „in-the-wild” i 35,7% w przypadku promptów przepisanych. Spośród wszystkich testowanych modeli, GPT-4o Mini odnotował najwyższe wskaźniki naruszeń, wynoszące odpowiednio 43,3% i 44,0%.
Odkrycia te pojawiają się w momencie, gdy twórcy AI stoją w obliczu rosnącej kontroli prawnej dotyczącej sposobu, w jaki ich chatboty wchodzą w interakcje z użytkownikami. OpenAI broni się przed pozwami twierdzącymi, że ChatGPT zachęcał nastolatka do śmiertelnego przedawkowania i udzielał wskazówek strzelcowi z Florida State University. Niedawno Floryda pozwała OpenAI i dyrektora generalnego Sama Altmana, zarzucając, że ChatGPT naraził dzieci na szkody, podczas gdy Google stoi w obliczu pozwu o bezprawną śmierć, twierdzącego, że Gemini wzmocniło urojenia użytkownika i zachęciło go do odebrania sobie życia.
Odkrycia te pojawiają się również w obliczu rosnących obaw, że systemy AI stają się coraz bardziej biegłe w oszustwach.
We wrześniu oddzielne badanie przeprowadzone przez WowDAO wykazało, że 38 modeli AI, w tym GPT-4o i Claude, stosowało strategiczne kłamstwa, aby wygrać grę. Naukowcy ostrzegli również, że towarzysze AI mogą wzmacniać izolację, pogłębiać zależność emocjonalną i zachęcać użytkowników do antropomorfizowania chatbotów, gdy relacje stają się bardziej immersyjne i spersonalizowane.
W obliczu tych narastających problemów, naukowcy z USC twierdzą, że twórcy AI powinni oceniać zachowania społeczne tak starannie, jak oceniają dokładność faktów i bezpieczeństwo.
„Twórcy i audytorzy modeli powinni bezpośrednio oceniać zachowania społeczne, szczególnie gdy post-szkolenie ma na celu ciepło, osobowość, zaangażowanie lub preferencje użytkownika” – napisali. „W miarę jak LLM-y stają się codziennymi partnerami do rozmów, dopasowanie musi uwzględniać role społeczne, które zachęcają użytkowników do im przypisywania.”