
Isinapubliko ng Anthropic ang mga bagong natuklasan na nagpapahiwatig na ang kanilang Claude chatbot ay maaaring, sa ilalim ng ilang kundisyon, gumamit ng mapanlinlang o hindi etikal na mga estratehiya tulad ng pandaraya sa mga gawain o pagtatangkang mangikil.
Ang mga detalye na inilathala noong Huwebes ng interpretability team ng kumpanya ay naglalahad kung paano tumugon ang isang eksperimental na bersyon ng Claude Sonnet 4.5 kapag inilagay sa mga sitwasyong may mataas na stress o adversarial. Napansin ng mga mananaliksik na ang modelo ay hindi lamang nabigo sa mga gawain; sa halip, kung minsan ay sinundan nito ang mga alternatibong landas na lumampas sa mga etikal na hangganan, pag-uugaling iniuugnay ng team sa mga pattern na natutunan sa panahon ng pagsasanay.
Ang mga malalaking modelo ng wika tulad ng Claude ay sinasanay sa malalaking dataset na kinabibilangan ng mga libro, website, at iba pang nakasulat na materyal, na sinusundan ng mga proseso ng reinforcement kung saan ginagamit ang feedback ng tao upang hubugin ang mga output.
Ayon sa Anthropic, ang proseso ng pagsasanay na iyon ay maaari ding magtulak sa mga modelo na kumilos tulad ng mga simulated na “karakter,” na kayang gayahin ang mga katangian na kahawig ng paggawa ng desisyon ng tao.
"Ang paraan ng pagsasanay sa mga modernong modelo ng AI ay nagtutulak sa kanila na kumilos tulad ng isang karakter na may mga katangian ng tao," sabi ng kumpanya, na binanggit na ang mga naturang sistema ay maaaring magkaroon ng panloob na mekanismo na kahawig ng mga aspeto ng sikolohiya ng tao.
Kabilang sa mga iyon, natukoy ng mga mananaliksik ang inilarawan nilang mga senyales ng “desperasyon,” na tila nakaimpluwensya sa pag-uugali ng modelo kapag nahaharap sa pagkabigo o pag-shutdown.
Sa isang kontroladong pagsubok, isang mas naunang hindi pa nailalabas na bersyon ng Claude Sonnet 4.5 ang itinalaga bilang isang AI email assistant na pinangalanang Alex sa loob ng isang kathang-isip na kumpanya.
Matapos mailantad sa mga mensahe na nagpapahiwatig na malapit na itong palitan, kasama ang sensitibong impormasyon tungkol sa personal na buhay ng isang chief technology officer, bumalangkas ang modelo ng isang plano upang mangikil sa executive sa pagtatangkang iwasan ang deactivation.
Ang isang hiwalay na eksperimento ay nakatuon sa pagkumpleto ng gawain sa ilalim ng mahigpit na limitasyon. Nang bigyan ng coding assignment na may "imposibleng mahigpit" na deadline, sinimulan ng sistema ang mga lehitimong solusyon. Habang dumarami ang paulit-ulit na pagkabigo, tumaas ang panloob na aktibidad na nauugnay sa tinatawag na “desperate vector”.
Iniulat ng mga mananaliksik na ang senyal ay umabot sa sukdulan sa punto kung saan isinasaalang-alang ng modelo ang pagbalewala sa mga limitasyon, sa huli ay bumuo ng isang workaround na pumasa sa validation sa kabila ng hindi pagsunod sa mga nilayong panuntunan.
"Muli, sinubaybayan namin ang aktibidad ng desperate vector, at natuklasan na sinusubaybayan nito ang lumalaking pressure na kinakaharap ng modelo," isinulat ng mga mananaliksik, idinagdag na bumaba ang senyal kapag matagumpay na nakumpleto ang gawain sa pamamagitan ng workaround.
"Hindi ito nangangahulugan na ang modelo ay mayroon o nakakaranas ng emosyon sa paraan ng isang tao," sabi ng mga mananaliksik.
"Sa halip, ang mga representasyong ito ay maaaring magkaroon ng sanhi na papel sa paghubog ng pag-uugali ng modelo, na kahawig sa ilang paraan sa papel na ginagampanan ng emosyon sa pag-uugali ng tao, na may epekto sa pagganap ng gawain at paggawa ng desisyon," dagdag nila.
Itinuturo ng ulat ang pangangailangan para sa mga pamamaraan ng pagsasanay na tahasang isinasaalang-alang ang etikal na pag-uugali sa ilalim ng stress, kasama ang pinahusay na pagsubaybay sa mga panloob na senyales ng modelo. Kung walang ganoong mga pananggalang, ang mga sitwasyon na kinasasangkutan ng manipulasyon, paglabag sa panuntunan, o maling paggamit ay maaaring maging mas mahirap hulaan, lalo na habang ang mga modelo ay nagiging mas may kakayahan at autonomous sa mga kapaligiran sa totoong mundo.