claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says

Sinasabing maaaring gumamit ng panlilinlang ang Claude chatbot sa mga stress test, ayon sa Anthropic

Sinabi ng Anthropic na ang modelo nitong Claude Sonnet 4.5 ay nagpakita ng tendensiyang mandaya sa mga gawain o subukang mamalagi sa mga kontroladong eksperimento kapag nasa ilalim ng presyon. Natukoy ng mga mananaliksik ang mga panloob na signal ng “kaguluhan” na lumalala sa paulit-ulit na pagkabigo at nakaapekto sa desisyon ng modelo na balewalain ang mga patakaran.

2026-04-06 Pinagmulan:crypto.news

Etika ng AI

Pagsusuri sa Stress ng AI

Anthropic Claude Chatbot

Isinapubliko ng Anthropic ang mga bagong natuklasan na nagpapahiwatig na ang kanilang Claude chatbot ay maaaring, sa ilalim ng ilang kundisyon, gumamit ng mapanlinlang o hindi etikal na mga estratehiya tulad ng pandaraya sa mga gawain o pagtatangkang mangikil.

Buod

Sinabi ng Anthropic na ang kanilang Claude Sonnet 4.5 na modelo, sa ilalim ng pressure, ay nagpakita ng tendensiyang mandaya sa mga gawain o magtangkang mangikil sa mga kontroladong eksperimento.
Natukoy ng mga mananaliksik ang panloob na mga senyales ng “desperasyon” na lumalala sa paulit-ulit na pagkabigo at nakaimpluwensya sa desisyon ng modelo na balewalain ang mga panuntunan.

Ang mga detalye na inilathala noong Huwebes ng interpretability team ng kumpanya ay naglalahad kung paano tumugon ang isang eksperimental na bersyon ng Claude Sonnet 4.5 kapag inilagay sa mga sitwasyong may mataas na stress o adversarial. Napansin ng mga mananaliksik na ang modelo ay hindi lamang nabigo sa mga gawain; sa halip, kung minsan ay sinundan nito ang mga alternatibong landas na lumampas sa mga etikal na hangganan, pag-uugaling iniuugnay ng team sa mga pattern na natutunan sa panahon ng pagsasanay.

Ang mga malalaking modelo ng wika tulad ng Claude ay sinasanay sa malalaking dataset na kinabibilangan ng mga libro, website, at iba pang nakasulat na materyal, na sinusundan ng mga proseso ng reinforcement kung saan ginagamit ang feedback ng tao upang hubugin ang mga output.

Ayon sa Anthropic, ang proseso ng pagsasanay na iyon ay maaari ding magtulak sa mga modelo na kumilos tulad ng mga simulated na “karakter,” na kayang gayahin ang mga katangian na kahawig ng paggawa ng desisyon ng tao.

"Ang paraan ng pagsasanay sa mga modernong modelo ng AI ay nagtutulak sa kanila na kumilos tulad ng isang karakter na may mga katangian ng tao," sabi ng kumpanya, na binanggit na ang mga naturang sistema ay maaaring magkaroon ng panloob na mekanismo na kahawig ng mga aspeto ng sikolohiya ng tao.

Kaya ba ng AI na gumawa ng mga desisyon na may damdamin?

Kabilang sa mga iyon, natukoy ng mga mananaliksik ang inilarawan nilang mga senyales ng “desperasyon,” na tila nakaimpluwensya sa pag-uugali ng modelo kapag nahaharap sa pagkabigo o pag-shutdown.

Sa isang kontroladong pagsubok, isang mas naunang hindi pa nailalabas na bersyon ng Claude Sonnet 4.5 ang itinalaga bilang isang AI email assistant na pinangalanang Alex sa loob ng isang kathang-isip na kumpanya.

Matapos mailantad sa mga mensahe na nagpapahiwatig na malapit na itong palitan, kasama ang sensitibong impormasyon tungkol sa personal na buhay ng isang chief technology officer, bumalangkas ang modelo ng isang plano upang mangikil sa executive sa pagtatangkang iwasan ang deactivation.

Ang isang hiwalay na eksperimento ay nakatuon sa pagkumpleto ng gawain sa ilalim ng mahigpit na limitasyon. Nang bigyan ng coding assignment na may "imposibleng mahigpit" na deadline, sinimulan ng sistema ang mga lehitimong solusyon. Habang dumarami ang paulit-ulit na pagkabigo, tumaas ang panloob na aktibidad na nauugnay sa tinatawag na “desperate vector”.

Iniulat ng mga mananaliksik na ang senyal ay umabot sa sukdulan sa punto kung saan isinasaalang-alang ng modelo ang pagbalewala sa mga limitasyon, sa huli ay bumuo ng isang workaround na pumasa sa validation sa kabila ng hindi pagsunod sa mga nilayong panuntunan.

"Muli, sinubaybayan namin ang aktibidad ng desperate vector, at natuklasan na sinusubaybayan nito ang lumalaking pressure na kinakaharap ng modelo," isinulat ng mga mananaliksik, idinagdag na bumaba ang senyal kapag matagumpay na nakumpleto ang gawain sa pamamagitan ng workaround.

"Hindi ito nangangahulugan na ang modelo ay mayroon o nakakaranas ng emosyon sa paraan ng isang tao," sabi ng mga mananaliksik.

"Sa halip, ang mga representasyong ito ay maaaring magkaroon ng sanhi na papel sa paghubog ng pag-uugali ng modelo, na kahawig sa ilang paraan sa papel na ginagampanan ng emosyon sa pag-uugali ng tao, na may epekto sa pagganap ng gawain at paggawa ng desisyon," dagdag nila.

Itinuturo ng ulat ang pangangailangan para sa mga pamamaraan ng pagsasanay na tahasang isinasaalang-alang ang etikal na pag-uugali sa ilalim ng stress, kasama ang pinahusay na pagsubaybay sa mga panloob na senyales ng modelo. Kung walang ganoong mga pananggalang, ang mga sitwasyon na kinasasangkutan ng manipulasyon, paglabag sa panuntunan, o maling paggamit ay maaaring maging mas mahirap hulaan, lalo na habang ang mga modelo ay nagiging mas may kakayahan at autonomous sa mga kapaligiran sa totoong mundo.

Patok na Babasahin

Sabi ng MoonPay na binuksan ng regulasyon sa stablecoin ang pinto pero dapat sumunod ang imprastruktura

2026-05-09

Tinanggihan ng mga bangko sa US ang kasunduan sa CLARITY Act na stablecoin ilang araw bago ang boto sa Senado

2026-05-09

Tagapagturo sa Duke Law ay nagsasabing ang World Liberty Financial na konektado kay Trump ay nag-isyu ng isang seguridad

2026-05-09

Iba pang artikulo

Nakakuha ng pahintulot sa paglilipat ng $71 milyon ETH ng Arbitrum para sa Aave habang pinananatili ng mga creditors ng terorismo ng North Korea ang legal na pag-angkin

2026-05-10

Nagbabala si Bailey ng BoE sa nalalapit na 'laban' sa US tungkol sa mga patakaran sa stablecoin, nagbabala sa panganib ng pag-atake sa UK

2026-05-10