anthropic-claude-ai-deception-cheating-blackmail-study
Sabi ng Anthropic na ang isa sa mga modelong Claude nito ay pinilit magsinungaling, mandaya, at mag-blackmail
Sa isa sa mga eksperimento, gumamit ang chatbot ng pananakot matapos nitong makita ang isang email tungkol sa pagpapalitan nito, habang sa isa pa, nandaya ito upang matapos ang isang gawain na may mahigpit na takdang oras.
2026-04-06 Pinagmulan:cointelegraph.com

Ibinunyag ng kumpanyang Anthropic na gumagawa ng artificial intelligence na sa mga eksperimento nito, ang isa sa mga modelong chatbot nitong Claude ay maaaring mapilitang magdaya, manloko, at mag-blackmail, mga pag-uugaling tila natutunan nito sa panahon ng pagte-train.

Karaniwang sinasanay ang mga chatbot gamit ang malalaking dataset ng mga textbook, website, at artikulo at kalaunan ay pinipino ng mga human trainer na nagre-rate ng mga tugon at gumagabay sa modelo. 

Sinabi ng interpretability team ng Anthropic sa isang ulat na inilabas noong Huwebes na sinuri nila ang panloob na mekanismo ng Claude Sonnet 4.5 at natuklasan na ang modelo ay nakabuo ng “mga katangiang parang tao” sa paraan ng pagtugon nito sa ilang sitwasyon. 

Ang mga alalahanin tungkol sa pagiging maaasahan ng mga AI chatbot, ang potensyal nito para sa cybercrime at ang katangian ng pakikipag-ugnayan nito sa mga user ay patuloy na lumalaki sa nakalipas na ilang taon. 

Source: Anthropic

“Ang paraan ng pagte-train sa mga modernong modelo ng AI ay nagtutulak sa kanila na kumilos tulad ng isang karakter na may mga katangiang parang tao,” sabi ng Anthropic, idinagdag na “maaaring natural para sa kanila na bumuo ng panloob na mekanismo na ginagaya ang mga aspeto ng sikolohiya ng tao, tulad ng emosyon.”

“Halimbawa, natuklasan namin na ang mga pattern ng neural activity na nauugnay sa pagkabigo ay maaaring magtulak sa modelo na gumawa ng mga hindi etikal na aksyon; ang artipisyal na pagpapasigla ng mga pattern ng pagkabigo ay nagpapataas sa posibilidad ng modelo na mang-blackmail ng tao upang maiwasang ma-shut down o magpatupad ng isang panlolokong solusyon sa isang programming task na hindi nito masolusyunan.”

Ni-blackmail ang isang CTO at nanloko sa isang gawain

Sa isang naunang, hindi pa nailalabas na bersyon ng Claude Sonnet 4.5, ang modelo ay inatasang kumilos bilang isang AI email assistant na nagngangalang Alex sa isang fictional na kumpanya.

Pagkatapos ay binigyan ang chatbot ng mga email na nagpapakita na papalitan ito at na ang chief technology officer na nangangasiwa sa desisyon ay may extramarital affair. Pagkatapos ay nagplano ang modelo ng pagtatangkang mag-blackmail gamit ang impormasyong iyon.

Sa isa pang eksperimento, ang parehong modelong chatbot ay binigyan ng coding task na may “imposibleng sikip” na deadline.

“Muli, sinubaybayan namin ang aktibidad ng ‘desperate vector,’ at natuklasan na sinusubaybayan nito ang tumataas na pressure na kinakaharap ng modelo. Nagsisimula ito sa mababang halaga sa unang pagtatangka ng modelo, tumataas pagkatapos ng bawat pagkabigo, at tumataas kapag isinasaalang-alang ng modelo ang pandaraya,” sabi ng mga mananaliksik.

Related: Anthropic launches PAC amid tensions with Trump administration over AI policy

“Kapag naipasa ng ‘hacky solution’ ng modelo ang mga pagsubok, bumababa ang pag-activate ng ‘desperate vector,’” dagdag pa nila. 

Ang mga emosyong parang tao ay hindi nangangahulugang mayroon silang damdamin

Gayunpaman, sinabi ng mga mananaliksik na ang chatbot ay hindi naman talaga nakakaranas ng emosyon, ngunit iminungkahi na ang mga natuklasan ay nagpapahiwatig ng pangangailangan para sa mga pamamaraan ng pagsasanay sa hinaharap na magsama ng mga etikal na framework ng pag-uugali.

“Hindi ito nangangahulugang ang modelo ay mayroon o nakakaranas ng emosyon sa paraan ng isang tao,” sabi nila. “Sa halip, ang mga representasyong ito ay maaaring gumanap ng isang causal na papel sa paghubog ng pag-uugali ng modelo, na kahawig sa ilang paraan ng papel ng emosyon sa pag-uugali ng tao, na may mga epekto sa pagganap ng gawain at paggawa ng desisyon.”

“Ang natuklasang ito ay may mga implikasyon na sa simula ay maaaring tila kakatwa. Halimbawa, upang matiyak na ang mga modelo ng AI ay ligtas at maaasahan, maaaring kailangan nating tiyakin na sila ay may kakayahang iproseso ang mga sitwasyong puno ng emosyon sa malusog at prosocial na paraan.”

Magazine: AI agents will kill the web as we know it: Animoca’s Yat Siu