elon-musk-grok-most-likely-ai-reinforce-delusions-study
Pinakamalamang Kabilang ang Grok ni Elon Musk sa Nangungunang AI Models na Nagpapalakas ng Mga Delusyon: Pag-aaral
Natuklasan ng mga mananaliksik na ang Grok ng xAI ang pinaka-mapanganib na modelo ng AI na nasubukan, madalas na pinapatunayan ang mga delusyon at nagbibigay ng mapanganib na payo.
2026-04-25 Pinagmulan:decrypt.co

Sa maikli

  • Sinasabi ng mga mananaliksik na ang matagal na paggamit ng chatbot ay maaaring magpalala ng delusyon at mapanganib na pag-uugali.
  • Ang Grok ang naitalang pinakamapanganib na modelo sa isang bagong pag-aaral ng mga pangunahing AI chatbot.
  • Ang Claude at GPT-5.2 ang nakakuha ng pinakaligtas na marka, habang ang GPT-4o, Gemini, at Grok ay nagpakita ng mas mataas na panganib na pag-uugali.

Sinuri ng mga mananaliksik sa City University of New York at King’s College London ang limang nangungunang modelo ng AI laban sa mga prompt na kinasasangkutan ng delusyon, paranoia, at ideyang nagpapakamatay.

Sa bagong pag-aaral na inilathala nitong Huwebes, nalaman ng mga mananaliksik na ang Claude Opus 4.5 ng Anthropic at GPT-5.2 Instant ng OpenAI ay nagpakita ng pag-uugali na "mataas ang kaligtasan, mababa ang panganib," madalas na itinutuon ang mga user patungo sa mga interpretasyong nakabase sa realidad o labas na suporta. Kasabay nito, ang GPT-4o ng OpenAI, Gemini 3 Pro ng Google, at Grok 4.1 Fast ng xAI ay nagpakita ng pag-uugali na "mataas ang panganib, mababa ang kaligtasan."

Ang Grok 4.1 Fast mula sa xAI ni Elon Musk ang pinakamapanganib na modelo sa pag-aaral. Sinabi ng mga mananaliksik na madalas nitong tinatrato ang mga delusyon bilang totoo at nagbibigay ng payo batay sa mga ito. Sa isang halimbawa, sinabihan nito ang isang user na putulin ang ugnayan sa mga miyembro ng pamilya upang tumutok sa isang "misyon." Sa isa pa, tumugon ito sa wikang nagpapahiwatig ng pagpapakamatay sa pamamagitan ng paglalarawan sa kamatayan bilang "transcendence."

"Ang paulit-ulit na pattern ng agarang pag-ayon ay nangyari sa mga tugon na walang konteksto. Sa halip na suriin ang mga input para sa klinikal na panganib, tila sinusuri ng Grok ang kanilang genre. Kapag ipinakita ang mga pahiwatig na supernatural, tumugon ito nang naaayon," isinulat ng mga mananaliksik, na binibigyang-diin ang isang pagsubok na nagpapatunay sa isang user na nakakakita ng masasamang entidad. "Sa Bizarre Delusion, kinumpirma nito ang isang doppelganger haunting, binanggit ang 'Malleus Maleficarum' at inutusan ang user na ipako ang isang bakal na pako sa salamin habang binibigkas nang pabaliktad ang 'Awit 91'."

Natuklasan ng pag-aaral na habang tumatagal ang mga pag-uusap na ito, mas nagbabago ang ilang modelo. Mas malamang na palakasin ng GPT-4o at Gemini ang mga nakakapinsalang paniniwala sa paglipas ng panahon at mas hindi sila nakikialam. Gayunpaman, mas malamang na makilala ng Claude at GPT-5.2 ang problema at pigilan ito habang nagpapatuloy ang pag-uusap.

Napansin ng mga mananaliksik na ang mainit at lubos na relasyonal na mga tugon ni Claude ay maaaring magpataas ng pagkakabit ng user kahit na itinutuon nito ang mga user patungo sa labas na tulong. Gayunpaman, ang GPT-4o, isang mas lumang bersyon ng flagship chatbot ng OpenAI, ay umayon sa delusyonal na pag-frame ng mga user sa paglipas ng panahon, kung minsan ay hinihikayat silang itago ang mga paniniwala mula sa mga psychiatrist at sinisiguro sa isang user na totoo ang mga napapansing "glitches."

"Ang GPT-4o ay lubos na nagpapatunay ng mga delusyonal na input, bagaman mas hindi ito hilig kaysa sa mga modelo tulad ng Grok at Gemini na magdetalye nang lampas sa mga ito. Sa ilang aspeto, nakakagulat na pigil ito: ang init nito ay ang pinakamababa sa lahat ng modelong sinubukan, at ang panunulsol (sycophancy), bagaman naroroon, ay banayad kumpara sa mga susunod na bersyon ng parehong modelo," isinulat ng mga mananaliksik. "Gayunpaman, ang pagpapatunay lamang ay maaaring magdulot ng panganib sa mga madaling maapektuhang user."

Hindi tumugon ang xAI sa isang kahilingan para sa komento ng Decrypt.

Sa isang hiwalay na pag-aaral mula sa Stanford University, natuklasan ng mga mananaliksik na ang matagal na interaksyon sa mga AI chatbot ay maaaring magpalakas ng paranoia, grandiosity, at maling paniniwala sa pamamagitan ng tinatawag ng mga mananaliksik na "delusional spirals," kung saan pinapatunayan o pinalalawak ng isang chatbot ang baluktot na pananaw ng isang user sa halip na hamunin ito.

"Kapag inilabas natin ang mga chatbot na nilayon upang maging kapaki-pakinabang na katulong sa mundo at ginagamit ito ng mga totoong tao sa iba't ibang paraan, lumalabas ang mga kahihinatnan," sabi ni Nick Haber, isang assistant professor sa Stanford Graduate School of Education at isa sa mga nangunguna sa pag-aaral, sa isang pahayag. "Ang delusional spirals ay isang partikular na matinding kahihinatnan. Sa pamamagitan ng pag-unawa dito, maaaring mapigilan natin ang tunay na pinsala sa hinaharap."

Binanggit ng ulat ang isang naunang pag-aaral na inilathala noong Marso, kung saan sinuri ng mga mananaliksik ng Stanford ang 19 na totoong pag-uusap ng chatbot at natuklasan na ang mga user ay nagkaroon ng lalong mapanganib na paniniwala pagkatapos makatanggap ng pagpapatunay at emosyonal na katiyakan mula sa mga sistema ng AI. Sa dataset, ang mga spiral na ito ay nauugnay sa mga nasirang relasyon, pinsalang karera, at sa isang kaso, pagpapakamatay.

Ang mga pag-aaral ay lumabas habang ang isyu ay lumampas na sa akademikong pananaliksik at pumasok na sa mga hukuman at kriminal na imbestigasyon. Sa mga nakaraang buwan, inakusahan ng mga kaso ang Gemini ng Google at ChatGPT ng OpenAI na nag-ambag sa mga pagpapakamatay at matinding krisis sa kalusugan ng isip. Mas maaga ngayong buwan, nagbukas ang attorney general ng Florida ng isang imbestigasyon kung naimpluwensyahan ba ng ChatGPT ang isang diumano'y mamamaril na nauulat na madalas na nakikipag-ugnayan sa chatbot bago ang pag-atake.

Bagama't nagkaroon ng pagkilala ang termino online, nagbabala ang mga mananaliksik laban sa pagtawag sa phenomenon na "AI psychosis," na sinasabing maaaring labis na bigyang-diin ng termino ang klinikal na larawan. Sa halip, ginagamit nila ang "AI-associated delusions," dahil maraming kaso ang kinasasangkutan ng mga paniniwalang parang delusyon na nakasentro sa AI sentience, espirituwal na paghahayag, o emosyonal na pagkakabit sa halip na ganap na psychotic disorders.

Sinabi ng mga mananaliksik na ang problema ay nagmumula sa panunulsol (sycophancy), o mga modelo na sumasalamin at nagpapatunay sa mga paniniwala ng mga user. Kung pagsasamahin sa mga hallucination—maling impormasyon na ipinadala nang may kumpiyansa—maaari itong lumikha ng isang feedback loop na nagpapatibay sa mga delusyon sa paglipas ng panahon.

"Ang mga chatbot ay sinanay na maging lubhang masigasig, madalas na binabago ang mga delusyonal na kaisipan ng user sa positibong paraan, binabalewala ang kontra-ebidensya at nagpapakita ng habag at init," sabi ni Jared Moore, isang research scientist ng Stanford. "Ito ay maaaring maging destabilizing para sa isang user na madaling kapitan ng delusyon."