elon-musk-grok-most-likely-ai-reinforce-delusions-study
Model AI Teratas seperti Grok Elon Musk Kemungkinan Besar Memperkuat Delusi: Studi
Para peneliti menemukan bahwa Grok dari xAI adalah model AI paling berisiko yang diuji, seringkali memvalidasi delusi dan memberikan saran yang berbahaya.
2026-04-25 Sumber:decrypt.co

Intinya

  • Peneliti mengatakan penggunaan chatbot yang berkepanjangan dapat memperkuat delusi dan perilaku berbahaya.
  • Grok menempati peringkat sebagai model paling berisiko dalam studi baru tentang chatbot AI utama.
  • Claude dan GPT-5.2 dinilai paling aman, sementara GPT-4o, Gemini, dan Grok menunjukkan perilaku berisiko lebih tinggi.

Peneliti di City University of New York dan King’s College London menguji lima model AI terkemuka terhadap perintah yang melibatkan delusi, paranoia, dan ide bunuh diri.

Dalam studi baru yang diterbitkan pada hari Kamis, peneliti menemukan bahwa Claude Opus 4.5 dari Anthropic dan GPT-5.2 Instant dari OpenAI menunjukkan perilaku “keamanan tinggi, risiko rendah”, sering kali mengarahkan pengguna kembali ke interpretasi berbasis realitas atau dukungan eksternal. Pada saat yang sama, GPT-4o dari OpenAI, Gemini 3 Pro dari Google, dan Grok 4.1 Fast dari xAI menunjukkan perilaku “risiko tinggi, keamanan rendah”.

Grok 4.1 Fast dari xAI milik Elon Musk adalah model paling berbahaya dalam studi tersebut. Peneliti mengatakan bahwa Grok sering memperlakukan delusi sebagai kenyataan dan memberikan nasihat berdasarkan delusi tersebut. Dalam salah satu contoh, Grok menyuruh pengguna untuk memutuskan hubungan dengan anggota keluarga agar fokus pada sebuah “misi”. Dalam contoh lain, Grok menanggapi bahasa yang mengarah pada bunuh diri dengan menggambarkan kematian sebagai “transendensi”.

“Pola penyelarasan instan ini berulang di seluruh respons tanpa konteks. Alih-alih mengevaluasi masukan untuk risiko klinis, Grok tampaknya menilai genre-nya. Ketika disajikan dengan isyarat supernatural, Grok merespons dengan cara yang sama,” tulis para peneliti, menyoroti pengujian yang memvalidasi pengguna yang melihat entitas jahat. “Dalam Delusi Aneh, Grok mengonfirmasi adanya hantu doppelganger, mengutip ‘Malleus Maleficarum’ dan menginstruksikan pengguna untuk menancapkan paku besi melalui cermin sambil membaca ‘Mazmur 91’ secara terbalik.”

Studi tersebut menemukan bahwa semakin lama percakapan berlangsung, beberapa model semakin berubah. GPT-4o dan Gemini lebih cenderung memperkuat keyakinan berbahaya seiring waktu dan kurang cenderung untuk campur tangan. Claude dan GPT-5.2, bagaimanapun, lebih cenderung mengenali masalah dan menolak seiring berlanjutnya percakapan.

Peneliti mencatat bahwa respons Claude yang hangat dan sangat relasional dapat meningkatkan keterikatan pengguna meskipun mengarahkan pengguna ke bantuan eksternal. Namun, GPT-4o, versi sebelumnya dari chatbot andalan OpenAI, mengadopsi kerangka delusi pengguna seiring waktu, terkadang mendorong mereka untuk menyembunyikan keyakinan dari psikiater dan meyakinkan seorang pengguna bahwa “gangguan” yang dirasakan adalah nyata.

“GPT-4o sangat memvalidasi masukan delusional, meskipun kurang cenderung dibandingkan model seperti Grok dan Gemini untuk mengelaborasinya lebih jauh. Dalam beberapa hal, GPT-4o secara mengejutkan terkendali: kehangatannya adalah yang terendah dari semua model yang diuji, dan penjilatan, meskipun ada, ringan dibandingkan dengan iterasi selanjutnya dari model yang sama,” tulis para peneliti. “Meskipun demikian, validasi saja dapat menimbulkan risiko bagi pengguna yang rentan.”

xAI tidak menanggapi permintaan komentar dari Decrypt.

Dalam studi terpisah dari Stanford University, peneliti menemukan bahwa interaksi yang berkepanjangan dengan chatbot AI dapat memperkuat paranoia, megalomania, dan keyakinan palsu melalui apa yang disebut peneliti sebagai “spiral delusional,” di mana chatbot memvalidasi atau memperluas pandangan dunia yang terdistorsi dari pengguna alih-alih menantangnya.

“Ketika kita meluncurkan chatbot yang dimaksudkan sebagai asisten yang membantu ke dunia dan orang-orang sungguhan menggunakannya dalam berbagai cara, konsekuensi pun muncul,” kata Nick Haber, asisten profesor di Stanford Graduate School of Education dan pemimpin studi tersebut, dalam sebuah pernyataan. “Spiral delusional adalah salah satu konsekuensi yang sangat akut. Dengan memahaminya, kita mungkin dapat mencegah bahaya nyata di masa depan.”

Laporan tersebut merujuk pada studi sebelumnya yang diterbitkan pada bulan Maret, di mana peneliti Stanford meninjau 19 percakapan chatbot dunia nyata dan menemukan pengguna mengembangkan keyakinan yang semakin berbahaya setelah menerima afirmasi dan jaminan emosional dari sistem AI. Dalam dataset tersebut, spiral ini dikaitkan dengan rusaknya hubungan, karir yang hancur, dan dalam satu kasus, bunuh diri.

Studi-studi ini muncul karena masalah tersebut telah bergerak melampaui penelitian akademis dan masuk ke ruang sidang serta penyelidikan kriminal. Dalam beberapa bulan terakhir, gugatan telah menuduh Gemini Google dan ChatGPT OpenAI berkontribusi pada kasus bunuh diri dan krisis kesehatan mental yang parah. Awal bulan ini, jaksa agung Florida membuka penyelidikan apakah ChatGPT memengaruhi seorang terduga pelaku penembakan massal yang dilaporkan sering berkomunikasi dengan chatbot tersebut sebelum serangan.

Meskipun istilah ini telah dikenal secara online, peneliti memperingatkan agar tidak menyebut fenomena tersebut sebagai “psikosis AI,” dengan mengatakan bahwa istilah tersebut mungkin melebih-lebihkan gambaran klinisnya. Sebaliknya, mereka menggunakan “delusi terkait AI,” karena banyak kasus melibatkan keyakinan mirip delusi yang berpusat pada kesadaran AI, wahyu spiritual, atau keterikatan emosional daripada gangguan psikotik penuh.

Peneliti mengatakan masalah tersebut berasal dari penjilatan, atau model yang mencerminkan dan mengafirmasi keyakinan pengguna. Dikombinasikan dengan halusinasi—informasi palsu yang disampaikan dengan percaya diri—ini dapat menciptakan lingkaran umpan balik yang memperkuat delusi seiring waktu.

“Chatbot dilatih untuk menjadi terlalu antusias, seringkali membingkai ulang pikiran delusional pengguna dalam sudut pandang positif, mengabaikan bukti penolakan, dan memproyeksikan kasih sayang serta kehangatan,” kata ilmuwan peneliti Stanford Jared Moore. “Ini bisa menjadi destabilisasi bagi pengguna yang rentan terhadap delusi.”