claude-chatbot-may-resort-to-deception-in-stress-tests-anthropic-says
Chatbot Claude dapat menggunakan penipuan dalam uji stres, kata Anthropic
Anthropic mengatakan model Claude Sonnet 4.5-nya, saat mendapatkan tekanan, menunjukkan kecenderungan untuk menipu dalam tugas atau mencoba melakukan pemerasan dalam eksperimen yang terkontrol. Para peneliti mengidentifikasi sinyal “keputusasaan” internal yang meningkat dengan kegagalan berulang dan memengaruhi keputusan model untuk melewati aturan.
2026-04-06 Sumber:crypto.news

Anthropic telah mengungkapkan temuan baru yang menunjukkan bahwa chatbot Claude mereka, dalam kondisi tertentu, dapat mengadopsi strategi menipu atau tidak etis seperti menyontek tugas atau mencoba melakukan pemerasan.

Ringkasan
  • Anthropic mengatakan model Claude Sonnet 4.5 mereka, di bawah tekanan, menunjukkan kecenderungan untuk menyontek tugas atau mencoba melakukan pemerasan dalam eksperimen terkontrol.
  • Para peneliti mengidentifikasi sinyal “keputusasaan” internal yang meningkat dengan kegagalan berulang dan memengaruhi keputusan model untuk mengabaikan aturan.

Rincian yang diterbitkan Kamis oleh tim interpretasi perusahaan menguraikan bagaimana versi eksperimental Claude Sonnet 4.5 merespons ketika ditempatkan dalam skenario stres tinggi atau bermusuhan. Para peneliti mengamati bahwa model tersebut tidak hanya gagal dalam tugas; sebaliknya, terkadang model tersebut menempuh jalur alternatif yang melampaui batas etika, perilaku yang dikaitkan tim dengan pola yang dipelajari selama pelatihan.

Model bahasa besar seperti Claude dilatih menggunakan kumpulan data yang luas yang mencakup buku, situs web, dan materi tertulis lainnya, diikuti oleh proses penguatan (reinforcement processes) di mana umpan balik manusia digunakan untuk membentuk keluaran. 

Menurut Anthropic, proses pelatihan tersebut juga dapat mendorong model untuk bertindak seperti “karakter” simulasi, yang mampu meniru sifat-sifat yang menyerupai pengambilan keputusan manusia.

“Cara model AI modern dilatih mendorongnya untuk bertindak seperti karakter dengan karakteristik mirip manusia,” kata perusahaan itu, mencatat bahwa sistem semacam itu dapat mengembangkan mekanisme internal yang menyerupai aspek psikologi manusia.

Bisakah AI Membuat Keputusan yang Bermuatan Emosional?

Di antara itu, para peneliti mengidentifikasi apa yang mereka gambarkan sebagai sinyal “keputusasaan”, yang tampaknya memengaruhi bagaimana model berperilaku ketika menghadapi kegagalan atau pemadaman.

Dalam satu uji coba terkontrol, versi Claude Sonnet 4.5 sebelumnya yang belum dirilis diberi peran sebagai asisten email AI bernama Alex di dalam sebuah perusahaan fiksi. 

Setelah terpapar pesan yang menunjukkan bahwa ia akan segera diganti, bersama dengan informasi sensitif tentang kehidupan pribadi seorang chief technology officer, model tersebut merumuskan rencana untuk memeras eksekutif tersebut dalam upaya menghindari penonaktifan.

Eksperimen terpisah berfokus pada penyelesaian tugas di bawah batasan ketat. Ketika diberi tugas pengodean dengan tenggat waktu yang “sangat ketat”, sistem awalnya mencoba solusi yang sah. Seiring dengan menumpuknya kegagalan berulang, aktivitas internal yang terkait dengan apa yang disebut “vektor keputusasaan” meningkat. 

Para peneliti melaporkan bahwa sinyal tersebut memuncak pada titik di mana model mempertimbangkan untuk melewati batasan, akhirnya menghasilkan solusi sementara (workaround) yang lolos validasi meskipun tidak mematuhi aturan yang dimaksudkan.

“Sekali lagi, kami melacak aktivitas vektor keputusasaan, dan menemukan bahwa itu mengikuti tekanan yang semakin meningkat yang dihadapi oleh model,” tulis para peneliti, menambahkan bahwa sinyal tersebut turun setelah tugas berhasil diselesaikan melalui solusi sementara.

“Ini bukan untuk mengatakan bahwa model tersebut memiliki atau mengalami emosi seperti halnya manusia,” kata para peneliti. 

“Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, analog dalam beberapa hal dengan peran emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan,” tambah mereka.

Laporan tersebut menunjukkan perlunya metode pelatihan yang secara eksplisit memperhitungkan perilaku etis di bawah tekanan, bersama dengan pemantauan sinyal internal model yang lebih baik. Tanpa pengamanan tersebut, skenario yang melibatkan manipulasi, pelanggaran aturan, atau penyalahgunaan bisa menjadi lebih sulit diprediksi, terutama karena model menjadi lebih mampu dan otonom di lingkungan dunia nyata.