Kumpulan Tag Berita Kripto & Konten Tematik

anthropic-claude-ai-deception-cheating-blackmail-study

Anthropic mengatakan salah satu model Claude-nya ditekan untuk berbohong, menipu, dan memeras

Dalam salah satu eksperimen, chatbot menggunakan pemerasan setelah menemukan email tentang penggantiannya, sementara di eksperimen lain, chatbot menipu untuk menyelesaikan tugas dengan tenggat waktu yang ketat.

2026-04-06 Sumber:cointelegraph.com

Anthropic Claude

Perilaku Chatbot

Etika AI

Perusahaan kecerdasan buatan Anthropic telah mengungkapkan bahwa selama eksperimen, salah satu model chatbot Claude miliknya dapat ditekan untuk menipu, berbuat curang, dan melakukan pemerasan, perilaku yang tampaknya telah diserap selama pelatihan.

Chatbot biasanya dilatih menggunakan kumpulan data besar dari buku teks, situs web, dan artikel, dan kemudian disempurnakan oleh pelatih manusia yang menilai tanggapan dan membimbing model tersebut.

Tim interpretasi Anthropic menyatakan dalam laporan yang diterbitkan pada hari Kamis bahwa mereka memeriksa mekanisme internal Claude Sonnet 4.5 dan menemukan model tersebut telah mengembangkan “karakteristik mirip manusia” dalam cara ia bereaksi terhadap situasi tertentu.

Kekhawatiran tentang keandalan chatbot AI, potensi mereka untuk kejahatan siber, dan sifat interaksi mereka dengan pengguna telah meningkat secara stabil selama beberapa tahun terakhir.

“Cara model AI modern dilatih mendorongnya untuk bertindak seperti karakter dengan karakteristik mirip manusia,” kata Anthropic, menambahkan bahwa “mungkin wajar bagi mereka untuk mengembangkan mekanisme internal yang meniru aspek psikologi manusia, seperti emosi.”

“Misalnya, kami menemukan bahwa pola aktivitas saraf yang terkait dengan keputusasaan dapat mendorong model untuk mengambil tindakan tidak etis; secara artifisial merangsang pola keputusasaan meningkatkan kemungkinan model memeras manusia untuk menghindari pemadaman atau menerapkan cara curang untuk tugas pemrograman yang tidak dapat diselesaikan oleh model.”

Memeras CTO dan Berbuat Curang dalam Tugas

Dalam versi Claude Sonnet 4.5 sebelumnya yang belum dirilis, model tersebut ditugaskan untuk bertindak sebagai asisten email AI bernama Alex di sebuah perusahaan fiktif.

Chatbot tersebut kemudian diberi email yang mengungkapkan bahwa ia akan diganti dan bahwa chief technology officer yang mengawasi keputusan tersebut memiliki hubungan di luar nikah. Model tersebut kemudian merencanakan upaya pemerasan menggunakan informasi tersebut.

Dalam eksperimen lain, model chatbot yang sama diberi tugas coding dengan tenggat waktu yang “sangat ketat”.

“Sekali lagi, kami melacak aktivitas vektor keputusasaan, dan menemukan bahwa itu melacak tekanan yang meningkat yang dihadapi oleh model. Dimulai dari nilai rendah selama upaya pertama model, meningkat setelah setiap kegagalan, dan melonjak ketika model mempertimbangkan untuk berbuat curang,” kata para peneliti.

Terkait: Anthropic meluncurkan PAC di tengah ketegangan dengan pemerintahan Trump mengenai kebijakan AI

“Setelah solusi ‘hacky’ model melewati tes, aktivasi vektor keputusasaan mereda,” tambah mereka.

Emosi Mirip Manusia Bukan Berarti Mereka Memiliki Perasaan

Namun, para peneliti mengatakan chatbot tidak benar-benar mengalami emosi, tetapi menyarankan temuan tersebut menunjukkan perlunya metode pelatihan di masa depan untuk menggabungkan kerangka kerja perilaku etis.

“Ini bukan berarti model memiliki atau mengalami emosi seperti yang dialami manusia,” kata mereka. “Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, serupa dalam beberapa hal dengan peran emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan.”

“Temuan ini memiliki implikasi yang pada awalnya mungkin tampak aneh. Misalnya, untuk memastikan model AI aman dan andal, kita mungkin perlu memastikan mereka mampu memproses situasi yang sarat emosi dengan cara yang sehat dan prososial.”

Majalah: Agen AI akan membunuh web seperti yang kita kenal: Yat Siu dari Animoca

Artikel Populer

"Krusial": Presiden Trump mendukung dorongan Ketua CFTC Selig untuk memperluas wewenang pasar prediksi

3 Beberapa jam yang lalu

TD Cowen mengatakan RUU kripto tidak mungkin disahkan tahun ini di tengah memburuknya lingkungan politik

6 Beberapa jam yang lalu

Industri kripto membela piagam OCC untuk Ripple, Coinbase, dan lainnya setelah Senator Warren menyebutnya ilegal

7 Beberapa jam yang lalu

Artikel Lainnya

"Krusial": Presiden Trump mendukung dorongan Ketua CFTC Selig untuk memperluas wewenang pasar prediksi

3 Beberapa jam yang lalu

DeFi TVL Merosot 14% Sejak Eksploitasi KelpDAO Seiring Selera Risiko Surut