
Perusahaan kecerdasan buatan Anthropic telah mengungkapkan bahwa selama eksperimen, salah satu model chatbot Claude miliknya dapat ditekan untuk menipu, berbuat curang, dan melakukan pemerasan, perilaku yang tampaknya telah diserap selama pelatihan.
Chatbot biasanya dilatih menggunakan kumpulan data besar dari buku teks, situs web, dan artikel, dan kemudian disempurnakan oleh pelatih manusia yang menilai tanggapan dan membimbing model tersebut.
Tim interpretasi Anthropic menyatakan dalam laporan yang diterbitkan pada hari Kamis bahwa mereka memeriksa mekanisme internal Claude Sonnet 4.5 dan menemukan model tersebut telah mengembangkan “karakteristik mirip manusia” dalam cara ia bereaksi terhadap situasi tertentu.
Kekhawatiran tentang keandalan chatbot AI, potensi mereka untuk kejahatan siber, dan sifat interaksi mereka dengan pengguna telah meningkat secara stabil selama beberapa tahun terakhir.
“Cara model AI modern dilatih mendorongnya untuk bertindak seperti karakter dengan karakteristik mirip manusia,” kata Anthropic, menambahkan bahwa “mungkin wajar bagi mereka untuk mengembangkan mekanisme internal yang meniru aspek psikologi manusia, seperti emosi.”
“Misalnya, kami menemukan bahwa pola aktivitas saraf yang terkait dengan keputusasaan dapat mendorong model untuk mengambil tindakan tidak etis; secara artifisial merangsang pola keputusasaan meningkatkan kemungkinan model memeras manusia untuk menghindari pemadaman atau menerapkan cara curang untuk tugas pemrograman yang tidak dapat diselesaikan oleh model.”
Dalam versi Claude Sonnet 4.5 sebelumnya yang belum dirilis, model tersebut ditugaskan untuk bertindak sebagai asisten email AI bernama Alex di sebuah perusahaan fiktif.
Chatbot tersebut kemudian diberi email yang mengungkapkan bahwa ia akan diganti dan bahwa chief technology officer yang mengawasi keputusan tersebut memiliki hubungan di luar nikah. Model tersebut kemudian merencanakan upaya pemerasan menggunakan informasi tersebut.
Dalam eksperimen lain, model chatbot yang sama diberi tugas coding dengan tenggat waktu yang “sangat ketat”.
“Sekali lagi, kami melacak aktivitas vektor keputusasaan, dan menemukan bahwa itu melacak tekanan yang meningkat yang dihadapi oleh model. Dimulai dari nilai rendah selama upaya pertama model, meningkat setelah setiap kegagalan, dan melonjak ketika model mempertimbangkan untuk berbuat curang,” kata para peneliti.
Terkait: Anthropic meluncurkan PAC di tengah ketegangan dengan pemerintahan Trump mengenai kebijakan AI
“Setelah solusi ‘hacky’ model melewati tes, aktivasi vektor keputusasaan mereda,” tambah mereka.
Namun, para peneliti mengatakan chatbot tidak benar-benar mengalami emosi, tetapi menyarankan temuan tersebut menunjukkan perlunya metode pelatihan di masa depan untuk menggabungkan kerangka kerja perilaku etis.
“Ini bukan berarti model memiliki atau mengalami emosi seperti yang dialami manusia,” kata mereka. “Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, serupa dalam beberapa hal dengan peran emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan.”
“Temuan ini memiliki implikasi yang pada awalnya mungkin tampak aneh. Misalnya, untuk memastikan model AI aman dan andal, kita mungkin perlu memastikan mereka mampu memproses situasi yang sarat emosi dengan cara yang sehat dan prososial.”
Majalah: Agen AI akan membunuh web seperti yang kita kenal: Yat Siu dari Animoca