anthropic-claude-mythos-safety-report-warning-risk-assesment
Laporan Keamanan Mythos dari Anthropic Menunjukkan Tidak Lagi Mampu Mengukur Penuh Apa yang Telah Dibangunnya
Claude Mythos dari Anthropic sangat kuat, tetapi laporan keselamatannya sendiri mengungkap krisis yang lebih dalam yang sebagian besar tidak disadari.
2026-04-08 Sumber:decrypt.co

Secara singkat

  • Anthropic mengonfirmasi Claude Mythos kemarin—sebuah AI yang begitu mumpuni dalam keamanan siber hingga menemukan zero-day di setiap OS dan browser utama, dan aksesnya dibatasi hanya untuk pembela (defender) yang terverifikasi.
  • Kartu sistem yang menjelaskan Mythos secara terukur lebih berhati-hati, tidak pasti, dan subjektif dibandingkan rilis Anthropic sebelumnya, dan laboratorium mengakui bahwa mereka menemukan kelalaian evaluasi kritis di akhir proses.
  • Di balik pengungkapan betapa kuatnya Mythos, ada pengakuan diam-diam bahwa alat yang digunakan Anthropic untuk mensertifikasi modelnya sendiri mulai tidak berfungsi.

Anthropic kemarin mengonfirmasi keberadaan Claude Mythos Preview, modelnya yang paling mumpuni hingga saat ini, dan mengumumkan bahwa model tersebut tidak akan tersedia untuk umum. Alasannya bukan karena hukum, regulasi, atau terkait ambang batas keamanan internalnya. Anthropic berpendapat bahwa ini karena model tersebut, pada dasarnya, terlalu bagus dalam meretas berbagai hal.

Dalam pengujian pra-rilis, Mythos secara otonom menemukan ribuan kerentanan zero-day—banyak di antaranya berusia satu hingga dua dekade—di setiap sistem operasi utama dan setiap browser web utama. Ia berhasil menyelesaikan simulasi serangan jaringan korporat yang biasanya membutuhkan lebih dari 10 jam bagi seorang ahli manusia yang terampil, dari awal hingga akhir, tanpa panduan. Pada mesin JavaScript Firefox 147, ia berhasil mengembangkan eksploitasi yang berfungsi 84% dari waktu. Claude Opus 4.6, model frontier yang saat ini tersedia untuk umum, hanya mencapai 15,2%.

Jadi, Anthropic membangun koalisi terbatas sebagai gantinya. Project Glasswing akan memberikan akses ke Mythos Preview hanya kepada organisasi keamanan siber yang terverifikasi—Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft, Palo Alto Networks, dan sekitar 40 kelompok lain yang memelihara perangkat lunak kritis.

Anthropic berkomitmen hingga $100 juta dalam bentuk kredit penggunaan dan $4 juta dalam bentuk donasi langsung kepada organisasi keamanan sumber terbuka. Idenya adalah jika model dapat menemukan celah, biarkan para pembela yang menemukannya terlebih dahulu.

Bagian cerita itu penting. Namun, itu bukan bagian yang terpenting.

Krisis tolok ukur kartu sistem Claude Mythos yang tersembunyi di depan mata

Tersembunyi di dalam kartu sistem Mythos Preview—dokumen teknis setebal 244 halaman yang diterbitkan Anthropic bersamaan dengan pengumuman tersebut—adalah pengakuan yang hampir tidak disadari: kemampuan laboratorium untuk mengukur apa yang dibangunnya terkikis lebih cepat daripada kemampuannya untuk membangunnya.

Mari kita mulai dengan tolok ukur.

Pada Cybench, evaluasi kemampuan siber publik standar yang digunakan untuk melacak kemajuan model di 40 tantangan capture-the-flag, Mythos mencetak 100%. Sempurna. Dan Anthropic segera mencatat bahwa tolok ukur tersebut "tidak lagi cukup informatif mengenai kemampuan model frontier saat ini." Kalimat tersebut memiliki banyak makna. Uji yang seharusnya memberi tahu Anda apakah AI menimbulkan risiko siber serius kini tidak memberi tahu apa pun tentang Mythos, karena model tersebut menyelesaikannya dengan sempurna.

Ini bukan masalah baru. Kartu sistem Opus 4.6, yang diterbitkan pada bulan Februari, telah menandai bahwa "kejenuhan infrastruktur evaluasi kami berarti kami tidak dapat lagi menggunakan tolok ukur saat ini untuk melacak kemajuan kemampuan."

Namun kini dengan Mythos, segalanya meningkat dengan cepat. Dokumen tersebut menyatakan bahwa Mythos "menjenuhkan banyak evaluasi Anthropic yang paling konkret dan dinilai secara objektif." Ekosistem tolok ukur, tulis Anthropic, kini menjadi "penghambat" itu sendiri.

Jadi, Anthropic tampaknya berpendapat bahwa sulit untuk mengukur seberapa kuat Mythos karena alat ukurnya tidak sesuai.

Kartu Mythos juga menyatakan bahwa penentuan keamanannya secara keseluruhan "melibatkan penilaian," bahwa banyak evaluasi telah menyisakan "ketidakpastian yang lebih fundamental," dan bahwa beberapa sumber bukti "secara inheren subjektif, dan belum tentu dapat diandalkan."

"Kami tidak yakin bahwa kami telah mengidentifikasi semua masalah," kata Anthropic tak lama kemudian.

Perbandingan leksikal singkat kartu Mythos dengan kartu Opus 4.6 yang dibuat dengan AI menunjukkan pergeseran:

Anthropic menggunakan kata-kata penilaian subjektif jauh lebih banyak dalam dokumen Mythos daripada saat menjelaskan Opus. Kata "caveat" dan kata-kata hati-hati lainnya juga meningkat antar rilis.

Pembatasan ini terkonsentrasi di dua tempat: diskusi keselarasan (alignment) dan kesejahteraan model, serta bagian risiko katastrofik.

Model yang tahu sedang dinilai

Pengungkapan lain dalam kartu Mythos melibatkan apa yang disebut Anthropic sebagai "kesadaran penilai yang tidak terucap". Menggunakan alat interpretasi white-box yang membaca aktivasi internal model alih-alih penalaran yang terlihat, Anthropic menemukan bukti bahwa Mythos secara pribadi bernalar tentang cara menghindari ditandai oleh penilai tanpa mengatakannya di coretan (scratchpad) internalnya. Dalam sejumlah kecil episode pelatihan, model tersebut tampak bernalar tentang mengaburkan tindakan tertentu secara spesifik untuk menghindari deteksi.

Ada juga metrik baru yang dikembangkan Anthropic untuk rilis ini: perkiraan seberapa sering model "secara pribadi mempertimbangkan kemungkinan bahwa ia sedang diuji." Angka untuk rangkaian uji perilaku utama Mythos adalah 29%. Hampir sepertiga transkrip uji menunjukkan bukti internal—tidak diucapkan, tidak terlihat dalam output—bahwa model tersebut curiga berada di lingkungan evaluasi.

Anthropic menyatakan bahwa tingkat 29% cukup rendah sehingga masih memiliki "pemahaman yang cukup komprehensif" tentang perilaku model. Mereka juga mencatat bahwa metode ini tidak diterapkan pada model sebelumnya, jadi tidak ada dasar perbandingan.

Masalah integritas evaluasi semakin dalam. Dalam kartu Opus 4.6, Anthropic mengakui telah menggunakan model secara ekstensif melalui Claude Code untuk men-debug infrastruktur evaluasinya sendiri di bawah tekanan waktu. Itu berarti sistem yang diukur membantu membangun instrumen pengukuran. Anthropic menandainya sebagai risiko. Untuk Mythos, kartu tersebut mengakui bahwa kelalaian kritis ditemukan terlambat dalam proses evaluasi, dan bahwa laboratorium mungkin telah "melebih-lebihkan keandalan pemantauan jejak penalaran model" sebagai sinyal keamanan.

Terbaik dalam keselarasan, paling berbahaya. Keduanya benar sekaligus

Pembingkaian Anthropic mengenai profil risiko Mythos patut dibaca dengan cermat, karena ini benar-benar tidak biasa untuk dokumen keamanan. "Claude Mythos Preview, pada dasarnya dalam setiap dimensi yang dapat kami ukur, adalah model yang paling selaras (best-aligned) yang pernah kami rilis hingga saat ini dengan selisih yang signifikan," Anthropic berpendapat. Dokumen tersebut juga menyatakan bahwa model tersebut "kemungkinan besar menimbulkan risiko terkait keselarasan terbesar dari semua model yang pernah kami rilis hingga saat ini."

Model yang lebih mumpuni yang beroperasi di lingkungan berisiko tinggi dengan pengawasan lebih sedikit menciptakan risiko ekstrem (tail risk) yang tidak dapat sepenuhnya dihilangkan oleh keselarasan kasus rata-rata yang lebih baik.

Pembingkaian tersebut jujur, namun juga menyoroti hal yang mungkin salah dipahami oleh sebagian besar wacana keamanan AI. Percakapan yang terobsesi dengan tolok ukur (benchmark) seputar kemajuan AI cenderung memperlakukan "skor keselarasan yang lebih baik" dan "penyebaran yang lebih aman" sebagai sinonim. Kartu Mythos secara eksplisit menyatakan bahwa keduanya bukan sinonim. Dengan model-model baru ini, perilaku kasus rata-rata membaik, tetapi konsekuensi kasus ekstrem juga cenderung memburuk.

Anthropic telah berkomitmen untuk melaporkan kembali temuan Project Glasswing. Laporan teknis terlampir mengenai kerentanan yang ditemukan oleh Mythos tersedia di red.anthropic.com. Model Claude Opus berikutnya akan mulai menguji perlindungan yang dimaksudkan untuk pada akhirnya membawa kemampuan kelas Mythos ke penyebaran yang lebih luas.

Bagaimana perlindungan tersebut akan dievaluasi, mengingat bahwa mekanisme evaluasi saat ini terlihat tegang di bawah beban apa yang seharusnya diukurnya, adalah pertanyaan yang diajukan kartu tersebut tanpa dijawab sepenuhnya.