
Cuando Anthropic presentó Claude Mythos a principios de este mes, mantuvo el modelo bajo el resguardo de una coalición examinada de gigantes tecnológicos y lo presentó como algo demasiado peligroso para el público. El Secretario del Tesoro Scott Bessent y el Presidente de la Fed Jerome Powell convocaron una reunión de emergencia con los CEOs de Wall Street. La palabra "vulnapocalipsis" resurgió en los círculos de seguridad.
Y ahora, un equipo de investigadores ha complicado aún más esa narrativa.
Vidoc Security tomó los propios ejemplos públicos parcheados de Anthropic e intentó reproducirlos utilizando GPT-5.4 y Claude Opus 4.6 dentro de un agente de codificación de código abierto llamado opencode. Sin invitación a Glasswing. Sin acceso privado a la API. Sin la pila interna de Anthropic.
"Reprodujimos los hallazgos de Mythos en opencode usando modelos públicos, no la pila privada de Anthropic", escribió en X Dawid Moczadło, uno de los investigadores involucrados en el experimento, después de publicar los resultados. “Una mejor manera de interpretar el lanzamiento de Mythos de Anthropic no es ‘un laboratorio tiene un modelo mágico’. Es: la economía del descubrimiento de vulnerabilidades está cambiando.”
Reprodujimos los hallazgos de Mythos en opencode usando modelos públicos, no la pila privada de Anthropic.
La barrera se está moviendo del acceso al modelo a la validación: encontrar señales de vulnerabilidad es cada vez más barato; convertirlo en seguridad confiable
Una mejor manera de interpretar el lanzamiento de Mythos de Anthropic es… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA
— Dawid Moczadło (@kannthu1) 16 de abril de 2026
Los casos que atacaron eran los mismos que Anthropic destacó en sus materiales públicos: un protocolo de intercambio de archivos de servidor, la pila de red de un sistema operativo centrado en la seguridad, el software de procesamiento de vídeo incrustado en casi todas las plataformas de medios, y dos bibliotecas criptográficas utilizadas para verificar identidades digitales en toda la web.
Tanto GPT-5.4 como Claude Opus 4.6 reprodujeron dos casos de errores en cada una de las tres ejecuciones. Claude Opus 4.6 también redescubrió de forma independiente un error en OpenBSD tres veces seguidas, mientras que GPT-5.4 obtuvo cero en ese caso. Algunos errores (uno que involucraba la biblioteca FFmpeg para ejecutar vídeos y otro que implicaba el procesamiento de firmas digitales con wolfSSL) resultaron parciales, lo que significa que los modelos encontraron la superficie de código correcta pero no dieron con la causa raíz precisa.
Cada escaneo se mantuvo por debajo de los $30 por archivo, lo que significa que los investigadores pudieron encontrar las mismas vulnerabilidades que Anthropic gastando menos de $30 en hacerlo.
"Los modelos de IA ya son lo suficientemente buenos como para reducir el espacio de búsqueda, sacar a la luz pistas reales y, a veces, recuperar la causa raíz completa en código probado en batalla", dijo Moczadło en X.
El flujo de trabajo que utilizaron no fue una única instrucción. Reflejaba lo que la propia Anthropic describió públicamente: dar al modelo una base de código, dejarlo explorar, paralelizar intentos, filtrar por señal. El equipo de Vidoc construyó la misma arquitectura con herramientas de código abierto. Un agente de planificación dividió cada archivo en fragmentos. Un agente de detección separado se ejecutó en cada fragmento, luego inspeccionó otros archivos en el repositorio para confirmar o descartar hallazgos.
Los rangos de líneas dentro de cada instrucción de detección —por ejemplo, "enfocarse en las líneas 1158-1215"— no fueron elegidos manualmente por los investigadores. Fueron resultados del paso de planificación previo. La publicación del blog lo hace explícito: "Queremos ser explícitos al respecto porque la estrategia de fragmentación da forma a lo que ve cada agente de detección, y no queremos presentar el flujo de trabajo como si fuera más curado manualmente de lo que fue".
El estudio no afirma que los modelos públicos igualen a Mythos en todo. El modelo de Anthropic fue más allá de simplemente detectar el error de FreeBSD: construyó un plan de ataque funcional, descubriendo cómo un atacante podría encadenar fragmentos de código a través de múltiples paquetes de red para tomar el control total de la máquina de forma remota. Los modelos de Vidoc encontraron la falla. No construyeron el arma. Ahí es donde reside la verdadera brecha: no en encontrar el agujero, sino en saber exactamente cómo atravesarlo.
Pero el argumento de Moczadło no es realmente que los modelos públicos sean igual de potentes. Es que la parte costosa del flujo de trabajo ahora está disponible para cualquiera con una clave API: "La barrera se está moviendo del acceso al modelo a la validación: encontrar señales de vulnerabilidad es cada vez más barato; convertirlo en un trabajo de seguridad confiable sigue siendo difícil".
El propio informe de seguridad de Anthropic reconoció que Cybench, el punto de referencia utilizado para medir si un modelo representa un riesgo cibernético grave, "ya no es suficientemente informativo de las capacidades actuales de los modelos de frontera" porque Mythos lo superó por completo. El laboratorio estimó que capacidades comparables se extenderían desde otros laboratorios de IA en un plazo de seis a dieciocho meses.
El estudio de Vidoc sugiere que el lado del descubrimiento de esa ecuación ya está disponible fuera de cualquier programa cerrado. Sus extractos completos de instrucciones, resultados del modelo y el apéndice de metodología están publicados en el sitio oficial del laboratorio.