
Lorsqu'Anthropic a dévoilé Claude Mythos plus tôt ce mois-ci, il a confiné le modèle derrière une coalition triée sur le volet de géants de la technologie et l'a présenté comme étant trop dangereux pour le public. Le secrétaire au Trésor, Scott Bessent, et le président de la Fed, Jerome Powell, ont convoqué une réunion d'urgence avec les PDG de Wall Street. Le mot "vulnpocalypse" a refait surface dans les cercles de sécurité.
Et maintenant, une équipe de chercheurs a encore compliqué ce récit.
Vidoc Security a repris les propres exemples publics corrigés d'Anthropic et a tenté de les reproduire en utilisant GPT-5.4 et Claude Opus 4.6 au sein d'un agent de codage open source appelé opencode. Pas d'invitation Glasswing. Pas d'accès API privé. Pas de pile interne d'Anthropic.
"Nous avons reproduit les découvertes de Mythos dans opencode en utilisant des modèles publics, pas la pile privée d'Anthropic", a écrit Dawid Moczadło, l'un des chercheurs impliqués dans l'expérience, sur X après avoir publié les résultats. "Une meilleure façon de lire la publication de Mythos par Anthropic n'est pas 'un laboratoire a un modèle magique'. C'est : l'économie de la découverte de vulnérabilités est en train de changer."
Nous avons reproduit les découvertes de Mythos dans opencode en utilisant des modèles publics, pas la pile privée d'Anthropic.
Le fossé se déplace de l'accès au modèle vers la validation : trouver un signal de vulnérabilité devient moins cher ; le transformer en sécurité fiable
Une meilleure façon de lire la publication de Mythos par Anthropic est… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA
— Dawid Moczadło (@kannthu1) April 16, 2026
Les cas qu'ils ont ciblés étaient les mêmes que ceux qu'Anthropic avait mis en évidence dans ses documents publics : un protocole de partage de fichiers de serveur, la pile réseau d'un OS axé sur la sécurité, le logiciel de traitement vidéo intégré dans presque toutes les plateformes multimédia, et deux bibliothèques cryptographiques utilisées pour vérifier les identités numériques sur le web.
GPT-5.4 et Claude Opus 4.6 ont tous deux reproduit deux cas de bugs lors des trois exécutions. Claude Opus 4.6 a également redécouvert indépendamment un bug dans OpenBSD trois fois de suite, tandis que GPT-5.4 a obtenu un score de zéro sur celui-là. Certains bugs (l'un impliquant la bibliothèque FFmpeg pour l'exécution de vidéos et un autre concernant le traitement des signatures numériques avec wolfSSL) sont revenus partiels, ce qui signifie que les modèles ont trouvé la bonne surface de code mais n'ont pas identifié la cause première précise.
Chaque analyse a coûté moins de 30 $ par fichier, ce qui signifie que les chercheurs ont pu trouver les mêmes vulnérabilités qu'Anthropic en dépensant moins de 30 $ pour le faire.
"Les modèles d'IA sont déjà suffisamment bons pour réduire l'espace de recherche, faire remonter de véritables pistes et parfois retrouver la cause première complète dans du code éprouvé", a déclaré Moczadło sur X.
Le flux de travail qu'ils ont utilisé n'était pas une simple invite. Il imitait ce qu'Anthropic lui-même a décrit publiquement : donner un codebase au modèle, le laisser explorer, paralléliser les tentatives, filtrer les signaux. L'équipe Vidoc a construit la même architecture avec des outils open source. Un agent de planification divisait chaque fichier en blocs. Un agent de détection séparé s'exécutait sur chaque bloc, puis inspectait d'autres fichiers dans le dépôt pour confirmer ou écarter les découvertes.
Les plages de lignes à l'intérieur de chaque invite de détection, par exemple, "focus sur les lignes 1158-1215", n'ont pas été choisies manuellement par les chercheurs. Elles étaient le résultat de l'étape de planification précédente. L'article de blog l'indique explicitement : "Nous voulons être explicites à ce sujet car la stratégie de découpage façonne ce que chaque agent de détection voit, et nous ne voulons pas présenter le flux de travail comme plus manuellement organisé qu'il ne l'était."
L'étude ne prétend pas que les modèles publics égalent Mythos sur tous les points. Le modèle d'Anthropic est allé plus loin que la simple détection du bug FreeBSD : il a construit un plan d'attaque fonctionnel, en déterminant comment un attaquant pourrait enchaîner des fragments de code à travers plusieurs paquets réseau pour prendre le contrôle total de la machine à distance. Les modèles de Vidoc ont trouvé la faille. Ils n'ont pas construit l'arme. C'est là que réside le véritable écart : non pas dans la découverte de la brèche, mais dans la connaissance exacte de la manière de l'exploiter.
Mais l'argument de Moczadło n'est pas vraiment que les modèles publics sont aussi puissants. C'est que la partie coûteuse du flux de travail est désormais accessible à quiconque possède une clé API : "Le fossé se déplace de l'accès au modèle vers la validation : trouver un signal de vulnérabilité devient moins cher ; le transformer en travail de sécurité fiable reste difficile."
Le propre rapport de sécurité d'Anthropic a reconnu que Cybench, le benchmark utilisé pour mesurer si un modèle représente un risque cybernétique sérieux, "n'est plus suffisamment informatif des capacités des modèles de pointe actuels" car Mythos l'a entièrement surpassé. Le laboratoire a estimé que des capacités comparables se propageraient depuis d'autres laboratoires d'IA dans les six à dix-huit mois.
L'étude de Vidoc suggère que le côté découverte de cette équation est déjà disponible en dehors de tout programme cloisonné. Leurs extraits d'invites complets, les sorties de modèles et l'annexe méthodologique sont publiés sur le site officiel du laboratoire.