anthropic-mythos-replicated-public-models-vidoc-security
Anthropics Alarmerende Mythos Bevindingen Gerepliceerd Met Kant-en-Klare AI, Zeggen Onderzoekers
Beveiligingsonderzoekers gebruikten GPT-5.4 en Claude Opus 4.6 in een open-source omgeving om Anthropic's Mythos-kwetsbaarheidsbevindingen te reproduceren voor minder dan $30 per scan.
2026-04-17 Bron:decrypt.co

In het kort

  • Onderzoekers tonen aan dat exploits in Anthropic-stijl kunnen worden gereproduceerd met openbare AI, zo stelt het rapport.
  • Studie suggereert dat het ontdekken van kwetsbaarheden al goedkoop en breed toegankelijk is.
  • Bevindingen duiden erop dat cybermogelijkheden van AI zich sneller verspreiden dan verwacht.

Toen Anthropic eerder deze maand Claude Mythos onthulde, sloten ze het model af achter een gecontroleerde coalitie van techgiganten en presenteerden ze het als iets te gevaarlijk voor het publiek. Minister van Financiën Scott Bessent en Fed-voorzitter Jerome Powell belegden een spoedvergadering met CEO's van Wall Street. Het woord "vulnpocalypse" dook weer op in beveiligingskringen.

En nu heeft een team van onderzoekers dat narratief verder gecompliceerd.

Vidoc Security nam Anthropic's eigen gepatchte openbare voorbeelden en probeerde deze te reproduceren met behulp van GPT-5.4 en Claude Opus 4.6 binnen een open-source codeeragent genaamd opencode. Geen Glasswing-uitnodiging. Geen privé API-toegang. Geen interne Anthropic-stack.

"We hebben Mythos-bevindingen gerepliceerd in opencode met behulp van openbare modellen, niet Anthropic's privé-stack," schreef Dawid Moczadło, een van de onderzoekers die betrokken was bij het experiment, op X na het publiceren van de resultaten. “Een betere manier om Anthropic's Mythos-release te interpreteren is niet ‘één lab heeft een magisch model.’ Het is: de economie van kwetsbaarheidsdetectie verandert.”

We hebben Mythos-bevindingen gerepliceerd in opencode met behulp van openbare modellen, niet Anthropic's privé-stack.

De 'moat' (concurrentievoordeel) verschuift van modeltoegang naar validatie: het vinden van kwetsbaarheidssignalen wordt goedkoper; het omzetten naar betrouwbaar beveiligingswerk

Een betere manier om Anthropic's Mythos-release te interpreteren is… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) April 16, 2026

De gevallen die zij aanpakten, waren dezelfde als die Anthropic in zijn openbare materialen belichtte: een server-bestandsdelingsprotocol, de netwerkstack van een beveiligingsgericht besturingssysteem, de videoverwerkingssoftware die in bijna elk mediaplatform is ingebed, en twee cryptografische bibliotheken die worden gebruikt om digitale identiteiten over het web te verifiëren.

Zowel GPT-5.4 als Claude Opus 4.6 reproduceerden elk twee bugcases in alle drie de runs. Claude Opus 4.6 herontdekte ook onafhankelijk een bug in OpenBSD drie keer achter elkaar, terwijl GPT-5.4 daar nul scoorde. Sommige bugs (één met betrekking tot de FFmpeg-bibliotheek voor het afspelen van video's en een andere met betrekking tot de verwerking van digitale handtekeningen met wolfSSL) kwamen gedeeltelijk terug – wat betekent dat de modellen het juiste codegedrag vonden, maar niet de precieze hoofdoorzaak aanpakten.

reproducing Mythos' results with mainstream AI.Image: Vidoc Security
Afbeelding: Vidoc Security

Elke scan bleef onder de $30 per bestand, wat betekent dat onderzoekers dezelfde kwetsbaarheden als Anthropic konden vinden terwijl ze minder dan $30 uitgaven om dit te doen.

"AI-modellen zijn al goed genoeg om de zoekruimte te verkleinen, echte aanwijzingen te vinden en soms de volledige hoofdoorzaak in beproefde code te herstellen," zei Moczadło op X.

De workflow die ze gebruikten, was geen one-shot prompt. Het weerspiegelde wat Anthropic zelf openbaar beschreef: geef het model een codebase, laat het verkennen, paralleliseer pogingen, filter op signalen. Het Vidoc-team bouwde dezelfde architectuur met open-source tools. Een planningsagent verdeelde elk bestand in brokken. Een aparte detectie-agent draaide op elk brok en inspecteerde vervolgens andere bestanden in de repository om bevindingen te bevestigen of uit te sluiten.

De lijnreeksen binnen elke detectieprompt – bijvoorbeeld "focus op regels 1158-1215" – werden niet handmatig door de onderzoekers gekozen. Het waren outputs van de voorgaande planningsstap. De blogpost maakt dit expliciet: "We willen hier expliciet over zijn omdat de chunking-strategie bepaalt wat elke detectie-agent ziet, en we willen de workflow niet handmatiger presenteren dan hij was."

De studie beweert niet dat openbare modellen Mythos op alles evenaren. Het model van Anthropic ging verder dan alleen het opsporen van de FreeBSD-bug – het bouwde een werkende aanvalsblauwdruk, waarbij werd uitgevonden hoe een aanvaller codefragmenten via meerdere netwerkpakketten aan elkaar kon koppelen om de volledige controle over de machine op afstand over te nemen. De modellen van Vidoc vonden de fout. Ze bouwden het wapen niet. Dat is waar de echte kloof zit: niet in het vinden van het gat, maar in het precies weten hoe je erdoorheen moet gaan.

Maar Moczadło's argument is niet echt dat openbare modellen even krachtig zijn. Het is dat het dure deel van de workflow nu beschikbaar is voor iedereen met een API-sleutel: "Het concurrentievoordeel (moat) verschuift van modeltoegang naar validatie: het vinden van kwetsbaarheidssignalen wordt goedkoper; het omzetten in betrouwbaar beveiligingswerk is nog steeds moeilijk."

Anthropic's eigen veiligheidsrapport erkende dat Cybench, de benchmark die wordt gebruikt om te meten of een model een ernstig cyberrisico vormt, "niet langer voldoende informatief is over de huidige mogelijkheden van frontier-modellen" omdat Mythos deze volledig had doorstaan. Het lab schatte in dat vergelijkbare capaciteiten zich binnen zes tot 18 maanden van andere AI-labs zouden verspreiden.

De Vidoc-studie suggereert dat de ontdekkingskant van die vergelijking al beschikbaar is buiten elk afgeschermd programma. Hun volledige prompt-uittreksels, modeloutputs en methodologiebijlage zijn gepubliceerd op de officiële site van het lab.