
Când Anthropic a dezvăluit Claude Mythos la începutul acestei luni, a blocat modelul în spatele unei coaliții verificate de giganți tehnologici și l-a prezentat ca pe ceva prea periculos pentru public. Secretarul Trezoreriei, Scott Bessent, și Președintele Fed, Jerome Powell, au convocat o ședință de urgență cu directorii generali de pe Wall Street. Cuvântul „vulnpocalypse” a reapărut în cercurile de securitate.
Și acum, o echipă de cercetători a complicat și mai mult această narațiune.
Vidoc Security a preluat propriile exemple publice corectate ale Anthropic și a încercat să le reproducă folosind GPT-5.4 și Claude Opus 4.6 într-un agent de codificare open-source numit opencode. Fără invitație Glasswing. Fără acces API privat. Fără stack intern Anthropic.
„Am replicat descoperirile Mythos în opencode folosind modele publice, nu stack-ul privat al Anthropic”, a scris pe X Dawid Moczadło, unul dintre cercetătorii implicați în experiment, după publicarea rezultatelor. „O modalitate mai bună de a citi lansarea Mythos a Anthropic nu este 'un singur laborator are un model magic'. Este: economia descoperirii vulnerabilităților se schimbă.”
Am replicat descoperirile Mythos în opencode folosind modele publice, nu stack-ul privat al Anthropic.
Avantajul se mută de la accesul la model la validare: găsirea semnalului de vulnerabilitate devine mai ieftină; transformarea acestuia în muncă de securitate de încredere
O modalitate mai bună de a citi lansarea Mythos a Anthropic este… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA
— Dawid Moczadło (@kannthu1) April 16, 2026
Cazurile pe care le-au vizat au fost aceleași pe care Anthropic le-a subliniat în materialele sale publice: un protocol de partajare a fișierelor de server, stack-ul de rețea al unui sistem de operare axat pe securitate, software-ul de procesare video încorporat în aproape fiecare platformă media și două biblioteci criptografice utilizate pentru a verifica identitățile digitale pe web.
Atât GPT-5.4, cât și Claude Opus 4.6 au reprodus câte două cazuri de bug-uri în toate cele trei rulări. Claude Opus 4.6 a redescoperit, de asemenea, independent, un bug în OpenBSD de trei ori consecutiv, în timp ce GPT-5.4 a obținut zero la acel capitol. Unele bug-uri (unul implicând biblioteca FFmpeg pentru rularea videoclipurilor și altul implicând procesarea semnăturilor digitale cu wolfSSL) au revenit parțial – ceea ce înseamnă că modelele au găsit suprafața corectă a codului, dar nu au identificat cauza rădăcină precisă.
Fiecare scanare a costat sub 30 de dolari per fișier, ceea ce înseamnă că cercetătorii au reușit să găsească aceleași vulnerabilități ca Anthropic, cheltuind mai puțin de 30 de dolari pentru a face acest lucru.
„Modelele AI sunt deja suficient de bune pentru a restrânge spațiul de căutare, a scoate la iveală piste reale și, uneori, a recupera cauza rădăcină completă în codul testat în luptă”, a spus Moczadło pe X.
Fluxul de lucru pe care l-au folosit nu a fost o solicitare unică. A oglindit ceea ce Anthropic însuși a descris public: oferiți modelului o bază de cod, lăsați-l să exploreze, să paralelizeze încercările, să filtreze pentru semnal. Echipa Vidoc a construit aceeași arhitectură cu instrumente open-source. Un agent de planificare a împărțit fiecare fișier în segmente. Un agent de detecție separat a rulat pe fiecare segment, apoi a inspectat alte fișiere din repo pentru a confirma sau a exclude constatările.
Intervalele de linii din fiecare prompt de detecție – de exemplu, „concentrați-vă pe liniile 1158-1215” – nu au fost alese manual de cercetători. Au fost rezultate din etapa anterioară de planificare. Postarea de pe blog explică acest lucru explicit: „Vrem să fim exacți în privința asta, deoarece strategia de segmentare modelează ceea ce vede fiecare agent de detecție și nu dorim să prezentăm fluxul de lucru ca fiind mai curat manual decât a fost în realitate.”
Studiul nu pretinde că modelele publice se potrivesc cu Mythos în toate aspectele. Modelul Anthropic a mers mai departe decât simpla identificare a bug-ului FreeBSD – a construit un plan de atac funcțional, descoperind cum un atacator ar putea înlănțui fragmente de cod prin mai multe pachete de rețea pentru a prelua controlul total al mașinii de la distanță. Modelele Vidoc au găsit vulnerabilitatea. Nu au construit arma. Acolo se află decalajul real: nu în găsirea găurii, ci în a ști exact cum să o exploatezi.
Dar argumentul lui Moczadło nu este că modelele publice sunt la fel de puternice. Este că partea costisitoare a fluxului de lucru este acum disponibilă oricui are o cheie API: „Avantajul se mută de la accesul la model la validare: găsirea semnalului de vulnerabilitate devine mai ieftină; transformarea acestuia în muncă de securitate de încredere este încă dificilă.”
Propriul raport de siguranță al Anthropic a recunoscut că Cybench, etalonul folosit pentru a măsura dacă un model prezintă un risc cibernetic serios, „nu mai este suficient de informativ cu privire la capabilitățile modelelor de vârf actuale”, deoarece Mythos l-a depășit în întregime. Laboratorul a estimat că capabilități comparabile s-ar răspândi de la alte laboratoare AI în decurs de șase până la 18 luni.
Studiul Vidoc sugerează că partea de descoperire a acestei ecuații este deja disponibilă în afara oricărui program restricționat. Fragmentele complete ale prompturilor, rezultatele modelului și anexa metodologică sunt publicate pe site-ul oficial al laboratorului.