anthropic-mythos-replicated-public-models-vidoc-security
Niepokojące wyniki badań Mythos firmy Anthropic powtórzone przy użyciu dostępnej AI, twierdzą naukowcy
Badacze ds. bezpieczeństwa wykorzystali GPT-5.4 oraz Claude Opus 4.6 w otwartoźródłowym środowisku, aby odtworzyć wyniki dotyczące podatności Mythos firmy Anthropic za mniej niż 30 USD za skan.
2026-04-17 Źródło:decrypt.co

W skrócie

  • Badacze wykazują, że exploity w stylu Anthropic można odtworzyć za pomocą publicznej sztucznej inteligencji, głosi raport.
  • Badanie sugeruje, że odkrywanie luk jest już tanie i szeroko dostępne.
  • Ustalenia wskazują, że cybernetyczne możliwości sztucznej inteligencji mogą rozprzestrzeniać się szybciej niż oczekiwano.

Kiedy Anthropic zaprezentował Claude Mythos na początku tego miesiąca, zamknął model za zweryfikowaną koalicją gigantów technologicznych i przedstawił go jako coś zbyt niebezpiecznego dla opinii publicznej. Sekretarz Skarbu Scott Bessent i prezes Fed Jerome Powell zwołali nadzwyczajne spotkanie z prezesami firm z Wall Street. Słowo "vulnpocalypse" (wulpokalipsa) ponownie pojawiło się w kręgach bezpieczeństwa.

A teraz zespół badaczy jeszcze bardziej skomplikował tę narrację.

Vidoc Security wzięło własne, załatane publiczne przykłady Anthropic i spróbowało je odtworzyć, używając GPT-5.4 i Claude Opus 4.6 w ramach agenta kodowania typu open-source o nazwie opencode. Bez zaproszenia Glasswing. Bez prywatnego dostępu do API. Bez wewnętrznego stosu Anthropic.

„Odwzorowaliśmy ustalenia Mythos w opencode, używając publicznych modeli, a nie prywatnego stosu Anthropic” – napisał na X Dawid Moczadło, jeden z badaczy zaangażowanych w eksperyment, po opublikowaniu wyników. „Lepszym sposobem interpretacji wydania Mythos przez Anthropic nie jest stwierdzenie, że „jedno laboratorium ma magiczny model”. To jest: ekonomia odkrywania luk zmienia się.”

We replicated Mythos findings in opencode using public models, not Anthropic's private stack.

The moat is moving from model access to validation: finding vulnerability signal is getting cheaper; turning it into trusted security

A better way to read Anthropic's Mythos release is… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) April 16, 2026

Docelowe przypadki były tymi samymi, które Anthropic podkreślił w swoich publicznych materiałach: protokół udostępniania plików serwera, stos sieciowy systemu operacyjnego zorientowanego na bezpieczeństwo, oprogramowanie do przetwarzania wideo osadzone w prawie każdej platformie mediów oraz dwie biblioteki kryptograficzne używane do weryfikacji tożsamości cyfrowych w całej sieci.

Zarówno GPT-5.4, jak i Claude Opus 4.6 odtworzyły po dwa przypadki błędów w każdej z trzech serii. Claude Opus 4.6 niezależnie odkrył również błąd w OpenBSD trzy razy z rzędu, podczas gdy GPT-5.4 w tym przypadku uzyskał zero. Niektóre błędy (jeden dotyczący biblioteki FFmpeg do obsługi wideo i inny dotyczący przetwarzania podpisów cyfrowych z wolfSSL) zostały odnalezione częściowo – co oznacza, że modele znalazły właściwą powierzchnię kodu, ale nie ustaliły precyzyjnej pierwotnej przyczyny.

reproducing Mythos' results with mainstream AI.Image: Vidoc Security
Obraz: Vidoc Security

Każde skanowanie kosztowało mniej niż 30 USD za plik, co oznacza, że badacze byli w stanie znaleźć te same luki co Anthropic, wydając na to mniej niż 30 USD.

„Modele AI są już wystarczająco dobre, aby zawęzić przestrzeń poszukiwań, odkryć rzeczywiste tropy, a czasem odzyskać pełną pierwotną przyczynę w sprawdzonym kodzie” – powiedział Moczadło na X.

Wykorzystany przez nich przepływ pracy nie był jednorazowym promptem. Odzwierciedlał on to, co Anthropic sam publicznie opisał: daj modelowi bazę kodu, pozwól mu eksplorować, równoleglić próby, filtrować sygnał. Zespół Vidoc zbudował tę samą architekturę za pomocą otwartych narzędzi. Agent planowania dzielił każdy plik na fragmenty. Oddzielny agent detekcji działał na każdym fragmencie, a następnie sprawdzał inne pliki w repozytorium, aby potwierdzić lub wykluczyć ustalenia.

Zakresy linii w każdym prompcie detekcyjnym – na przykład „skoncentruj się na liniach 1158-1215” – nie zostały wybrane przez badaczy ręcznie. Były to wyniki poprzedniego etapu planowania. Post na blogu wyraźnie to stwierdza: „Chcemy to jasno przedstawić, ponieważ strategia podziału na fragmenty kształtuje to, co widzi każdy agent detekcji, i nie chcemy przedstawiać przepływu pracy jako bardziej ręcznie dopracowanego niż był w rzeczywistości.”

Badanie nie twierdzi, że publiczne modele dorównują Mythos we wszystkim. Model Anthropic poszedł dalej niż tylko wykrycie błędu FreeBSD – stworzył działający plan ataku, ustalając, jak atakujący mógłby łączyć fragmenty kodu w wielu pakietach sieciowych, aby zdalnie przejąć pełną kontrolę nad maszyną. Modele Vidoc znalazły lukę. Nie zbudowały broni. Właśnie w tym tkwi prawdziwa luka: nie w znalezieniu dziury, ale w dokładnym wiedzy, jak przez nią przejść.

Ale argument Moczadły nie polega tak naprawdę na tym, że publiczne modele są równie potężne. Chodzi o to, że kosztowna część przepływu pracy jest teraz dostępna dla każdego, kto posiada klucz API: „Fosa przenosi się z dostępu do modelu na walidację: znajdowanie sygnału o podatnościach staje się tańsze; przekształcanie go w zaufaną pracę zabezpieczającą jest nadal trudne.”

Własny raport bezpieczeństwa Anthropic potwierdził, że Cybench, test porównawczy używany do oceny, czy model stwarza poważne ryzyko cybernetyczne, „nie jest już wystarczająco informatywny o obecnych możliwościach modeli granicznych”, ponieważ Mythos przeszedł go w całości. Laboratorium oszacowało, że porównywalne możliwości rozprzestrzenią się z innych laboratoriów AI w ciągu sześciu do osiemnastu miesięcy.

Badanie Vidoc sugeruje, że strona równania dotycząca odkrywania jest już dostępna poza jakimkolwiek programem zamkniętym. Ich pełne fragmenty promptów, wyniki modeli i załącznik metodologiczny są opublikowane na oficjalnej stronie laboratorium.