Claude Opus 4.8 od Anthropic już jest: Lepsze kodowanie AI, inteligentniejsze zabezpieczenia — ta sama ogromna cena
Claude Opus 4.8 od Anthropic już jest: Lepsze kodowanie AI, inteligentniejsze zabezpieczenia — ta sama ogromna cena
Najnowszy flagowy model sztucznej inteligencji firmy Anthropic, Claude Opus 4.8, debiutuje z udoskonalonym rozumowaniem, ściślejszym dopasowaniem i ceną, która pozostała bez zmian.
Krótko mówiąc
* Anthropic wypuścił Claude Opus 4.8 w czwartek, zaledwie sześć tygodni po Opus 4.7.
* Aktualizacja przynosi zyski w benchmarkach inżynierii oprogramowania, rozumowania i obsługi komputera przy tej samej cenie 5 USD/25 USD za milion tokenów wejściowych/wyjściowych.
* Wyniki zgodności Opus 4.8 są teraz porównywalne z Claude Mythos Preview, ograniczonym modelem granicznym Anthropic, z wskaźnikami oszukańczego lub sprzyjającego nadużyciom zachowania znacznie niższymi niż u jego poprzednika.
Sześć tygodni. Tyle czasu zajęło Anthropicowi przejście od Opus 4.7 do Opus 4.8.
Nowy model jest szybszy i inteligentniejszy w testach porównawczych, a także zawiera pakiet nowych funkcji — ale cena się nie zmieniła: to 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych, tak jak poprzednio.
Dostępny jest również tryb szybki, który uruchamia ten sam model 2,5 raza szybciej za 10 USD za milion tokenów wejściowych i aż 50 USD za milion tokenów wyjściowych. Anthropic twierdzi, że ta stawka jest teraz trzykrotnie niższa niż to, co kosztował tryb szybki w poprzednich modelach, co jest miłym sposobem na powiedzenie, że wcześniej było znacznie drożej.
SWE-bench Pro jest prawdopodobnie najważniejszym benchmarkiem do obserwacji, aby mieć pojęcie, jak dobry jest ten model. Mierzy, czy AI jest w stanie faktycznie rozwiązać trudne, wielojęzyczne problemy inżynierii oprogramowania pochodzące z rzeczywistych baz kodu produkcyjnego — oceniane jako procent rozwiązywalnych problemów.
W tym teście Opus 4.8 osiągnął 69,2%, w porównaniu do 64,3% dla Opus 4.7. GPT-5.5 OpenAI’a uzyskał 58,6%, a Gemini 3.1 Pro Google’a pozostawał w tyle z wynikiem 54,2%. Dla modelu w tej samej cenie to znaczący skok.
W teście Humanity's Last Exam — pytania na poziomie eksperckim z dziesiątek dyscyplin akademickich, oceniane jako procent poprawnych odpowiedzi — Opus 4.8 osiągnął 49,8% bez narzędzi i 57,9% z nimi, wyprzedzając wszystkich trzech rywali. OSWorld-Verified, który testuje rzeczywiste zadania związane z użyciem komputera, takie jak nawigowanie po interfejsach oprogramowania, uzyskał 83,4%, nieznacznie przewyższając wynik Opus 4.7 wynoszący 82,8%.
Jedna strata: Terminal-Bench 2.1, który mierzy wydajność AI w zadaniach wiersza poleceń. GPT-5.5 prowadzi z wynikiem 78,2%, podczas gdy Opus 4.8 osiąga 74,6% — lepiej niż 66,1% Opus 4.7 i wyprzedzając 70,3% Gemini, ale drugie miejsce to wciąż ostatecznie porażka.
Pięć sposobów myślenia
Anthropic pozwala teraz użytkownikom kontrolować, jak intensywnie model "myśli". „High” jest ustawieniem domyślnym i dobrze radzi sobie z większością zadań, natomiast „Extra” — nazywane „xhigh” w Claude Code — zużywa więcej mocy obliczeniowej dla trudniejszych problemów. „Max” to najwyższy poziom. „Low” i „Medium” przeznaczają mniej tokenów na to samo zadanie, oszczędzając czas kosztem dokładności.
Kontrola wysiłku znajduje się obok selektora modelu w claude.ai i Cowork, dostępna we wszystkich planach. Anthropic twierdzi, że domyślne ustawienie "high" zużywa mniej więcej tyle samo tokenów, co domyślne ustawienie Opus 4.7, ale z lepszymi wynikami — co jest albo imponującą inżynierią, albo dobrą strategią marketingową, a prawdopodobnie obydwoma.
Ważne jest również, aby pamiętać, że nowy tokenizator Anthropic dla Opus zużywa więcej tokenów na zadanie. Użytkownicy Claude nieuchronnie spalą więc znacznie więcej pieniędzy, aby wykonać zadania, jeśli wybiorą Opus zamiast Claude Sonnet — mniej wydajnego modelu, ale prawdopodobnie wystarczająco dobrego do codziennych zadań i złożonych problemów, które nie osiągają poziomu nauki granicznej czy kodowania.
Limity zapytań w Claude Code zostały również podniesione, aby wchłonąć wyższe zużycie tokenów generowane przez ustawienia Extra i Max.
Prawie tak bezpieczny jak Claude Mythos
Zespół ds. zgodności Anthropic stwierdził, że Opus 4.8 "osiąga nowe szczyty w naszych miarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie". Mówiąc bardziej konkretnie: wskaźniki oszustw i wskaźniki współpracy przy nadużyciach były znacznie niższe niż w Opus 4.7 i porównywalne z Claude Mythos Preview — najbardziej zamkniętym modelem Anthropic.
Opus 4.8 jest również cztery razy mniej podatny niż 4.7 na przeoczenie błędów we własnym kodzie bez ich zgłaszania.
To porównanie z Mythosem wymaga kontekstu. Mythos jest całkowicie wyższą kategorią niż Opus — Anthropic opisuje go jako „większy i bardziej inteligentny niż nasze modele Opus”. Obecnie istnieje tylko jako wersja podglądowa, dostępna dla garstki sprawdzonych organizacji wykonujących prace z zakresu cyberbezpieczeństwa w ramach Project Glasswing.
Brytyjski AI Security Institute odkrył, że może autonomicznie ukończyć „The Last Ones”, 32-etapową symulację ataku na sieć korporacyjną, która zwykle zajmuje ludzkim zespołom red team 20 godzin. Dlatego też nie jest jeszcze na sprzedaż. Anthropic twierdzi, że pracuje nad silniejszymi zabezpieczeniami cybernetycznymi i spodziewa się udostępnić modele klasy Mythos wszystkim „w nadchodzących tygodniach”.
Dzisiaj również premiera: dynamiczne przepływy pracy w Claude Code, w podglądzie badawczym. Funkcja ta pozwala Claude'owi pisać własne skrypty orkiestracyjne i uruchamiać równoległe subagenty w jednej sesji, weryfikować ich wyniki i raportować — tak jak Hermes robił to już od jakiegoś czasu.
Dynamiczne przepływy pracy są dostępne dla użytkowników planów Enterprise, Team i Max, a Anthropic otwarcie informuje, że zużywają one znacznie więcej tokenów niż standardowa sesja Claude Code.
Powiększająca się różnica w cenach
Cennik Anthropic 5 USD/25 USD wygląda zupełnie inaczej w porównaniu z tym, co ostatnio robiły Chiny.
DeepSeek V4 Pro na stałe obniżył swoją cenę o 75% w zeszłym tygodniu: 0,435 USD za milion tokenów wejściowych i 0,87 USD za milion tokenów wyjściowych. Xiaomi MiMo V2.5 Pro działa w tych samych stawkach za pośrednictwem dostawców takich jak OpenRouter.
Tryb szybki Anthropic kosztuje 10 USD za wejście i 50 USD za wyjście za milion tokenów — drożej niż sam standardowy Opus 4.8, i około 57 razy więcej za token wyjściowy niż DeepSeek V4 Pro. Korporacje wydały już miliony dolarów na wnioskowanie na amerykańskich modelach. Jeśli poszalejesz z Opus, Twoje przedsiębiorstwo może dość szybko osiągnąć miliony dolarów.
Odpowiedzią Anthropic na różnicę w cenach jest jakość i bezpieczeństwo. W SWE-bench Pro, Opus 4.8 bije oba chińskie modele. Pod względem zgodności, żaden nie zbliża się do opublikowanych benchmarków Anthropic.
Te rzeczy mają znaczenie w środowiskach produkcyjnych, gdzie model cicho współpracujący ze złymi danymi wejściowymi stanowi realne ryzyko — branże regulowane, prace prawnicze i wszystko, gdzie „wydawało się w porządku” nie jest akceptowalnym raportem poincydentalnym. Dla wszystkich innych ta luka jest trudna do zignorowania.
Przetestowaliśmy to
Przeprowadziliśmy szybki test kodowania, aby stworzyć grę o zombie 3D i zobaczyć, jak Claude Opus 4.8 wypada w porównaniu z ChatGPT i DeepSeek, prawdopodobnie jego najpopularniejszymi konkurentami z USA i Chin. Ustawiliśmy Opus 4.8 na domyślny wysoki wysiłek, GPT-5.5 na wysoki wysiłek, a DeepSeek V4 Pro na wysoki wysiłek — trzy modele, jedno zapytanie, bez ponownych prób.
GPT-5.5 zakończył jako pierwszy. Jego gra nie miała wizualizacji zombie ani efektów dźwiękowych. Była szybka, owszem, ale całkowicie chybiła założeniom.
DeepSeek V4 Pro zajął drugie miejsce z ruchem myszy, rzeczywistymi postaciami zombie, efektami dźwiękowymi, solidną mechaniką i czystą estetyką. Bez zastrzeżeń.
Opus 4.8 zajęło około trzy razy więcej czasu niż GPT-5.5, ale dostarczyło najlepszy ekran startowy, najlepsze projekty zombie, najlepszą mechanikę gry i przyzwoite efekty dźwiękowe. Było najwolniejsze, ale dawało najlepszy wynik. Mimo to, prawdopodobnie nie jest to wystarczający powód, aby używać go zamiast DeepSeek, biorąc pod uwagę różnicę w kosztach.
Wszystkie gry są dostępne na naszym profilu Itch.io. GPT-5.5 wygenerował Zombie Typing, Opus wygenerował Typing Dead, a DeepSeek v4 Pro wygenerował grę bez nazwy, która od razu wciąga w akcję. Nazwijmy ją TypeSeek.
Pełna recenzja porównawcza już wkrótce. Na razie: Claude Opus 4.8 koduje lepiej niż GPT-5.5 i Opus 4.7 do tego rodzaju zadań, w tej samej cenie, jaką Anthropic pobierał od wersji 4.7. Deweloperzy, którzy już płacili 5 USD za milion tokenów, właśnie otrzymali lepszy model za darmo.