Claude Opus 4.8: co nowy flagowiec Anthropic zmienia w pracy agentów i Claude Code

Claude Opus 4.8 zmienia model pracy agentów: dynamic workflows, kontrola wysiłku i tańszy fast mode. Co to oznacza dla Twojego zespołu?

Maciej Sala

Founder StriveLab

6 min czytaniaOpublikowano 28 maja 2026 (Aktualizacja 6 lipca 2026)

Anthropic pozycjonuje 4.8 jako „skromne, ale wyraźnie odczuwalne” usprawnienie. Premiera skupia się nie na tym, ile model wie i ile potrafi, ale ile model przyznaje, że nie wie. Mówiąc prościej, Opus 4.8 ma mniej kłamać i udawać, że wie.

Odnosi się to do klasycznego problemu LLM-ów, który polega na tym, że potrafią z przekonaniem ogłosić sukces, mając cienkie dowody.

Claude Opus 4.8 w benchmarkach: co dokładnie się zmienia

Większość wyników rośnie o kilka punktów procentowych. Poprawa jest najbardziej zauważalna w zadaniach, gdzie produkcyjne agenty zwykle się wykładają — długie łańcuchy decyzji, kod wielojęzyczny, praca w terminalu.

Benchmark	Opus 4.8	Opus 4.7
SWE-bench Verified (kodowanie)	88,6%	87,6%
SWE-bench Pro (kodowanie, trudniejszy)	69,2%	64,3%
Terminal-Bench 2.1 (praca w terminalu)	74,6%	66,1%
OSWorld-Verified (computer use)	83,4%	82,3%
Humanity's Last Exam (rozumowanie z narzędziami)	57,9%	54,7%
GDPval (praca wiedzowa)	1890	1753

Dla kontekstu konkurencyjnego: na SWE-bench Pro Opus 4.8 (69,2%) wyprzedza GPT-5.5 (58,6%) i Gemini 3.1 Pro (54,2%). Według Anthropic model wygrywa też z tymi dwoma rywalami m.in. na agentowym kodowaniu, computer use i analizie finansowej.

Domyślnie 4.8 pracuje na poziomie „high effort”, a mimo to na zadaniach kodowania zużywa zbliżoną liczbę tokenów co domyślny Opus 4.7. Dane pokazują, że dostajesz więcej jakości za podobny budżet tokenowy, co przesuwa rachunek ekonomiczny w stronę Opusa, a nie tylko jego wynik na osi „inteligencja”.

Honesty w Claude Opus 4.8: najciekawszy wątek premiery

Najmocniej eksponowaną zmianą nie jest surowa moc, lecz . Opus 4.8 częściej sygnalizuje niepewność i rzadziej formułuje twierdzenia, których nie potrafi obronić — a w ewaluacjach jest ok. czterokrotnie rzadziej skłonny przepuścić wadę we własnym kodzie bez adnotacji.

Cztery razy rzadziej przepuszcza własny błąd w kodzie bez komentarza.

— ewaluacje Anthropic, System Card Opus 4.8

Dla osoby budującej agenty oznacza to szybsze manualne przeglądów przed wdrożeniem na produkcję, ale z pewnością, nie stałbym z zegarkiem w ręku i mierzył czas.

Anthropic dołożył też ocenę alignmentu, ponieważ 4.8 ma istotnie niższe wskaźniki zachowań niepożądanych (np. zwodzenia) niż 4.7 i zbliża się pod tym względem do najlepiej wyrównanego modelu firmy, czyli Claude Mythos Preview.

Nowe funkcje Claude Opus 4.8 poza samym modelem

Premiera to nie tylko model.

Dynamic workflows (Claude Code, research preview). Rozbija zadanie na kroki, uruchamia setki równoległych subagentów w jednej sesji (z 4.8 mogą działać dłużej), weryfikuje wyniki. Przypadek użycia: migracje na skalę całej bazy kodu — setki tysięcy linii. Dostępne w Claude Code dla planów Enterprise, Team i Max.
Kontrola wysiłku (effort control) w claude.ai i Cowork. Suwak obok wyboru modelu decyduje, ile „wysiłku” model wkłada w odpowiedź. Wyżej = głębsze myślenie i lepsze odpowiedzi. Niżej = szybciej i oszczędniej z limitami. Dostępne na wszystkich planach.
Messages API z wpisami system wewnątrz tablicy messages.
Można aktualizować instrukcje modelu w trakcie zadania bez psucia cache promptu i bez przepuszczania zmiany przez turę użytkownika — przydatne do zmiany uprawnień, budżetu tokenów albo kontekstu środowiska w trakcie działania agenta.
Tańszy fast mode. Praca z prędkością 2,5× przy cenie trzykrotnie niższej niż w poprzednich modelach (ok. 40 zł / 200 zł za mln tokenów wej./wyj.). W Claude Code uruchamiany komendą /fast. Dostęp przez API na razie reglamentowany (lista oczekujących).

Claude Opus 4.8 vs Sonnet 4.6: dwie półki, nie dwie wersje

To pytanie wraca przy każdej premierze Opusa i warto je rozdzielić od porównania z poprzednikiem. Opus i Sonnet to dwie różne półki, nie dwie wersje tego samego.

Opus 4.8 to flagowiec, czyli precyzyjne narzędzie do najbardziej złożonych, wieloetapowych misji agentowych. Jego domeną są zadania, gdzie liczy się autonomiczny osąd i niezawodność. Cena (ok. 20 zł / 100 zł za mln tokenów wej./wyj.) odzwierciedla jego zdolność do pracy w warunkach podwyższonego ryzyka.

Sonnet 4.6 to z kolei koń roboczy, jest zoptymalizowany pod kątem balansu jakości, prędkości i kosztu (ok. 12 zł / 60 zł za mln tokenów) do obsługi codziennej pracy na dużą skalę. To domyślny model dla większości użytkowników (darmowy plan i Pro), idealny do rutynowych, powtarzalnych zadań, które mają z góry ustalone reguły.

Heurystyka jest prosta: Sonnet 4.6 obsługuje skalę i powtarzalność, Opus 4.8 zarządza ryzykiem i unikalnością.

Warto zaznaczyć, że Anthropic w materiałach premierowych zestawia Opus 4.8 z Opus 4.7 oraz z konkurencją (GPT-5.5, Gemini 3.1 Pro), a nie publikuje bezpośredniego porównania benchmarkowego Opus 4.8 vs Sonnet 4.6 . Różnica między nimi to przede wszystkim kwestia półki i relacji cena/wydajność.

Co dalej: Mythos i tańsze warianty Opusa

Anthropic zapowiada dwa kierunki. Tańsze modele oferujące dużą część możliwości Opusa oraz nową, mocniejszą od Opusa klasę modeli Mythos. Te ostatnie są na razie dostępne wąskiej grupie organizacji do prac z obszaru cyberbezpieczeństwa (Project Glasswing) i wymagają silniejszych zabezpieczeń przed szerszym udostępnieniem.

Dynamic workflows i mocniejszy SWE-bench są przydatne przede wszystkim w systemach agentowych działających bez nadzoru. CI/CD to środowisko z jasno zdefiniowanym zadaniem i naturalnym punktem kontroli przez human-in-the-loop. Jak wpiąć agenta AI w pipeline GitHub Actions do code review i audytu SEO, pokazuję w artykule o agentach AI w CI/CD.

Bezpieczne automatyzacje procesów i agenci AI w n8n, Make i Claude.

Automatyzacja AI

Często zadawane pytania

Co najważniejszego wnosi Claude Opus 4.8 względem Opus 4.7?

Opus 4.8 podnosi wyniki kodowania agentowego (SWE-bench Pro 64,3% → 69,2%, Terminal-Bench 2.1 66,1% → 74,6%), wprowadza wyraźnie wyższy poziom „honesty” modelu wobec własnej pracy i dokłada dynamic workflows w Claude Code. Cena pozostaje taka sama jak w Opus 4.7.

Czym są dynamic workflows w Claude Code?

To research preview, w którym Claude rozpisuje duże zadanie, uruchamia setki równoległych subagentów w jednej sesji i weryfikuje wyniki na końcu. Sztandarowe zastosowanie: migracje na skalę całej bazy kodu — setki tysięcy linii od kickoffu do merge’a. Funkcja dostępna w Claude Code dla planów Enterprise, Team i Max.

Czym Opus 4.8 różni się od Sonnet 4.6?

To dwie różne półki. Opus 4.8 (ok. 20 zł / 100 zł za mln tokenów wej./wyj.) zostawiasz dla trudnych, długich zadań agentowych i migracji wielkoskalowych. Sonnet 4.6 (ok. 12 zł / 60 zł) obsługuje rutynę i skalę, z oknem kontekstu 1 mln tokenów (beta) i jako domyślny model darmowego planu i Pro.

Co oznacza „honesty” modelu w praktyce produktowej?

Opus 4.8 jest ok. czterokrotnie rzadziej skłonny przepuścić własny błąd w kodzie bez komentarza i częściej sam sygnalizuje niepewność. Dla zespołu budującego agenty oznacza to mniej fałszywych deklaracji sukcesu i mniej regresji wyłapywanych dopiero przez użytkownika.

Czym jest fast mode w Opus 4.8?

Praca z prędkością 2,5× przy cenie trzykrotnie niższej niż w poprzednich modelach (ok. 40 zł / 200 zł za mln tokenów wej./wyj.). W Claude Code włączasz go komendą /fast. Dostęp przez API jest na razie reglamentowany (lista oczekujących).

O autorze

Maciej Sala

Maciej Sala — Product Manager i Frontend Developer z bogatym doświadczeniem w marketingu internetowym oraz SEO. Na co dzień pracuje z Reactem, Next.js i TypeScriptem, a ostatnio także z Astro i narzędziami do automatyzacji procesów AI. Sprawnie łączy perspektywę produktową z praktycznym podejściem do kodu. Przez kilka lat był związany z branżą gier wideo jako project manager i game designer. Absolwent historii na Uniwersytecie Jagiellońskim oraz studiów podyplomowych z marketingu internetowego na AGH w Krakowie. Po godzinach trenuje na siłowni, maluje figurki i rozwijam własne projekty.

Moje artykuły Więcej o mnie

Pomagam przekładać takie tematy na konkretne wdrożenia w frontendzie, SEO, analityce i procesie produktowym.

Skontaktuj się ze mną