Anthropic pozycjonuje 4.8 jako „skromne, ale wyraźnie odczuwalne” usprawnienie. Premiera skupia się na tym, nie ile model wie i ile potrafi, ale ile model przyznaje, że nie wie. Mówiąc prościej: Opus 4.8 ma mniej kłamać i udawać że wie.
Odnosi się to do klasycznego problemu LLM-ów, który polega na tym, że potrafią z przekonaniem ogłosić sukces, mając cienkie dowody.
Proces laboratoryjny: co dokładnie zmienia się w benchmarkach
Większość wyników rośnie o kilka punktów procentowych. Poprawa jest najbardziej zauważalna w zadaniach, gdzie produkcyjne agenty zwykle się wykładają — długie łańcuchy decyzji, kod wielojęzyczny, praca w terminalu.
| Benchmark | Opus 4.8 | Opus 4.7 |
|---|---|---|
| SWE-bench Verified (kodowanie) | 88,6% | 87,6% |
| SWE-bench Pro (kodowanie, trudniejszy) | 69,2% | 64,3% |
| Terminal-Bench 2.1 (praca w terminalu) | 74,6% | 66,1% |
| OSWorld-Verified (computer use) | 83,4% | 82,3% |
| Humanity's Last Exam (rozumowanie z narzędziami) | 57,9% | 54,7% |
| GDPval (praca wiedzowa) | 1890 | 1753 |
Dla kontekstu konkurencyjnego: na SWE-bench Pro Opus 4.8 (69,2%) wyprzedza GPT-5.5 (58,6%) i Gemini 3.1 Pro (54,2%). Według Anthropic model wygrywa też z tymi dwoma rywalami m.in. na agentowym kodowaniu, computer use i analizie finansowej.
Najważniejszy szczegół umyka w tabelach. Domyślnie 4.8 pracuje na poziomie „high effort”, a mimo to na zadaniach kodowania zużywa zbliżoną liczbę tokenów co domyślny Opus 4.7. Dane pokazują, że dostajesz więcej jakości za podobny budżet tokenowy — to przesuwa rachunek ekonomiczny w stronę Opusa, nie tylko jego wynik na osi „inteligencja”.
„Honesty” — najciekawszy wątek tej premiery
Najmocniej eksponowaną zmianą nie jest surowa moc, lecz Skłonność modelu do przyznawania niepewności i nieprzepuszczania własnych błędów bez adnotacji. Mierzone m.in. częstotliwością fałszywych deklaracji sukcesu w zadaniach kodowania.. Opus 4.8 częściej sygnalizuje niepewność i rzadziej formułuje twierdzenia, których nie potrafi obronić — a w ewaluacjach jest ok. czterokrotnie rzadziej skłonny przepuścić wadę we własnym kodzie bez adnotacji.
Cztery razy rzadziej przepuszcza własny błąd w kodzie bez komentarza. To nie usprawnienie modelu, to redukcja kosztu zespołu, który musiał te błędy łapać ręcznie.
Dla osoby budującej agenty oznacza to konkretny koszt zaoszczędzony: mniej manualne przeglądy przed wdrożeniem na produkcję.
Anthropic dołożył też ocenę alignmentu: 4.8 ma istotnie niższe wskaźniki zachowań niepożądanych (np. zwodzenia) niż 4.7 i zbliża się pod tym względem do najlepiej wyrównanego modelu firmy, czyli Claude Mythos Preview.
Nowe funkcje wokół modelu: co dostajesz poza samymi wagami
Premiera to nie tylko model.
Dynamic workflows (Claude Code, research preview). Rozbija zadanie na kroki, uruchamia setki równoległych subagentów w jednej sesji (z 4.8 mogą działać dłużej), weryfikuje wyniki. Przypadek użytku: migracje na skalę całej bazy kodu — setki tysięcy linii. Dostępne w Claude Code dla planów Enterprise, Team i Max.
Kontrola wysiłku (effort control) w claude.ai i Cowork. Suwak obok wyboru modelu decyduje, ile „wysiłku” model wkłada w odpowiedź. Wyżej = głębsze myślenie i lepsze odpowiedzi. Niżej = szybciej i oszczędniej z limitami. Dostępne na wszystkich planach.
Messages API z wpisami
systemwewnątrz tablicymessages.Można aktualizować instrukcje modelu w trakcie zadania bez psucia cache promptu i bez przepuszczania zmiany przez turę użytkownika — przydatne do zmiany uprawnień, budżetu tokenów albo kontekstu środowiska w trakcie działania agenta.
Tańszy fast mode. Praca z prędkością 2,5× przy cenie trzykrotnie niższej niż w poprzednich modelach (10 USD / 50 USD za mln tokenów wej./wyj.). W Claude Code uruchamiany komendą
/fast. Dostęp przez API na razie reglamentowany (lista oczekujących).
Opus 4.8 vs Sonnet 4.6: dwie półki, nie dwie wersje
To pytanie wraca przy każdej premierze Opusa i warto je rozdzielić od porównania z poprzednikiem. Opus i Sonnet to dwie różne półki, nie dwie wersje tego samego.
Opus 4.8 to flagowiec – precyzyjne narzędzie do najbardziej złożonych, wieloetapowych misji agentowych. Jego domeną są zadania, gdzie liczy się autonomiczny osąd i niezawodność, a reguły trzeba tworzyć w locie. Cena (5 USD / 25 USD za mln tokenów wej./wyj.) odzwierciedla jego zdolność do pracy w warunkach wysokiego ryzyka.
Sonnet 4.6 to z kolei koń roboczy – zoptymalizowany pod kątem balansu jakości, prędkości i kosztu (3 USD / 15 USD za mln tokenów) do obsługi codziennej pracy na dużą skalę. To domyślny model dla większości użytkowników (plany Free i Pro), idealny do rutynowych, powtarzalnych zadań, które mają z góry ustalone reguły.
Heurystyka jest prosta: Sonnet 4.6 obsługuje skalę i powtarzalność, Opus 4.8 zarządza ryzykiem i unikalnością.
Warto być przy tym uczciwym co do danych: Anthropic w materiałach premierowych zestawia Opus 4.8 z Opus 4.7 oraz z konkurencją (GPT-5.5, Gemini 3.1 Pro), a nie publikuje bezpośredniego porównania benchmarkowego Opus 4.8 vs Sonnet 4.6. Różnica między nimi to przede wszystkim kwestia półki i relacji cena/wydajność, a nie pojedynczego wyniku z tabeli.
Co dalej: Mythos i tańsze warianty Opusa
Anthropic zapowiada dwa kierunki: tańsze modele oferujące dużą część możliwości Opusa oraz nową, mocniejszą od Opusa klasę modeli Mythos. Te ostatnie są na razie dostępne wąskiej grupie organizacji do prac z obszaru cyberbezpieczeństwa (Project Glasswing) i wymagają silniejszych zabezpieczeń przed szerszym udostępnieniem — które ma nastąpić „w nadchodzących tygodniach”.
