Czym jest crawl budget i kiedy w ogóle ma znaczenie?

Crawl budget to liczba adresów, które Googlebot jest w stanie odwiedzić w danym czasie. Przy małej stronie zwykle nie ma dramatu. Problem zaczyna się w sklepach, portalach i serwisach z filtrami, gdzie tysiące wariantów URL potrafią zabrać robotowi czas, który powinien pójść na nowe produkty, kategorie albo artykuły.

Czy potrzebuję Cloudflare Enterprise, żeby analizować logi Googlebota?

Do pełnych logów brzegowych z Cloudflare — tak, potrzebujesz Logpush, czyli planu Enterprise. Na niższych planach dostajesz agregaty, a nie pojedyncze żądania. Bez Enterprise możesz analizować logi origin, ale wtedy nie zobaczysz requestów obsłużonych z cache na brzegu. Obraz będzie przydatny, tylko niepełny.

Jak odróżnić prawdziwego Googlebota od podszywającego się bota?

Nie ufaj user-agentowi, bo można go wpisać ręcznie. Użyj reverse DNS albo porównaj IP z oficjalnym plikiem googlebot.json. Prawdziwy Googlebot musi przejść weryfikację w obie strony: IP wskazuje host Google, a host wskazuje z powrotem na to samo IP.

Czym analiza logów różni się od Google Search Console?

Search Console pokazuje skutki: które strony są zaindeksowane, gdzie są błędy, jak wygląda statystyka crawlowania w ujęciu zagregowanym. Logi pokazują przyczyny: każde pojedyncze żądanie Googlebota z dokładnym adresem, kodem odpowiedzi, czasem i częstotliwością. Dzięki logom zobaczysz, że robot marnuje połowę wizyt na sparametryzowane URL-e albo wraca po strony z 404 — czego Search Console wprost nie powie. Te narzędzia się uzupełniają, nie zastępują.

Jakim narzędziem analizować zebrane logi?

Dla zbiorów do kilkudziesięciu milionów linii standardem jest Screaming Frog Log File Analyser — wczytuje logi w formacie Apache/Nginx, weryfikuje Googlebota przez DNS i od ręki daje raporty o częstotliwości crawlowania, kodach odpowiedzi, czasie odpowiedzi i stronach osieroconych. Przy większej skali sensowniej skierować logi do hurtowni danych (np. BigQuery) i analizować je zapytaniami SQL. Wybór zależy od wielkości serwisu i tego, jak często chcesz wracać do analizy.

Cloudflare Logs + crawl budget — jak śledzić Googlebota i znajdować wąskie gardła indeksacji

w skrócie

Logi pokazują przyczyny, Search Console skutki — każde żądanie Googlebota z adresem, kodem odpowiedzi i czasem zobaczysz tylko w logach. To one zdradzają, gdzie robot marnuje czas.
Cloudflare to brzeg, przez który idzie cały ruch — pełne logi brzegowe (Logpush) wymagają planu Enterprise; bez niego analizujesz logi origin, ale nie zobaczysz żądań obsłużonych z cache.
Weryfikuj Googlebota, nie ufaj user-agentowi — prawdziwego rozpoznasz przez reverse DNS (googlebot.com / google.com) albo porównanie IP z oficjalną listą zakresów Google.
Crawl budget liczy się przy skali — dla małej strony to nieistotne; przy tysiącach produktów i filtrach generujących setki tysięcy URL-i staje się realnym wąskim gardłem.
Najczęstsze marnotrawstwo to parametry, redirecty i 404 — robot wracający po sparametryzowane warianty albo łańcuchy przekierowań nie crawluje treści, na której Ci zależy.
Dobierz narzędzie do skali — do kilkudziesięciu milionów linii wystarczy Screaming Frog Log File Analyser; wyżej kieruj logi do hurtowni i analizuj SQL-em.

Dlaczego Search Console to za mało

Search Console jest potrzebne, ale pokazuje obraz po czasie i w agregacie. Dowiesz się, ile stron jest zaindeksowanych i jakie klasy błędów występują. Nie zobaczysz jednak pojedynczej wizyty robota ani trasy, jaką przeszedł po serwisie. Raport statystyk crawlowania daje sumy i trendy, ale nie odpowie na pytanie: na jakie konkretne adresy Googlebot zużywa większość odwiedzin?

A to właśnie tam najczęściej kryje się problem. W dużym serwisie robot potrafi tygodniami wracać po sparametryzowane warianty list produktów, łańcuchy przekierowań albo strony zwracające 404, zamiast odwiedzać świeżo opublikowaną treść. Search Console pokaże co najwyżej, że indeksacja idzie wolno. Dopiero logi pokażą, że połowa wycieka na adresy, które nigdy nie powinny przyciągać uwagi robota.

Skąd wziąć logi, gdy stoisz za Cloudflare

Jeśli serwis stoi za Cloudflare, cały ruch — łącznie z Googlebotem — przechodzi przez brzeg ich sieci. Idealne miejsce do zbierania danych o crawlowaniu. Jest tylko jeden haczyk.

Pełne, surowe logi brzegowe udostępnia , a ten jest częścią planu Enterprise. Plany Free i Pro nie eksponują pełnych logów pojedynczych żądań — dostajesz analitykę zagregowaną, dobrą do obserwowania trendów, ale bezużyteczną, gdy chcesz prześledzić konkretną trasę Googlebota. Jeśli nie masz Enterprise, alternatywą jest analiza logów z serwera origin, czyli tych żądań, które przeszły przez cache i dotarły do backendu.

Praktycznie konfiguracja Logpush sprowadza się do wskazania miejsca docelowego — Cloudflare R2, zasobnika S3 albo systemu SIEM — i wyboru zestawu pól logu. Dla analizy crawlowania interesują Cię przede wszystkim adres żądania, kod odpowiedzi, user-agent, źródłowe IP, czas odpowiedzi oraz informacja o trafieniu w cache.

Weryfikacja Googlebota — bez tego analiza jest fałszywa

Zanim policzysz cokolwiek, musisz oddzielić prawdziwego Googlebota od podszywaczy, bo user-agent to napis, który każdy może sobie wpisać. Sporo ruchu z nagłówkiem Googlebota pochodzi od scraperów i botów udających robota Google. Gdybyś analizował logi bez tego filtra, Twoje wnioski o crawl budżecie byłyby zwyczajnie nieprawdziwe.

Google podaje dwie wiarygodne metody weryfikacji. Pierwsza to : dla źródłowego IP wykonujesz zapytanie wsteczne i sprawdzasz, czy zwrócony host kończy się na googlebot.com lub google.com. Następnie potwierdzasz to zapytaniem w drugą stronę — forward DNS tej nazwy musi wskazywać z powrotem na wyjściowe IP. Dopiero przejście obu testów oznacza prawdziwego robota.

Druga metoda, wygodniejsza przy masowej analizie, to porównanie IP z oficjalną listą zakresów, którą Google publikuje i regularnie aktualizuje:

Code

# Pobierz oficjalną listę zakresów IP Googlebota
curl -s https://developers.google.com/search/apis/ipranges/googlebot.json

Każde żądanie z user-agentem Googlebota, którego IP nie mieści się w tych zakresach, to fałszywka — odfiltruj je przed jakąkolwiek analizą. Dopiero na tak oczyszczonym zbiorze liczby zaczynają cokolwiek znaczyć.

Co właściwie liczyć — wzorce marnowanego crawl budgetu

Mając zweryfikowane logi prawdziwego Googlebota, szukasz miejsc, w których robot zużywa wizyty bez pożytku. Kilka wzorców powtarza się w niemal każdym dużym serwisie.

Pierwszy to sparametryzowane adresy URL — warianty tej samej strony różniące się parametrami sortowania, filtrowania czy śledzenia. Jeśli widzisz, że Googlebot pochłania tysiące żądań na adresy w stylu ?sort=price&color=red&page=3, to znak, że crawl budget wycieka na duplikaty, które i tak nie powinny się indeksować.

Drugi to łańcuchy i pętle przekierowań. Robot trafiający na adres, który przekierowuje na kolejny, a ten na następny, zużywa wizytę na samą nawigację zamiast na treść. W logach poznasz to po seriach odpowiedzi 301/302 prowadzących jedna do drugiej.

Trzeci to strony zwracające 404 i 5xx, po które robot wciąż wraca. Każda taka wizyta to zmarnowane żądanie, a powtarzające się błędy serwera dodatkowo zniechęcają Googlebota do częstszego odwiedzania serwisu.

Czwarty, najbardziej zdradliwy, to strony osierocone — adresy, które robot crawluje, choć nie prowadzi do nich żaden link wewnętrzny. Ich obecność w logach często ujawnia stare URL-e, wycieki z sitemapy albo problemy w architekturze, których z poziomu samego serwisu nie widać.

Kiedy już wiesz, czego szukasz, zostaje pytanie o narzędzie. Dla zbiorów do kilkudziesięciu milionów linii w zupełności wystarczy Screaming Frog Log File Analyser — wczyta logi, zweryfikuje Googlebota przez DNS i od ręki pokaże częstotliwość crawlowania, rozkład kodów odpowiedzi i strony osierocone. Przy większej skali kieruj logi do hurtowni danych i analizuj zapytaniami SQL. Zyskujesz pełną swobodę w drążeniu i łączeniu ich z innymi źródłami — to też naturalny pomost do wykrywania anomalii SEO z BigQuery, jeśli chcesz pójść o krok dalej.

Audyt techniczny i optymalizacja pod kątem SEO i GEO.

Audyt techniczny SEO

Dlaczego Search Console to za mało

Skąd wziąć logi, gdy stoisz za Cloudflare

Weryfikacja Googlebota — bez tego analiza jest fałszywa

Co właściwie liczyć — wzorce marnowanego crawl budgetu

Czytaj dalej

Astro 7: Buildy szybsze o 61%. Przegląd nowości, które realnie tną koszty CI/CD

Przeglądanie Agentowe w PageSpeed Insights: jak przygotować stronę pod agentów AI

Parametry w URL a SEO: jak nie zduplikować treści w React, Next.js i Astro?