Cloudflare Logs + crawl budget — jak śledzić Googlebota i znajdować wąskie gardła indeksacji

Opublikowano
30 maja 2026
Aktualizacja
4 czerwca 2026
Czas czytania
5 min czytania

Dlaczego Search Console to za mało

Search Console jest potrzebne, ale pokazuje obraz po czasie i w agregacie. Dowiesz się, ile stron jest zaindeksowanych i jakie klasy błędów występują. Nie zobaczysz jednak pojedynczej wizyty robota ani trasy, jaką przeszedł po serwisie. Raport statystyk crawlowania daje sumy i trendy, ale nie odpowie na pytanie: na jakie konkretne adresy Googlebot zużywa większość odwiedzin?

A to właśnie tam najczęściej kryje się problem. W dużym serwisie robot potrafi tygodniami wracać po sparametryzowane warianty list produktów, łańcuchy przekierowań albo strony zwracające 404, zamiast odwiedzać świeżo opublikowaną treść. Search Console pokaże co najwyżej, że indeksacja idzie wolno. Dopiero logi pokażą, że połowa wycieka na adresy, które nigdy nie powinny przyciągać uwagi robota.

Skąd wziąć logi, gdy stoisz za Cloudflare

Jeśli serwis stoi za Cloudflare, cały ruch — łącznie z Googlebotem — przechodzi przez brzeg ich sieci. Idealne miejsce do zbierania danych o crawlowaniu. Jest tylko jeden haczyk.

Pełne, surowe logi brzegowe udostępnia , a ten jest częścią planu Enterprise. Plany Free i Pro nie eksponują pełnych logów pojedynczych żądań — dostajesz analitykę zagregowaną, dobrą do obserwowania trendów, ale bezużyteczną, gdy chcesz prześledzić konkretną trasę Googlebota. Jeśli nie masz Enterprise, alternatywą jest analiza logów z serwera origin, czyli tych żądań, które przeszły przez cache i dotarły do backendu.

Praktycznie konfiguracja Logpush sprowadza się do wskazania miejsca docelowego — Cloudflare R2, zasobnika S3 albo systemu SIEM — i wyboru zestawu pól logu. Dla analizy crawlowania interesują Cię przede wszystkim adres żądania, kod odpowiedzi, user-agent, źródłowe IP, czas odpowiedzi oraz informacja o trafieniu w cache.

Weryfikacja Googlebota — bez tego analiza jest fałszywa

Zanim policzysz cokolwiek, musisz oddzielić prawdziwego Googlebota od podszywaczy, bo user-agent to napis, który każdy może sobie wpisać. Sporo ruchu z nagłówkiem Googlebota pochodzi od scraperów i botów udających robota Google. Gdybyś analizował logi bez tego filtra, Twoje wnioski o crawl budżecie byłyby zwyczajnie nieprawdziwe.

Google podaje dwie wiarygodne metody weryfikacji. Pierwsza to : dla źródłowego IP wykonujesz zapytanie wsteczne i sprawdzasz, czy zwrócony host kończy się na googlebot.com lub google.com. Następnie potwierdzasz to zapytaniem w drugą stronę — forward DNS tej nazwy musi wskazywać z powrotem na wyjściowe IP. Dopiero przejście obu testów oznacza prawdziwego robota.

Druga metoda, wygodniejsza przy masowej analizie, to porównanie IP z oficjalną listą zakresów, którą Google publikuje i regularnie aktualizuje:

Code
# Pobierz oficjalną listę zakresów IP Googlebota
curl -s https://developers.google.com/search/apis/ipranges/googlebot.json

Każde żądanie z user-agentem Googlebota, którego IP nie mieści się w tych zakresach, to fałszywka — odfiltruj je przed jakąkolwiek analizą. Dopiero na tak oczyszczonym zbiorze liczby zaczynają cokolwiek znaczyć.

Co właściwie liczyć — wzorce marnowanego crawl budgetu

Mając zweryfikowane logi prawdziwego Googlebota, szukasz miejsc, w których robot zużywa wizyty bez pożytku. Kilka wzorców powtarza się w niemal każdym dużym serwisie.

Pierwszy to sparametryzowane adresy URL — warianty tej samej strony różniące się parametrami sortowania, filtrowania czy śledzenia. Jeśli widzisz, że Googlebot pochłania tysiące żądań na adresy w stylu ?sort=price&color=red&page=3, to znak, że crawl budget wycieka na duplikaty, które i tak nie powinny się indeksować.

Drugi to łańcuchy i pętle przekierowań. Robot trafiający na adres, który przekierowuje na kolejny, a ten na następny, zużywa wizytę na samą nawigację zamiast na treść. W logach poznasz to po seriach odpowiedzi 301/302 prowadzących jedna do drugiej.

Trzeci to strony zwracające 404 i 5xx, po które robot wciąż wraca. Każda taka wizyta to zmarnowane żądanie, a powtarzające się błędy serwera dodatkowo zniechęcają Googlebota do częstszego odwiedzania serwisu.

Czwarty, najbardziej zdradliwy, to strony osierocone — adresy, które robot crawluje, choć nie prowadzi do nich żaden link wewnętrzny. Ich obecność w logach często ujawnia stare URL-e, wycieki z sitemapy albo problemy w architekturze, których z poziomu samego serwisu nie widać.

Kiedy już wiesz, czego szukasz, zostaje pytanie o narzędzie. Dla zbiorów do kilkudziesięciu milionów linii w zupełności wystarczy Screaming Frog Log File Analyser — wczyta logi, zweryfikuje Googlebota przez DNS i od ręki pokaże częstotliwość crawlowania, rozkład kodów odpowiedzi i strony osierocone. Przy większej skali kieruj logi do hurtowni danych i analizuj zapytaniami SQL. Zyskujesz pełną swobodę w drążeniu i łączeniu ich z innymi źródłami — to też naturalny pomost do wykrywania anomalii SEO z BigQuery, jeśli chcesz pójść o krok dalej.

Audyt techniczny i optymalizacja pod kątem SEO i GEO.
Audyt techniczny SEO

Często zadawane pytania

Czym jest crawl budget i kiedy w ogóle ma znaczenie?

Crawl budget to liczba adresów, które Googlebot jest w stanie odwiedzić w danym czasie. Przy małej stronie zwykle nie ma dramatu. Problem zaczyna się w sklepach, portalach i serwisach z filtrami, gdzie tysiące wariantów URL potrafią zabrać robotowi czas, który powinien pójść na nowe produkty, kategorie albo artykuły.

Do pełnych logów brzegowych z Cloudflare — tak, potrzebujesz Logpush, czyli planu Enterprise. Na niższych planach dostajesz agregaty, a nie pojedyncze żądania. Bez Enterprise możesz analizować logi origin, ale wtedy nie zobaczysz requestów obsłużonych z cache na brzegu. Obraz będzie przydatny, tylko niepełny.

Nie ufaj user-agentowi, bo można go wpisać ręcznie. Użyj reverse DNS albo porównaj IP z oficjalnym plikiem googlebot.json. Prawdziwy Googlebot musi przejść weryfikację w obie strony: IP wskazuje host Google, a host wskazuje z powrotem na to samo IP.

Search Console pokazuje skutki: które strony są zaindeksowane, gdzie są błędy, jak wygląda statystyka crawlowania w ujęciu zagregowanym. Logi pokazują przyczyny: każde pojedyncze żądanie Googlebota z dokładnym adresem, kodem odpowiedzi, czasem i częstotliwością. Dzięki logom zobaczysz, że robot marnuje połowę wizyt na sparametryzowane URL-e albo wraca po strony z 404 — czego Search Console wprost nie powie. Te narzędzia się uzupełniają, nie zastępują.

Dla zbiorów do kilkudziesięciu milionów linii standardem jest Screaming Frog Log File Analyser — wczytuje logi w formacie Apache/Nginx, weryfikuje Googlebota przez DNS i od ręki daje raporty o częstotliwości crawlowania, kodach odpowiedzi, czasie odpowiedzi i stronach osieroconych. Przy większej skali sensowniej skierować logi do hurtowni danych (np. BigQuery) i analizować je zapytaniami SQL. Wybór zależy od wielkości serwisu i tego, jak często chcesz wracać do analizy.

O autorze

Maciej Sala

Maciej Sala — Product Manager i Frontend Developer z bogatym doświadczeniem w marketingu internetowym oraz SEO. Na co dzień pracuje z Reactem, Next.js i TypeScriptem, a ostatnio także z Astro i narzędziami do automatyzacji procesów AI. Sprawnie łączy perspektywę produktową z praktycznym podejściem do kodu. Przez kilka lat był związany z branżą gier wideo jako project manager i game designer. Absolwent historii na Uniwersytecie Jagiellońskim oraz studiów podyplomowych z marketingu internetowego na AGH w Krakowie. Po godzinach trenuje na siłowni, maluje figurki i rozwija własne projekty side-projecty.

Pomagam przekładać takie tematy na konkretne wdrożenia w frontendzie, SEO, analityce i procesie produktowym.

Skontaktuj się ze mną

Biblioteka wiedzy

Czytaj dalej

Zobacz więcej wpisów