Czemu Twoja strona nie pojawia się w Google? Zacznij od robots.txt i sitemap.xml
Wpisujesz adres swojej strony, wybierasz tryb (sam robots.txt, sama sitemap.xml albo oba naraz) i klikasz Sprawdź. Nasz serwer pobiera publicznie dostępne pliki, parsuje je i pokazuje co dokładnie zobaczy Googlebot, gdy odwiedzi Twoją domenę.
Walidator robi trzy rzeczy, których nie zrobi za Ciebie przeglądarka:
- Pokazuje plik robots.txt po stronie servera, nie cache, nie CDN, tylko to, co dostaje crawler;
- Symuluje konkretne boty: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Wybierasz bota z chipów, widzisz dokładnie te reguły, które jego dotyczą (z dopasowaniem najdłuższego prefiksu, czyli tak jak naprawdę robi to Google);
- Parsuje sitemap.xml (także sitemap index z zagnieżdżonymi mapami), sprawdza limity (50 000 URL-i, 50 MB), poprawność dat W3C/ISO-8601, wartości `changefreq`, `priority` i wynajduje duplikaty `<loc>`.
Wszystko wraca jako gotowe zestawienie z karami błędów (czerwone), ostrzeżeniami (żółte) i informacjami (szare). Plus tester ścieżki, wklej `/admin` albo `/private/raporty.pdf` i od razu zobacz „dozwolone" lub „zabronione" dla wybranego bota.
Po co Ci to? Najczęstszy powód, dla którego nowa strona nie jest indeksowana w Google, to literówka w robots.txt (`Disllow: /` zamiast `Disallow: /admin`) albo brak sitemap w `robots.txt`. Walidator znajdzie obie te rzeczy w 5 sekund.
Jak używać
- Wybierz tryb w przełączniku na górze. Jeśli nie wiesz co wybrać, weź „Oba", pobierzemy najpierw `/robots.txt`, znajdziemy w nim link do mapy strony i ściągniemy też ją.
- Wklej adres swojej domeny do pola URL. Może być sama domena (`example.com`), pełen adres (`https://example.com`) albo bezpośredni link do mapy (`https://example.com/sitemap.xml`).
- Klik „Sprawdź" (albo Enter). Serwer pobierze pliki z 10-sekundowym timeoutem i limitem 50 MB, więc nawet ogromne mapy nie zablokują walidacji.
- Sekcja robots.txt pokazuje: status HTTP, rozmiar, liczbę grup, liczbę reguł Allow/Disallow. Wykryte problemy są podzielone na 3 poziomy (błąd / ostrzeżenie / info), z numerem linii, gdzie problem występuje.
- Widok dla konkretnego bota, klikasz w chipy z botami (Googlebot, Bingbot, GPTBot, ChatGPT-User itd.). System pokazuje dokładnie te reguły, które aplikują się do tego bota, plus podpowiada, który User-Agent w pliku został dopasowany.
- Tester ścieżki, wpisz dowolną ścieżkę (np. `/admin` albo `/api/users`), zobaczysz „Dozwolone" lub „Zabronione" plus regułę, która zadecydowała. Idealne do sprawdzania, dlaczego dany URL nie pojawia się w Google.
- Sekcja sitemap.xml pokazuje typ (urlset/sitemapindex), liczbę URL-i, pokrycie `lastmod` (%), najnowszą i najstarszą datę, próbkę pierwszych 100 URL-i w tabeli. Jeśli to sitemap index, automatycznie pobierzemy zagnieżdżone mapy (do 50 dla bezpieczeństwa).
Kiedy się przydaje
Pięć sytuacji, w których walidator oszczędza Ci weekend grzebania w Search Console:
- Nowa strona nie indeksuje się w Google. Sprawdzasz `robots.txt`, walidator pokazuje `Disallow: /` w grupie `User-agent: *` (klasyczny relikt z fazy development). Poprawiasz na `Disallow: /admin` i indeksacja rusza w ciągu doby.
- Migracja domeny lub redesign. Po przeniesieniu strony na nową platformę walidujesz starą i nową sitemap. Walidator pokazuje, że w nowej brakuje 1 200 URL-i (zapomniany prefiks językowy). Wracasz do CMS-a i naprawiasz zanim Google zauważy spadek.
- Audyt SEO przed dużym launchem. Klient pyta „czemu sklep nie jest widoczny w wyszukiwaniu". Walidator wykrywa `User-agent: Googlebot` + `Disallow: /produkty`, ktoś (świadomie lub nie) zablokował cały katalog produktów. Bez walidatora znalazłbyś to po dniach.
- GPTBot, ClaudeBot, Google-Extended. Chcesz zablokować AI-crawlerom trening na Twoim contencie. Walidator pokazuje per-bot view, czy Twój `Disallow: /` dla `GPTBot` faktycznie działa, czy jest przesłonięty przez grupę `*` z `Allow: /` poniżej.
- CI/CD checki przed deployem. Pluginujesz walidator w pipeline (zwykły `curl` z JSON-em) i buildy nie przejdą, jeśli `robots.txt` ma `Disallow: /` w `User-agent: *`. Sprzedaż tego argumentu seniorowi DevOpsa kosztuje 10 minut, oszczędność, tysiące.
Same pliki wygenerujesz w generatorze robots.txt i generatorze sitemap.xml. Podgląd social tych samych URLi sprawdzisz w podglądzie OpenGraph.