Co to jest robots.txt i po co go ustawiać?
robots.txt to pierwszy plik, do którego sięga Googlebot, Bingbot albo GPTBot, zanim zacznie czytać Twoją stronę. Mówi mu: "te ścieżki możesz przeglądać, tych nie ruszaj". To zwykły plik tekstowy, leży pod adresem `https://twoja-domena.pl/robots.txt`.
Tu klikasz, wybierasz które boty mają jakie reguły, dodajesz adresy sitemap i zaraz widzisz gotowy plik do skopiowania na serwer. Możesz też jednym przyciskiem zablokować wszystkie boty AI (GPTBot, ClaudeBot, PerplexityBot) jeśli nie chcesz, żeby Twoje treści lądowały w modelach językowych.
Ważne: robots.txt to prośba, nie zabezpieczenie. Porządne boty (Google, Bing) słuchają, ale złośliwe scrapery zignorują plik. Do prawdziwej ochrony używaj logowania, firewalla aplikacyjnego albo blokady IP.
Jak korzystać
- Zdecyduj, jakie reguły chcesz ustawić. Zwykle jedna grupa `User-agent: *` (wszystkie boty) wystarcza.
- Dla każdej grupy dodaj ścieżki Allow (dozwolone) i Disallow (zablokowane). Np. `Disallow: /admin/` blokuje panel administracyjny.
- Wpisz adresy sitemap w polu Sitemap. Powinny być pełne URL-e z `https://`.
- Użyj gotowych presetów (zablokuj AI, zablokuj staging, zezwól na wszystko oprócz admina), żeby zaoszczędzić czas.
- Skopiuj wygenerowany plik albo pobierz jako `robots.txt`. Wrzuć do głównego katalogu strony (obok index.html). Sprawdź pod `twoja-domena.pl/robots.txt`.
Do czego się przydaje
Najczęstsze scenariusze, w których trzeba ustawić robots.txt:
- Blokada AI scraperów. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. Coraz więcej firm nie chce, żeby ich treści lądowały w modelach językowych. Preset "Block AI" załatwia sprawę.
- Ukrywanie panelu admin i API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. Nie powinno to być w wynikach Google.
- Staging i wersje testowe. Środowisko `staging.twoja-firma.pl` musi być niewidoczne dla Googla. Pełna blokada: `Disallow: /`.
- Wskazanie sitemap. Google szybciej znajdzie wszystkie podstrony, jeśli w robots.txt jest linia `Sitemap: https://twoja-domena.pl/sitemap.xml`.
- Crawl-delay dla wolnych serwerów. Jeśli Twój serwer ma słaby procesor i Bingbot generuje za duże obciążenie, dodaj `Crawl-delay: 10` (przerwa 10 sekund między requestami). Googlebot tego nie wspiera, używaj Search Console.
- Różne reguły dla różnych botów. Możesz Google'a wpuszczać wszędzie, a Yandex blokować na konkretnych ścieżkach. Każdy User-agent dostaje osobną grupę.
Po wygenerowaniu pliku sprawdź go walidatorem robots.txt + sitemap.xml. Po wrzuceniu na serwer dodaj też sitemap.xml, żeby Google szybciej odkrył wszystkie podstrony.