Warum erscheint deine Seite nicht in Google? Fang mit robots.txt und sitemap.xml an
Du fuegst eine URL ein, waehlst einen Modus (`robots.txt` allein, `sitemap.xml` allein oder Both zusammen) und drueckst Check. Unser Server holt die oeffentlich zugaenglichen Dateien, parst sie und zeigt dir genau das, was Googlebot beim Besuch deiner Domain sehen wuerde.
Der Validator macht drei Dinge, die du im Browser nicht tun kannst:
- Holt `robots.txt` vom echten Origin, nicht aus deinem CDN-Cache, dieselben Bytes, die ein Crawler bekommen wuerde;
- Simuliert echte Bots: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Waehle einen Bot aus den Chips und du siehst genau die Regeln, die fuer ihn gelten (mit Longest-Prefix-Matching, dem Algorithmus, den Google wirklich nutzt);
- Parst sitemap.xml (inklusive Sitemap-Index mit verschachtelten Sitemaps), prueft die Spec-Limits (50.000 URLs, 50 MB), validiert W3C/ISO-8601-Datumsformate, `changefreq`, `priority` und holt doppelte `<loc>`-Eintraege ans Licht.
Alles kommt als sauberer Report zurueck mit Errors (rot), Warnings (gelb) und Info (grau). Plus ein URL-Tester: `/admin` oder `/private/reports.pdf` einfuegen und sofort "allowed" oder "disallowed" fuer den gewaehlten Bot sehen.
Warum die Muehe? Der mit Abstand haeufigste Grund, dass eine neue Seite nicht indexiert wird, ist ein Tippfehler in robots.txt (`Disllow: /` statt `Disallow: /admin`) oder kein Sitemap-Link in robots.txt. Der Validator faengt beides in 5 Sekunden.
So benutzt du es
- Modus in der Segment-Leiste oben waehlen. Im Zweifel "Both" nehmen, wir holen erst `/robots.txt`, finden den Sitemap-Link darin und ziehen den auch.
- URL einfuegen ins URL-Feld. Nackte Domain (`example.de`), volle URL (`https://example.de`) oder direkter Sitemap-Link (`https://example.de/sitemap.xml`) funktionieren alle.
- "Check" druecken (oder Enter). Der Server holt mit 10-Sekunden-Timeout und 50-MB-Cap, auch riesige Sitemaps blockieren die Validierung also nicht.
- Der robots.txt-Abschnitt zeigt: HTTP-Status, Dateigroesse, Gruppen-Anzahl, gesamt Allow/Disallow-Regeln. Probleme sind in 3 Schweregrade aufgeteilt (Error / Warning / Info), jeweils mit der Zeilennummer, wo es liegt.
- Pro-Bot-View: die Bot-Chips (Googlebot, Bingbot, GPTBot, ChatGPT-User und andere) klicken. Du siehst genau die Regeln, die fuer diesen Bot gelten, plus wir sagen dir, welches User-Agent-Token in deiner Datei gematcht hat.
- URL-Tester: beliebigen Pfad eintippen (z. B. `/admin` oder `/api/users`), "Allowed" oder "Disallowed" plus die exakte Regel sehen, die entschieden hat. Perfekt, um rauszufinden, warum eine bestimmte URL bei Google fehlt.
- Der Sitemap-Abschnitt zeigt: Typ (urlset / sitemapindex), URL-Anzahl, `lastmod`-Abdeckung (%), neuestes und aeltestes Datum plus eine Probe der ersten 100 URLs in einer Tabelle. Bei einem Sitemap-Index holen wir automatisch die verschachtelten Sitemaps (zur Sicherheit bis zu 50).
Wann das nuetzlich ist
Fuenf Situationen, in denen der Validator dir ein Wochenende in der Search Console spart:
- Neue Seite wird in Google nicht indexiert. Du pruefst `robots.txt`, der Validator flaggt `Disallow: /` unter `User-agent: *` (der klassische Dev-Umgebungsrest). Du aenderst es zu `Disallow: /admin` und die Indexierung startet binnen 24 Stunden.
- Domain-Migration oder Redesign. Nach dem Wechsel auf eine neue Plattform validierst du die alte und die neue Sitemap. Der Validator zeigt 1.200 fehlende URLs in der neuen (vergessenes Sprach-Prefix). Du fixt es im CMS, bevor Google den Drop bemerkt.
- SEO-Audit vor einem grossen Launch. Ein Kunde fragt "warum erscheint der Shop nicht in der Suche". Der Validator findet `User-agent: Googlebot` + `Disallow: /products`, jemand hat (bewusst oder nicht) den ganzen Produktkatalog geblockt. Ohne Pro-Bot-View haettest du das nie gefunden.
- GPTBot, ClaudeBot, Google-Extended. Du willst dich vom KI-Training auf deinen Inhalten ausnehmen. Die Pro-Bot-View des Validators zeigt, ob dein `Disallow: /` fuer `GPTBot` tatsaechlich greift oder von einer frueheren `*`-Gruppe mit `Allow: /` ueberschrieben wird.
- CI/CD-Pre-Deploy-Checks. Den Validator in deine Pipeline einbauen (ein nacktes `curl` mit JSON reicht), Builds schlagen fehl, wenn `robots.txt` `Disallow: /` unter `User-agent: *` enthaelt. Das einem Senior-DevOps zu verkaufen, dauert 10 Minuten. Ersparnis: tausende.
Brauchst du die Dateien zum Erstellen? Generiere sie im robots.txt-Builder und im sitemap.xml-Builder. Fuer Social-Vorschauen derselben URLs nimm die OpenGraph-Vorschau.