Warum macht ihr das nicht im Browser?

**Weil CORS.** Dein Browser **hat keine Berechtigung**, `https://anderesite.de/robots.txt` zu holen, weil `anderesite.de` keinen `Access-Control-Allow-Origin`-Header schickt. **Serverseitig** verschwindet das Problem, CORS ist ein browser-seitiger Schutz, **nicht Server-zu-Server**. Deshalb laeuft jeder serioese Validator (Google Search Console, Bing Webmaster, Screaming Frog) auf einem Server. **Unser ist keine Ausnahme.** Bonus: serverseitig sehen wir den **echten HTTP-Status** (wenn dein `robots.txt` 500 zurueckgibt, sagt der Validator es dir). Ein Browser wuerde nur "blocked by CORS" zeigen.

Was ist "Longest-Prefix-Matching" fuer robots-Regeln?

**Der Algorithmus, den Googlebot nutzt** (und die meisten modernen Crawler). Wenn deine Datei sagt: ``` User-agent: Googlebot Disallow: /admin Allow: /admin/public ``` Und du den Pfad `/admin/public/report.pdf` testest, waehlt der Validator (und Google) die Regel nach **"laengster passender Praefix gewinnt"**: - `Disallow: /admin` passt (6 Zeichen) - `Allow: /admin/public` passt auch (13 Zeichen, **laenger**) **Allow gewinnt**, der Pfad ist also **erlaubt**. Der alte "First-Match-Wins"-Algorithmus (von aelterem Bing genutzt) gaebe eine andere Antwort, **moderne Crawler nutzen Longest-Match**. Der Validator implementiert **genau diese Logik**, das **"Allowed"**-Urteil im Tester passt also dazu, was Googlebot tatsaechlich tut.

Ich habe sowohl `User-agent: *` als auch `User-agent: Googlebot`. Welches gewinnt?

**Das spezifischere.** Wenn Googlebot eine `User-agent: Googlebot`-Gruppe sieht, **ignoriert es die `User-agent: *`-Gruppe komplett**. **Es ist alles oder nichts**, Googlebot mischt Regeln nicht zwischen Gruppen. Die klassische Falle: du legst ein wichtiges `Disallow: /admin` und ein `Sitemap: ...` in die `*`-Gruppe und ergaenzt dann eine winzige Googlebot-spezifische Gruppe mit **nur einer Regel** `Crawl-delay: 5`. **Googlebot ignoriert jetzt `Disallow: /admin`**, weil die ganze `*`-Gruppe fuer ihn unsichtbar ist. **Fix**: wenn du ein Googlebot-spezifisches Override willst, **dupliziere jede Regel**, die weiterhin gelten soll (`Disallow: /admin`, das Sitemap ist meist **ausserhalb** jeder Gruppe deklariert und ohnehin global). Die **Pro-Bot-View** des Validators zeigt dir **genau, was Googlebot wirklich sieht**.

Meine sitemap.xml hat 50.001 URLs, warum beschwert sich der Validator?

**Weil das die offizielle Spec ueberschreitet.** `sitemaps.org` sagt: eine einzelne Sitemap darf **bis zu 50.000 URLs** enthalten und **maximal 50 MB** wiegen (unkomprimiert). Google liest den Ueberlauf nicht, **es schneidet einfach ab**. **Fix**: bau einen **Sitemap-Index** (` `), der auf mehrere normale Sitemaps (` `) verweist: ```xml https://example.de/sitemap-pages-1.xml https://example.de/sitemap-pages-2.xml https://example.de/sitemap-products.xml ``` Jede Child-Sitemap darf ihre **eigenen 50.000** haben, ein Index erlaubt also realistisch **bis zu 2,5 Milliarden URLs** (Limit: 50.000 Indizes mal 50.000 URLs). Unser Validator holt **automatisch** bis zu 50 verschachtelte Sitemaps und validiert jede.

Eine URL steht in der Sitemap, ist aber nicht indexiert?

**Eine Sitemap ist ein Hinweis, keine Garantie.** Google schaut sich die ` `-Eintraege an, am Ende **entscheidet sein eigener Algorithmus**, ob eine Seite indexiert wird. Eine URL in der Sitemap **kann trotzdem in der Suche fehlen**. Die ueblichen Gruende: - **Die Seite hat ` `**, die Sitemap sagt "crawl", das Tag sagt "nicht indexieren", **das Tag gewinnt**. - **Die Seite liefert 404 oder 5xx**, Google entfernt sie schnell aus dem Index. - **Duplicate Content**, Google sieht die Seite als **Kopie** einer anderen, indexiert nur eine. - **Niedrige Qualitaet**, Google haelt die Seite fuer **Thin Content** (wenig Text, automatisch generiert) und ueberspringt sie. - **Von robots.txt geblockt**, der Validator zeigt das. **Sitemap ist hilfreich**, aber **nicht magisch**. Es ist eine **Karte** fuer Google, kein **Indexierungsbefehl**. Der Validator hilft bei dem, was pruefbar ist: Datei-Gueltigkeit, Vollstaendigkeit, keine Duplikate.

Warum warnt der Validator "keine Sitemap-Zeile in robots.txt"?

**Weil das die Standard-Empfehlung von Google und Bing ist.** Crawler suchen den Sitemap-Link an drei Stellen: 1) in `robots.txt` (`Sitemap: https://...`), 2) in **Google Search Console** (manuelle Einreichung), 3) am Default-Pfad `/sitemap.xml`. **Fehlendes `Sitemap:` in `robots.txt`** = du verzichtest auf den **kostenlosen** Sitemap-Discovery-Mechanismus. Jeder Crawler holt `robots.txt` beim ersten Besuch; findet er dort `Sitemap: ...`, **folgt er dem Link sofort**. Ohne das muss er raten (er probiert `/sitemap.xml`, liegt deine Sitemap aber bei `/sitemap_index.xml`, **findet er sie vielleicht nicht**). **Einfacher Fix**: **eine Zeile** ans Dateiende ergaenzen: ``` Sitemap: https://example.de/sitemap.xml ``` Du kannst **mehrere** haben (`Sitemap: ...` wiederholt, z. B. eine pro Sprache).

Was sind diese "unknown directives" in meiner robots.txt?

**Jede Direktive**, die nicht im **offiziellen Standard** steht (User-agent, Allow, Disallow, Crawl-delay, Sitemap, Host). Haeufige Nicht-Standards: - **`Clean-param`**: Yandex-only, strippt URL-Parameter vom Crawl. - **`Request-rate`**: ein alter `Crawl-delay`-Verwandter, die meisten Crawler ignorieren ihn. - **`Visit-time`**: ein Hinweis, wann zu crawlen (z. B. `0500-0845`), ueberall ausser Yandex ignoriert. - **Verformte Kommentare**, manchmal schreibt jemand `# kommentar` statt `#kommentar`, manche Crawler parsen es, manche flaggen es. Der Validator zeigt sie als **Info (grau)**, nicht als Errors. **Sie brechen die Indexierung nicht**, aber du solltest wissen, dass sie da sind. Siehst du etwas Exotisches, hast du es vermutlich **von einem alten SEO-Berater geerbt**, kannst es bedenkenlos entfernen.

Kann ich ChatGPT und Claude vom Training auf meiner Seite ausschliessen?

**Ja, jeder Bot hat seinen eigenen User-agent**, du kannst sie einzeln blocken. **Aktuell** (Stand 2026): ``` User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / User-agent: CCBot Disallow: / ``` **Hinweis**: `Google-Extended` blockt **nur Bard-/Gemini-Training**, es **blockt nicht** den regulaeren Googlebot (du **fliegst also nicht aus der Suche**, nur aus Googles KI-Training). `GPTBot` blockt **nur Training**, `ChatGPT-User` ist der Echtzeit-Fetcher (wenn ein Nutzer ChatGPT bittet, etwas live nachzuschlagen). **Der Validator erlaubt dir zu pruefen**, ob dein `Disallow: /` fuer GPTBot **tatsaechlich greift**, klick den "GPTBot"-Chip in der Pro-Bot-View und du siehst die Regeln genau.

Warum sollte jede Sitemap-URL ein `lastmod` haben?

**Weil Google es zur Recrawl-Priorisierung nutzt.** Reichst du eine Sitemap mit 10.000 URLs ein, aber nur 50 davon haben sich seit dem letzten Crawl geaendert (frisches `lastmod`), faengt Google **mit diesen 50** an. Ohne `lastmod` muss es **jede URL probieren**, um zu sehen, was sich aendert, **langsamer und Verschwendung von Crawl-Budget**. **Der Validator zeigt `lastmod`-Abdeckung** als Prozentwert: siehst du **30 %**, heisst das, 70 % der URLs haben kein Datum, Google behandelt sie als "letzte Aenderung unbekannt". **Ziel: 100 %** der URLs in der Sitemap. Das `lastmod`-Format muss **W3C/ISO-8601** sein: - `2026-05-11` (Tag) - `2026-05-11T14:30:00Z` (UTC) - `2026-05-11T14:30:00+02:00` (mit Offset) **Ungueltig**: `11/05/2026`, `2026-5-11`, `May 11, 2026`. Der Validator faengt sie ab und zeigt auf die fehlerhafte Zeile.

robots.txt + sitemap.xml Validator - kostenlos

Warum erscheint deine Seite nicht in Google? Fang mit robots.txt und sitemap.xml an

Du fuegst eine URL ein, waehlst einen Modus (`robots.txt` allein, `sitemap.xml` allein oder Both zusammen) und drueckst Check. Unser Server holt die oeffentlich zugaenglichen Dateien, parst sie und zeigt dir genau das, was Googlebot beim Besuch deiner Domain sehen wuerde.

Der Validator macht drei Dinge, die du im Browser nicht tun kannst:

Holt `robots.txt` vom echten Origin, nicht aus deinem CDN-Cache, dieselben Bytes, die ein Crawler bekommen wuerde;
Simuliert echte Bots: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Waehle einen Bot aus den Chips und du siehst genau die Regeln, die fuer ihn gelten (mit Longest-Prefix-Matching, dem Algorithmus, den Google wirklich nutzt);
Parst sitemap.xml (inklusive Sitemap-Index mit verschachtelten Sitemaps), prueft die Spec-Limits (50.000 URLs, 50 MB), validiert W3C/ISO-8601-Datumsformate, `changefreq`, `priority` und holt doppelte `<loc>`-Eintraege ans Licht.

Alles kommt als sauberer Report zurueck mit Errors (rot), Warnings (gelb) und Info (grau). Plus ein URL-Tester: `/admin` oder `/private/reports.pdf` einfuegen und sofort "allowed" oder "disallowed" fuer den gewaehlten Bot sehen.

Warum die Muehe? Der mit Abstand haeufigste Grund, dass eine neue Seite nicht indexiert wird, ist ein Tippfehler in robots.txt (`Disllow: /` statt `Disallow: /admin`) oder kein Sitemap-Link in robots.txt. Der Validator faengt beides in 5 Sekunden.

So benutzt du es

Modus in der Segment-Leiste oben waehlen. Im Zweifel "Both" nehmen, wir holen erst `/robots.txt`, finden den Sitemap-Link darin und ziehen den auch.
URL einfuegen ins URL-Feld. Nackte Domain (`example.de`), volle URL (`https://example.de`) oder direkter Sitemap-Link (`https://example.de/sitemap.xml`) funktionieren alle.
"Check" druecken (oder Enter). Der Server holt mit 10-Sekunden-Timeout und 50-MB-Cap, auch riesige Sitemaps blockieren die Validierung also nicht.
Der robots.txt-Abschnitt zeigt: HTTP-Status, Dateigroesse, Gruppen-Anzahl, gesamt Allow/Disallow-Regeln. Probleme sind in 3 Schweregrade aufgeteilt (Error / Warning / Info), jeweils mit der Zeilennummer, wo es liegt.
Pro-Bot-View: die Bot-Chips (Googlebot, Bingbot, GPTBot, ChatGPT-User und andere) klicken. Du siehst genau die Regeln, die fuer diesen Bot gelten, plus wir sagen dir, welches User-Agent-Token in deiner Datei gematcht hat.
URL-Tester: beliebigen Pfad eintippen (z. B. `/admin` oder `/api/users`), "Allowed" oder "Disallowed" plus die exakte Regel sehen, die entschieden hat. Perfekt, um rauszufinden, warum eine bestimmte URL bei Google fehlt.
Der Sitemap-Abschnitt zeigt: Typ (urlset / sitemapindex), URL-Anzahl, `lastmod`-Abdeckung (%), neuestes und aeltestes Datum plus eine Probe der ersten 100 URLs in einer Tabelle. Bei einem Sitemap-Index holen wir automatisch die verschachtelten Sitemaps (zur Sicherheit bis zu 50).

Wann das nuetzlich ist

Fuenf Situationen, in denen der Validator dir ein Wochenende in der Search Console spart:

Neue Seite wird in Google nicht indexiert. Du pruefst `robots.txt`, der Validator flaggt `Disallow: /` unter `User-agent: *` (der klassische Dev-Umgebungsrest). Du aenderst es zu `Disallow: /admin` und die Indexierung startet binnen 24 Stunden.
Domain-Migration oder Redesign. Nach dem Wechsel auf eine neue Plattform validierst du die alte und die neue Sitemap. Der Validator zeigt 1.200 fehlende URLs in der neuen (vergessenes Sprach-Prefix). Du fixt es im CMS, bevor Google den Drop bemerkt.
SEO-Audit vor einem grossen Launch. Ein Kunde fragt "warum erscheint der Shop nicht in der Suche". Der Validator findet `User-agent: Googlebot` + `Disallow: /products`, jemand hat (bewusst oder nicht) den ganzen Produktkatalog geblockt. Ohne Pro-Bot-View haettest du das nie gefunden.
GPTBot, ClaudeBot, Google-Extended. Du willst dich vom KI-Training auf deinen Inhalten ausnehmen. Die Pro-Bot-View des Validators zeigt, ob dein `Disallow: /` fuer `GPTBot` tatsaechlich greift oder von einer frueheren `*`-Gruppe mit `Allow: /` ueberschrieben wird.
CI/CD-Pre-Deploy-Checks. Den Validator in deine Pipeline einbauen (ein nacktes `curl` mit JSON reicht), Builds schlagen fehl, wenn `robots.txt` `Disallow: /` unter `User-agent: *` enthaelt. Das einem Senior-DevOps zu verkaufen, dauert 10 Minuten. Ersparnis: tausende.

Brauchst du die Dateien zum Erstellen? Generiere sie im robots.txt-Builder und im sitemap.xml-Builder. Fuer Social-Vorschauen derselben URLs nimm die OpenGraph-Vorschau.

Fragen und Antworten

Nur zu unserem Server, der sich dann mit deiner Domain verbindet, um oeffentlich zugaengliche Dateien zu holen: `/robots.txt` und `/sitemap.xml`. Dieselben Dateien, die jeder Crawler weltweit in 5 Sekunden ziehen kann (das ist der Sinn, dass sie oeffentlich sind). Wir speichern deine URL nicht, wir loggen den Inhalt nicht, wir geben sie an keinen Dritten weiter. Die Validierung ist stateless, sobald das Ergebnis gerendert ist, vergessen wir.

Warum erscheint deine Seite nicht in Google? Fang mit robots.txt und sitemap.xml an

Der Validator macht drei Dinge, die du im Browser nicht tun kannst:

Holt `robots.txt` vom echten Origin, nicht aus deinem CDN-Cache, dieselben Bytes, die ein Crawler bekommen wuerde;
Simuliert echte Bots: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Waehle einen Bot aus den Chips und du siehst genau die Regeln, die fuer ihn gelten (mit Longest-Prefix-Matching, dem Algorithmus, den Google wirklich nutzt);
Parst sitemap.xml (inklusive Sitemap-Index mit verschachtelten Sitemaps), prueft die Spec-Limits (50.000 URLs, 50 MB), validiert W3C/ISO-8601-Datumsformate, `changefreq`, `priority` und holt doppelte `<loc>`-Eintraege ans Licht.

So benutzt du es

Modus in der Segment-Leiste oben waehlen. Im Zweifel "Both" nehmen, wir holen erst `/robots.txt`, finden den Sitemap-Link darin und ziehen den auch.

URL einfuegen ins URL-Feld. Nackte Domain (`example.de`), volle URL (`https://example.de`) oder direkter Sitemap-Link (`https://example.de/sitemap.xml`) funktionieren alle.

"Check" druecken (oder Enter). Der Server holt mit 10-Sekunden-Timeout und 50-MB-Cap, auch riesige Sitemaps blockieren die Validierung also nicht.

Der robots.txt-Abschnitt zeigt: HTTP-Status, Dateigroesse, Gruppen-Anzahl, gesamt Allow/Disallow-Regeln. Probleme sind in 3 Schweregrade aufgeteilt (Error / Warning / Info), jeweils mit der Zeilennummer, wo es liegt.

Pro-Bot-View: die Bot-Chips (Googlebot, Bingbot, GPTBot, ChatGPT-User und andere) klicken. Du siehst genau die Regeln, die fuer diesen Bot gelten, plus wir sagen dir, welches User-Agent-Token in deiner Datei gematcht hat.

URL-Tester: beliebigen Pfad eintippen (z. B. `/admin` oder `/api/users`), "Allowed" oder "Disallowed" plus die exakte Regel sehen, die entschieden hat. Perfekt, um rauszufinden, warum eine bestimmte URL bei Google fehlt.

Der Sitemap-Abschnitt zeigt: Typ (urlset / sitemapindex), URL-Anzahl, `lastmod`-Abdeckung (%), neuestes und aeltestes Datum plus eine Probe der ersten 100 URLs in einer Tabelle. Bei einem Sitemap-Index holen wir automatisch die verschachtelten Sitemaps (zur Sicherheit bis zu 50).

Wann das nuetzlich ist

Fuenf Situationen, in denen der Validator dir ein Wochenende in der Search Console spart:

Neue Seite wird in Google nicht indexiert. Du pruefst `robots.txt`, der Validator flaggt `Disallow: /` unter `User-agent: *` (der klassische Dev-Umgebungsrest). Du aenderst es zu `Disallow: /admin` und die Indexierung startet binnen 24 Stunden.
Domain-Migration oder Redesign. Nach dem Wechsel auf eine neue Plattform validierst du die alte und die neue Sitemap. Der Validator zeigt 1.200 fehlende URLs in der neuen (vergessenes Sprach-Prefix). Du fixt es im CMS, bevor Google den Drop bemerkt.
SEO-Audit vor einem grossen Launch. Ein Kunde fragt "warum erscheint der Shop nicht in der Suche". Der Validator findet `User-agent: Googlebot` + `Disallow: /products`, jemand hat (bewusst oder nicht) den ganzen Produktkatalog geblockt. Ohne Pro-Bot-View haettest du das nie gefunden.
GPTBot, ClaudeBot, Google-Extended. Du willst dich vom KI-Training auf deinen Inhalten ausnehmen. Die Pro-Bot-View des Validators zeigt, ob dein `Disallow: /` fuer `GPTBot` tatsaechlich greift oder von einer frueheren `*`-Gruppe mit `Allow: /` ueberschrieben wird.
CI/CD-Pre-Deploy-Checks. Den Validator in deine Pipeline einbauen (ein nacktes `curl` mit JSON reicht), Builds schlagen fehl, wenn `robots.txt` `Disallow: /` unter `User-agent: *` enthaelt. Das einem Senior-DevOps zu verkaufen, dauert 10 Minuten. Ersparnis: tausende.

Brauchst du die Dateien zum Erstellen? Generiere sie im robots.txt-Builder und im sitemap.xml-Builder. Fuer Social-Vorschauen derselben URLs nimm die OpenGraph-Vorschau.

Fragen und Antworten