Was ist robots.txt und warum sollte ich sie einrichten?
robots.txt ist die erste Datei, nach der Googlebot, Bingbot oder GPTBot greift, bevor sie deine Seite lesen. Sie sagt ihnen: "diese Pfade darfst du besuchen, jene nicht". Eine reine Textdatei unter `https://deine-domain.de/robots.txt`.
Hier kannst du per Klick auswaehlen, welche Bots welche Regeln bekommen, Sitemap-URLs ergaenzen und sofort die fertige Datei sehen, bereit zum Kopieren auf den Server. Du kannst auch jeden KI-Crawler mit einem Knopf blocken (GPTBot, ClaudeBot, PerplexityBot), wenn du nicht willst, dass deine Inhalte in Sprachmodellen landen.
Wichtig: robots.txt ist eine Bitte, keine Sicherheitsmassnahme. Wohlerzogene Bots (Google, Bing) hoeren zu, aber boesartige Scraper ignorieren die Datei. Fuer echten Schutz nutze Authentifizierung, eine Web Application Firewall oder IP-Blocking.
So benutzt du es
- Entscheide, welche Regeln du willst. Meist reicht eine `User-agent: *`-Gruppe (alle Bots).
- Fuer jede Gruppe Allow-Pfade (erlaubt) und Disallow-Pfade (geblockt) ergaenzen. Z. B. `Disallow: /admin/` blockt das Admin-Panel.
- Sitemap-URLs ins Sitemap-Feld tippen. Sie sollten volle URLs mit `https://` sein.
- Die Preset-Buttons nutzen (KI blocken, Staging blocken, alles ausser Admin erlauben), um Zeit zu sparen.
- Die generierte Datei kopieren oder als `robots.txt` herunterladen. In den Root deiner Seite legen (neben index.html). Auf `deine-domain.de/robots.txt` verifizieren.
Wann dieses Tool hilft
Die haeufigsten Szenarien, in denen du robots.txt einrichten musst:
- KI-Scraper blocken. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. Immer mehr Firmen wollen nicht, dass ihre Inhalte Sprachmodelle trainieren. Das "Block AI"-Preset uebernimmt das.
- Admin-Panel und API verstecken. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. Sollte nicht in Google-Treffern auftauchen.
- Staging- und Testumgebungen. `staging.deine-firma.de` muss fuer Google unsichtbar bleiben. Vollblock: `Disallow: /`.
- Auf Sitemaps zeigen. Google findet alle Seiten schneller, wenn robots.txt eine Zeile wie `Sitemap: https://deine-domain.de/sitemap.xml` enthaelt.
- Crawl-delay fuer langsame Server. Hat dein Server eine schwache CPU und Bingbot erzeugt zu viel Last, ergaenze `Crawl-delay: 10` (10 Sekunden Pause zwischen Anfragen). Googlebot unterstuetzt das nicht, dafuer Search Console nutzen.
- Unterschiedliche Regeln fuer unterschiedliche Bots. Du kannst Google ueberall reinlassen, Yandex aber auf bestimmten Pfaden blocken. Jeder User-agent bekommt seine eigene Gruppe.
Nach dem Generieren die Datei mit dem robots.txt + sitemap.xml-Validator pruefen. Nach dem Upload auf den Server auch sitemap.xml ergaenzen, damit Google alle Seiten schneller findet.