Qu'est-ce que robots.txt et pourquoi le configurer ?
robots.txt est le premier fichier que Googlebot, Bingbot ou GPTBot vont chercher avant de lire votre site. Il leur dit : "ces chemins vous pouvez les parcourir, ceux-là vous ne pouvez pas". C'est un fichier texte simple posé à `https://votre-domaine.fr/robots.txt`.
Ici vous cliquez et choisissez quels bots reçoivent quelles règles, ajoutez les URLs sitemap et voyez immédiatement le fichier fini prêt à copier sur votre serveur. Vous pouvez aussi bloquer tous les crawlers IA avec un bouton (GPTBot, ClaudeBot, PerplexityBot) si vous ne voulez pas que votre contenu finisse dans les modèles de langage.
Important : robots.txt est une demande, pas une mesure de sécurité. Les bots qui se comportent bien (Google, Bing) écoutent, mais les scrapers malveillants ignoreront le fichier. Pour une vraie protection utilisez l'authentification, un pare-feu d'application web ou le blocage IP.
Mode d'emploi
- Décidez quelles règles vous voulez. Généralement un groupe `User-agent: *` (tous les bots) suffit.
- Pour chaque groupe ajoutez les chemins Allow (autorisés) et les chemins Disallow (bloqués). Par exemple `Disallow: /admin/` bloque le panneau admin.
- Tapez les URLs sitemap dans le champ Sitemap. Elles doivent être des URLs complètes avec `https://`.
- Utilisez les boutons preset (bloquer IA, bloquer staging, autoriser tout sauf admin) pour gagner du temps.
- Copiez le fichier généré ou téléchargez-le comme `robots.txt`. Mettez-le dans la racine de votre site (à côté de index.html). Vérifiez à `votre-domaine.fr/robots.txt`.
Quand cet outil aide
Les scénarios les plus courants où vous devez configurer robots.txt :
- Bloquer les scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. De plus en plus de compagnies ne veulent pas que leur contenu entraîne les modèles de langage. Le preset "Bloquer IA" gère ça.
- Cacher le panneau admin et l'API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. Ne devraient pas apparaître dans les résultats Google.
- Environnements staging et test. `staging.votre-entreprise.fr` doit rester invisible pour Google. Blocage complet : `Disallow: /`.
- Pointer vers les sitemaps. Google trouve toutes les pages plus vite quand robots.txt contient une ligne comme `Sitemap: https://votre-domaine.fr/sitemap.xml`.
- Crawl-delay pour serveurs lents. Si votre serveur a un CPU faible et que Bingbot génère trop de charge, ajoutez `Crawl-delay: 10` (pause de 10 secondes entre les requêtes). Googlebot ne le supporte pas, utilisez plutôt Search Console.
- Règles différentes pour différents bots. Vous pouvez laisser Google entrer partout mais bloquer Yandex sur des chemins spécifiques. Chaque User-agent reçoit son propre groupe.
Après avoir généré le fichier vérifiez-le avec le validateur robots.txt + sitemap.xml. Après upload sur le serveur ajoutez aussi un sitemap.xml, pour que Google découvre toutes les pages plus vite.