Qu'est-ce que crawl-delay et Google le respecte ?

**Crawl-delay** est le nombre de secondes entre requêtes bot consécutives. `Crawl-delay: 5` signifie "attendre 5 secondes". **Googlebot l'ignore** depuis 2019 et utilise son propre algorithme (réglez dans Search Console > Paramètres > Crawl rate). **Bingbot, Yandex, Yahoo Slurp le respectent**. Les valeurs 1-10 sont la plage typique, plus n'a généralement pas de sens.

Comment Disallow diffère de noindex ?

**Disallow** dans robots.txt bloque l'**accès** au fichier, **noindex** dans une meta tag bloque l'**indexation**. Si vous voulez une page **complètement invisible dans Google**, utilisez **noindex** (Google doit avoir l'accès pour le voir). Si vous voulez **économiser le crawl budget** (par exemple pour 10 000 résultats de recherche internes), utilisez **Disallow**.

Que fait "User-agent: *" ?

L'astérisque est un **wildcard**, signifiant "tout bot sans exception". C'est le **groupe par défaut** que les bots sans leurs propres règles utiliseront. En pratique vous **commencez presque toujours** votre robots.txt avec `User-agent: *` et ajoutez des groupes séparés uniquement pour les bots que vous voulez traiter différemment (par exemple Googlebot avec plus de liberté, GPTBot avec un blocage total).

Comment bloquer chaque bot IA (ChatGPT, Claude, Perplexity) ?

Cliquez sur **"Bloquer les crawlers IA"** dans l'outil. Il ajoute des groupes séparés pour **GPTBot** (OpenAI), **ChatGPT-User** (ChatGPT browse), **ClaudeBot** (Anthropic), **anthropic-ai**, **CCBot** (Common Crawl, la source pour beaucoup de modèles), **Google-Extended** (données pour Gemini), **PerplexityBot**, **Bytespider** (ByteDance), chacun avec `Disallow: /`. C'est une **demande non contraignante**, mais chaque compagnie listée dit publiquement qu'elle l'honore.

"Disallow: /admin" bloquera aussi "/admin/login" ?

**Oui.** Pas de slash final = **match de préfixe**. `Disallow: /admin` bloque **tout** ce qui commence par `/admin` : `/admin`, `/admin/`, `/admin/login`, mais aussi `/administrator` (parce que "administrator" commence par "admin"). Si vous voulez seulement le dossier `/admin/`, utilisez `Disallow: /admin/` (avec slash final). L'outil vous avertit quand vous tapez un chemin sans slash.

Que se passe-t-il si je laisse "Disallow: /" ?

**Vous bloquez le site entier** pour ce bot. C'est le **réglage standard pour les environnements staging et dev**, mais si vous le laissez accidentellement en prod **le site tombe de Google en quelques jours**. L'outil affichera un grand avertissement. Après déploiement, vérifiez toujours `votre-domaine.fr/robots.txt` pour confirmer que le fichier est ce que vous vouliez.

Où uploader robots.txt sur le serveur ?

**Répertoire racine de votre domaine**, juste à côté de votre `index.html` / page d'accueil. Il doit être joignable à `https://votre-domaine.fr/robots.txt` (pas `https://votre-domaine.fr/static/robots.txt` ou `/public/robots.txt`). Pour **Next.js** mettez-le en `public/robots.txt` (ou utilisez la route API `app/robots.ts`). Pour **WordPress** ajoutez un fichier physique dans le répertoire racine (via FTP) ; les plugins SEO le font souvent automatiquement.

Puis-je avoir plusieurs fichiers sitemap.xml ?

**Oui.** Dans robots.txt vous pouvez lister **plusieurs lignes `Sitemap:`**, chacune pointant vers un fichier différent. La structure typique pour les grands sites : `sitemap-pages.xml` (pages statiques), `sitemap-blog.xml` (articles), `sitemap-produits.xml` (produits boutique). Vous pouvez aussi avoir un **sitemap index** (`sitemap.xml` pointant vers une liste d'autres maps). Google accepte les deux approches volontiers.

Pourquoi mon robots.txt ne marche pas malgré une syntaxe correcte ?

Raisons les plus courantes : **1)** Le fichier est au mauvais chemin (doit être à la racine du domaine). **2)** Cache CDN (Cloudflare). Forcez une purge de cache. **3)** Le fichier renvoie **HTTP 404** au lieu de **HTTP 200** (Google traite ça comme "pas de fichier", ce qui signifie que tout est autorisé). **4)** Le fichier renvoie **HTTP 500** (Google arrête de crawler le site entier jusqu'à ce que vous corrigiez). Vérifiez à la fois le statut HTTP **et** le [validateur robots.txt](/fr/validateur-robots-sitemap).

Builder robots.txt - gratuit

Presets (un clic)

Ensembles de règles rapides pour les situations typiques

Rule groups

Chaque groupe = un User-agent + ses règles. Le premier groupe est généralement * (tous les bots).

Group #1

User-agent

Quick add bot:

Nom du bot (`*` = tous les bots, `Googlebot`, `Bingbot`, `GPTBot` etc.)

AutoriserChemins auxquels le bot PEUT accéder. Typiquement utilisé pour whitelister un sous-chemin dans une section bloquée.InterdireChemins auxquels le bot ne peut pas accéder. `/admin/` bloque le dossier, `/` bloque tout, vide = rien.

Crawl-delayPause entre les requêtes. Bingbot/Yandex le respectent, Googlebot l'ignore depuis 2019.

Sitemap

URL complètes de vos fichiers sitemap.xml. Une URL par ligne.

Warnings

Aucun avertissement, le fichier semble correct.

Preview

robots.txt

89 B · 5 lines

User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Qu'est-ce que robots.txt et pourquoi le configurer ?

robots.txt est le premier fichier que Googlebot, Bingbot ou GPTBot vont chercher avant de lire votre site. Il leur dit : "ces chemins vous pouvez les parcourir, ceux-là vous ne pouvez pas". C'est un fichier texte simple posé à `https://votre-domaine.fr/robots.txt`.

Ici vous cliquez et choisissez quels bots reçoivent quelles règles, ajoutez les URLs sitemap et voyez immédiatement le fichier fini prêt à copier sur votre serveur. Vous pouvez aussi bloquer tous les crawlers IA avec un bouton (GPTBot, ClaudeBot, PerplexityBot) si vous ne voulez pas que votre contenu finisse dans les modèles de langage.

Important : robots.txt est une demande, pas une mesure de sécurité. Les bots qui se comportent bien (Google, Bing) écoutent, mais les scrapers malveillants ignoreront le fichier. Pour une vraie protection utilisez l'authentification, un pare-feu d'application web ou le blocage IP.

Mode d'emploi

Décidez quelles règles vous voulez. Généralement un groupe `User-agent: *` (tous les bots) suffit.

Pour chaque groupe ajoutez les chemins Allow (autorisés) et les chemins Disallow (bloqués). Par exemple `Disallow: /admin/` bloque le panneau admin.

Tapez les URLs sitemap dans le champ Sitemap. Elles doivent être des URLs complètes avec `https://`.

Utilisez les boutons preset (bloquer IA, bloquer staging, autoriser tout sauf admin) pour gagner du temps.

Copiez le fichier généré ou téléchargez-le comme `robots.txt`. Mettez-le dans la racine de votre site (à côté de index.html). Vérifiez à `votre-domaine.fr/robots.txt`.

Quand cet outil aide

Les scénarios les plus courants où vous devez configurer robots.txt :

Bloquer les scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. De plus en plus de compagnies ne veulent pas que leur contenu entraîne les modèles de langage. Le preset "Bloquer IA" gère ça.
Cacher le panneau admin et l'API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. Ne devraient pas apparaître dans les résultats Google.
Environnements staging et test. `staging.votre-entreprise.fr` doit rester invisible pour Google. Blocage complet : `Disallow: /`.
Pointer vers les sitemaps. Google trouve toutes les pages plus vite quand robots.txt contient une ligne comme `Sitemap: https://votre-domaine.fr/sitemap.xml`.
Crawl-delay pour serveurs lents. Si votre serveur a un CPU faible et que Bingbot génère trop de charge, ajoutez `Crawl-delay: 10` (pause de 10 secondes entre les requêtes). Googlebot ne le supporte pas, utilisez plutôt Search Console.
Règles différentes pour différents bots. Vous pouvez laisser Google entrer partout mais bloquer Yandex sur des chemins spécifiques. Chaque User-agent reçoit son propre groupe.

Après avoir généré le fichier vérifiez-le avec le validateur robots.txt + sitemap.xml. Après upload sur le serveur ajoutez aussi un sitemap.xml, pour que Google découvre toutes les pages plus vite.

Questions fréquentes

Non. robots.txt dit "ne visite pas cette page", alors que `<meta name="robots" content="noindex">` dit "tu peux visiter, mais ne montre pas dans les résultats". De plus, si vous bloquez une page dans robots.txt, Google ne verra pas le noindex à l'intérieur, la page peut donc quand même finir dans l'index (sans description, juste comme URL). Pour cacher du contenu, préférez noindex ; pour économiser le crawl budget, robots.txt.

Qu'est-ce que robots.txt et pourquoi le configurer ?

Mode d'emploi

Décidez quelles règles vous voulez. Généralement un groupe `User-agent: *` (tous les bots) suffit.

Pour chaque groupe ajoutez les chemins Allow (autorisés) et les chemins Disallow (bloqués). Par exemple `Disallow: /admin/` bloque le panneau admin.

Tapez les URLs sitemap dans le champ Sitemap. Elles doivent être des URLs complètes avec `https://`.

Utilisez les boutons preset (bloquer IA, bloquer staging, autoriser tout sauf admin) pour gagner du temps.

Copiez le fichier généré ou téléchargez-le comme `robots.txt`. Mettez-le dans la racine de votre site (à côté de index.html). Vérifiez à `votre-domaine.fr/robots.txt`.

Quand cet outil aide

Les scénarios les plus courants où vous devez configurer robots.txt :

Bloquer les scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. De plus en plus de compagnies ne veulent pas que leur contenu entraîne les modèles de langage. Le preset "Bloquer IA" gère ça.
Cacher le panneau admin et l'API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. Ne devraient pas apparaître dans les résultats Google.
Environnements staging et test. `staging.votre-entreprise.fr` doit rester invisible pour Google. Blocage complet : `Disallow: /`.
Pointer vers les sitemaps. Google trouve toutes les pages plus vite quand robots.txt contient une ligne comme `Sitemap: https://votre-domaine.fr/sitemap.xml`.
Crawl-delay pour serveurs lents. Si votre serveur a un CPU faible et que Bingbot génère trop de charge, ajoutez `Crawl-delay: 10` (pause de 10 secondes entre les requêtes). Googlebot ne le supporte pas, utilisez plutôt Search Console.
Règles différentes pour différents bots. Vous pouvez laisser Google entrer partout mais bloquer Yandex sur des chemins spécifiques. Chaque User-agent reçoit son propre groupe.

Questions fréquentes

Builder robots.txt

Qu'est-ce que robots.txt et pourquoi le configurer ?

Mode d'emploi

Quand cet outil aide

Questions fréquentes

Outils similaires

Builder sitemap.xml

Suite balises meta

Builder JSON-LD

Validateur robots.txt + sitemap

Aperçu Open Graph

Builder robots.txt

Qu'est-ce que robots.txt et pourquoi le configurer ?

Mode d'emploi

Quand cet outil aide

Questions fréquentes

Outils similaires

Builder sitemap.xml

Suite balises meta

Builder JSON-LD

Validateur robots.txt + sitemap

Aperçu Open Graph