Pourquoi ne faites-vous pas ça dans le navigateur ?

**À cause de CORS**. Votre navigateur **n'a pas la permission** de récupérer `https://autresite.fr/robots.txt`, parce que `autresite.fr` n'envoie pas d'en-tête `Access-Control-Allow-Origin`. **Côté serveur** le problème disparaît, CORS est une protection côté navigateur, **pas serveur-à-serveur**. C'est pourquoi chaque validateur sérieux (Google Search Console, Bing Webmaster, Screaming Frog) tourne depuis un serveur. **Le nôtre ne fait pas exception**. Bonus : côté serveur on voit le **vrai statut HTTP** (si votre `robots.txt` renvoie un 500, le validateur vous le dit). Un navigateur ne montrerait que "bloqué par CORS".

Qu'est-ce que le "matching par préfixe le plus long" pour les règles robots ?

**L'algorithme que Googlebot utilise** (et la plupart des crawlers modernes). Si votre fichier a : ``` User-agent: Googlebot Disallow: /admin Allow: /admin/public ``` Et vous testez le chemin `/admin/public/rapport.pdf`, le validateur (et Google) choisit la règle par **"préfixe matching le plus long gagne"** : - `Disallow: /admin` matche (6 caractères) - `Allow: /admin/public` matche aussi (13 caractères, **plus long**) **Allow gagne**, le chemin est donc **autorisé**. L'ancien algorithme "premier match gagne" (utilisé par les vieux Bing) donnerait une réponse différente, mais **les crawlers modernes utilisent longest-match**. Le validateur implémente **exactement cette logique**, le verdict **"Autorisé"** dans le testeur matche donc ce que Googlebot fait vraiment.

J'ai à la fois `User-agent: *` et `User-agent: Googlebot`. Qui gagne ?

**Le plus spécifique**. Googlebot, quand il voit un groupe `User-agent: Googlebot`, **ignore complètement** le groupe `User-agent: *`. **C'est tout ou rien**, Googlebot ne mixe pas les règles entre groupes. Le piège classique : vous mettez un `Disallow: /admin` important et un `Sitemap: ...` dans le groupe `*`, puis ajoutez un petit groupe spécifique Googlebot avec **juste une règle** `Crawl-delay: 5`. **Googlebot ignore maintenant `Disallow: /admin`**, parce que tout le groupe `*` est invisible pour lui. **Solution** : si vous voulez un override spécifique Googlebot, **dupliquez chaque règle** qui devrait toujours s'appliquer (`Disallow: /admin`, le sitemap est généralement déclaré **hors** de tout groupe et est global de toute façon). La **vue par bot** du validateur vous montre **exactement ce que Googlebot voit vraiment**.

Mon sitemap.xml a 50 001 URLs, pourquoi le validateur se plaint ?

**Parce que ça dépasse la spec officielle**. `sitemaps.org` dit : un seul sitemap peut tenir **jusqu'à 50 000 URLs** et peser **au plus 50 Mo** (non compressé). Google ne lira pas le surplus, **il tronque juste**. **Solution** : construisez un **sitemap index** (` `) qui lie plusieurs sitemaps simples (` `) : ```xml https://exemple.fr/sitemap-pages-1.xml https://exemple.fr/sitemap-pages-2.xml https://exemple.fr/sitemap-produits.xml ``` Chaque sitemap enfant peut avoir **ses propres 50 000**, un index vous permet donc réalistement d'avoir **jusqu'à 2,5 milliards d'URLs** (la limite est 50 000 indices × 50 000 URLs chacun). Notre validateur **récupère automatiquement** jusqu'à 50 sitemaps imbriqués et valide chacun.

Une URL est dans le sitemap, mais elle n'est pas indexée ?

**Un sitemap est un indice, pas une garantie**. Google regarde les entrées ` ` mais c'est finalement **son propre algorithme qui décide** d'indexer ou non une page. Une URL dans le sitemap **peut encore manquer dans Search**. Les raisons habituelles : - **La page a ` `** - le sitemap dit "crawl", le tag dit "n'indexe pas", **le tag gagne** - **La page renvoie 404 ou 5xx** - Google la retire vite de l'index - **Contenu dupliqué** - Google voit que la page est une **copie** d'une autre, n'en indexe qu'une - **Faible qualité** - Google décide que la page est du **contenu mince** (peu de texte, auto-généré) et la saute - **Bloquée par robots.txt** - le validateur fait remonter ça **Le sitemap est utile**, mais **pas magique**. C'est une **carte** pour Google, pas un **mandat d'indexation**. Le validateur aide avec ce qui est vérifiable : validité du fichier, complétude, pas de doublons.

Pourquoi le validateur avertit "pas de ligne Sitemap dans robots.txt" ?

**Parce que c'est la recommandation standard de Google et Bing**. Les crawlers cherchent le lien sitemap à trois endroits : 1) dans `robots.txt` (`Sitemap: https://...`), 2) dans **Google Search Console** (soumission manuelle), 3) au défaut `/sitemap.xml`. **`Sitemap:` manquant dans `robots.txt`** = vous sautez le mécanisme **gratuit** de découverte de sitemap. Chaque crawler sur la planète récupère `robots.txt` à la première visite, s'il trouve `Sitemap: ...` là, **il suit immédiatement le lien**. Sans ça, il doit deviner (il essaie `/sitemap.xml`, mais si votre sitemap est à `/sitemap_index.xml` à la place, **il peut ne pas le trouver**). **Fix facile**, ajoutez **une ligne** à la fin du fichier : ``` Sitemap: https://exemple.fr/sitemap.xml ``` Vous pouvez en avoir **plusieurs** (`Sitemap: ...` répété, par exemple un par langue).

Qu'est-ce que ces "directives inconnues" dans mon robots.txt ?

**Toute directive** qui n'est pas dans le **standard officiel** (User-agent, Allow, Disallow, Crawl-delay, Sitemap, Host). Non-standard courantes : - **`Clean-param`**, Yandex uniquement, retire les paramètres d'URL du crawl - **`Request-rate`**, un vieux cousin de `Crawl-delay`, la plupart des crawlers l'ignorent - **`Visit-time`**, un indice sur quand crawler (par exemple `0500-0845`), ignoré partout sauf Yandex - **Commentaires malformés**, parfois quelqu'un écrit `# commentaire` au lieu de `#commentaire`, certains crawlers le parsent, d'autres le flaguent Le validateur les fait remonter comme **info (gris)**, pas erreurs. **Ils ne cassent pas l'indexation**, mais vous devriez savoir qu'ils sont là. Si vous voyez quelque chose d'exotique, **vous l'avez probablement hérité** d'un ancien consultant SEO, sûr à retirer.

Puis-je bloquer ChatGPT et Claude de s'entraîner sur mon site ?

**Oui, chaque bot a son propre User-agent**, vous pouvez les bloquer individuellement. **Actuel** (en 2026) : ``` User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / User-agent: CCBot Disallow: / ``` **Note** : `Google-Extended` bloque **uniquement l'entraînement Bard/Gemini**, il **ne** bloque **pas** Googlebot régulier (donc vous **ne tombez pas de la recherche**, juste de l'entraînement IA Google). `GPTBot` bloque **uniquement l'entraînement**, `ChatGPT-User` est le fetcher temps réel (quand un utilisateur demande à ChatGPT de chercher quelque chose en direct). **Le validateur vous permet de vérifier** si votre `Disallow: /` pour GPTBot **s'applique réellement**, cliquez sur la pastille "GPTBot" dans la vue par bot et vous voyez exactement les règles.

Pourquoi chaque URL du sitemap devrait avoir un `lastmod` ?

**Parce que Google l'utilise pour prioriser le recrawl**. Si vous soumettez un sitemap avec 10 000 URLs mais que seulement 50 d'entre elles ont changé depuis le dernier crawl (`lastmod` frais), Google **commence par celles-là**. Sans `lastmod` il doit **sonder chaque URL** pour voir ce qui a changé, **plus lent et un gaspillage de crawl budget**. **Le validateur montre la couverture `lastmod`** en pourcentage : si vous voyez **30 %**, ça veut dire que 70 % des URLs n'ont pas de date, Google traite celles-là comme "dernier changement inconnu". **Objectif : 100 %** des URLs dans le sitemap. Le format `lastmod` doit être **W3C/ISO-8601** : - `2026-05-11` (jour) - `2026-05-11T14:30:00Z` (UTC) - `2026-05-11T14:30:00+02:00` (avec offset) **Invalide** : `11/05/2026`, `2026-5-11`, `11 mai 2026`. Le validateur les attrape et pointe vers la ligne fautive.

Validateur robots.txt + sitemap - gratuit

Pourquoi votre site n'apparaît pas dans Google ? Commencez par robots.txt et sitemap.xml

Vous collez une URL, choisissez un mode (`robots.txt` seul, `sitemap.xml` seul, ou Les deux ensemble) et cliquez sur Vérifier. Notre serveur récupère les fichiers publiquement accessibles, les parse et vous montre exactement ce que Googlebot verrait en visitant votre domaine.

Le validateur fait trois choses que vous ne pouvez pas faire depuis le navigateur :

Récupère `robots.txt` depuis l'origine réelle, pas le cache de votre CDN, les mêmes octets qu'un crawler obtiendrait ;
Simule de vrais bots : Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Choisissez un bot dans les pastilles et vous voyez exactement les règles qui s'appliquent à lui (avec matching par préfixe le plus long, l'algorithme que Google utilise vraiment) ;
Parse sitemap.xml (incluant un sitemap index avec sitemaps imbriqués), vérifie les limites de la spec (50 000 URLs, 50 Mo), valide les dates W3C/ISO-8601, `changefreq`, `priority` et fait remonter les entrées `<loc>` dupliquées.

Tout revient comme un rapport bien rangé avec erreurs (rouge), avertissements (jaune) et info (gris). Plus un testeur d'URL, collez `/admin` ou `/prive/rapports.pdf` et voyez instantanément "autorisé" ou "interdit" pour le bot sélectionné.

Pourquoi s'embêter ? La raison unique la plus courante pour laquelle un nouveau site n'est jamais indexé est une faute de frappe dans robots.txt (`Disllow: /` au lieu de `Disallow: /admin`) ou pas de lien sitemap dans robots.txt. Le validateur attrape les deux en 5 secondes.

Mode d'emploi

Choisissez un mode dans la barre segmentée en haut. En cas de doute, choisissez "Les deux", on récupérera `/robots.txt` d'abord, on trouvera le lien sitemap dedans, et on pullera ça aussi.
Collez votre URL dans le champ URL. Domaine nu (`exemple.fr`), URL complète (`https://exemple.fr`) ou un lien direct vers un sitemap (`https://exemple.fr/sitemap.xml`) tout marche.
Cliquez sur "Vérifier" (ou appuyez sur Entrée). Le serveur récupère avec un timeout de 10 secondes et un plafond de 50 Mo, pour que même les énormes sitemaps ne fassent pas caler la validation.
La section robots.txt montre : statut HTTP, taille du fichier, nombre de groupes, total des règles Allow/Disallow. Les issues sont divisées en 3 niveaux de gravité (erreur / avertissement / info), chacune avec le numéro de ligne où elle vit.
Vue par bot, cliquez sur les pastilles bot (Googlebot, Bingbot, GPTBot, ChatGPT-User et autres). Vous voyez exactement les règles qui s'appliquent à ce bot, et on vous dit quel token User-Agent dans votre fichier a matché.
Testeur d'URL, tapez n'importe quel chemin (par exemple `/admin` ou `/api/users`), voyez "Autorisé" ou "Interdit" plus la règle exacte qui a décidé. Parfait pour comprendre pourquoi une URL spécifique manque de Google.
La section sitemap montre : type (urlset / sitemapindex), nombre d'URL, couverture `lastmod` (%), date la plus récente et la plus ancienne, plus un échantillon des 100 premières URLs dans un tableau. Si c'est un sitemap index, on récupère automatiquement les sitemaps imbriqués (jusqu'à 50 par sécurité).

Quand cet outil est utile

Cinq situations où le validateur vous épargne un week-end dans Search Console :

Nouveau site ne s'indexe pas dans Google. Vous vérifiez `robots.txt`, le validateur flague `Disallow: /` sous `User-agent: *` (le classique restant d'environnement dev). Vous changez en `Disallow: /admin` et l'indexation commence en 24 heures.
Migration de domaine ou refonte. Après le passage à une nouvelle plateforme, vous validez l'ancien et le nouveau sitemap. Le validateur montre 1 200 URLs manquantes dans le nouveau (préfixe de langue oublié). Vous corrigez dans le CMS avant que Google ne remarque la chute.
Audit SEO avant un gros lancement. Un client demande "pourquoi la boutique n'apparaît pas dans la recherche". Le validateur trouve `User-agent: Googlebot` + `Disallow: /produits`, quelqu'un (sciemment ou non) a bloqué tout le catalogue produit. Vous n'auriez jamais repéré ça sans la vue par bot.
GPTBot, ClaudeBot, Google-Extended. Vous voulez opt-out de l'entraînement IA sur votre contenu. La vue par bot du validateur montre si votre `Disallow: /` pour `GPTBot` s'applique réellement, ou s'il est outrepassé par un groupe `*` plus tôt avec `Allow: /`.
Vérifications pré-déploiement CI/CD. Branchez le validateur sur votre pipeline (un simple `curl` avec JSON le fait) et les builds échouent quand `robots.txt` a `Disallow: /` sous `User-agent: *`. Vendre ça à un senior DevOps prend 10 minutes. Économies : des milliers.

Besoin de rédiger les fichiers ? Générez-les dans le générateur robots.txt et le générateur sitemap.xml. Pour les aperçus sociaux des mêmes URLs, utilisez l'aperçu OpenGraph.

Questions fréquentes

Uniquement vers notre serveur, qui se connecte ensuite à votre domaine pour récupérer des fichiers publiquement accessibles : `/robots.txt` et `/sitemap.xml`. Les mêmes fichiers que chaque crawler sur la planète peut attraper en 5 secondes (c'est le point qu'ils soient publics). On ne stocke pas votre URL, on ne logue pas le contenu, on ne le passe à aucun tiers. La validation est stateless, une fois le résultat rendu on oublie.

Pourquoi votre site n'apparaît pas dans Google ? Commencez par robots.txt et sitemap.xml

Le validateur fait trois choses que vous ne pouvez pas faire depuis le navigateur :

Récupère `robots.txt` depuis l'origine réelle, pas le cache de votre CDN, les mêmes octets qu'un crawler obtiendrait ;
Simule de vrais bots : Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Choisissez un bot dans les pastilles et vous voyez exactement les règles qui s'appliquent à lui (avec matching par préfixe le plus long, l'algorithme que Google utilise vraiment) ;
Parse sitemap.xml (incluant un sitemap index avec sitemaps imbriqués), vérifie les limites de la spec (50 000 URLs, 50 Mo), valide les dates W3C/ISO-8601, `changefreq`, `priority` et fait remonter les entrées `<loc>` dupliquées.

Mode d'emploi

Choisissez un mode dans la barre segmentée en haut. En cas de doute, choisissez "Les deux", on récupérera `/robots.txt` d'abord, on trouvera le lien sitemap dedans, et on pullera ça aussi.

Collez votre URL dans le champ URL. Domaine nu (`exemple.fr`), URL complète (`https://exemple.fr`) ou un lien direct vers un sitemap (`https://exemple.fr/sitemap.xml`) tout marche.

Cliquez sur "Vérifier" (ou appuyez sur Entrée). Le serveur récupère avec un timeout de 10 secondes et un plafond de 50 Mo, pour que même les énormes sitemaps ne fassent pas caler la validation.

La section robots.txt montre : statut HTTP, taille du fichier, nombre de groupes, total des règles Allow/Disallow. Les issues sont divisées en 3 niveaux de gravité (erreur / avertissement / info), chacune avec le numéro de ligne où elle vit.

Vue par bot, cliquez sur les pastilles bot (Googlebot, Bingbot, GPTBot, ChatGPT-User et autres). Vous voyez exactement les règles qui s'appliquent à ce bot, et on vous dit quel token User-Agent dans votre fichier a matché.

Testeur d'URL, tapez n'importe quel chemin (par exemple `/admin` ou `/api/users`), voyez "Autorisé" ou "Interdit" plus la règle exacte qui a décidé. Parfait pour comprendre pourquoi une URL spécifique manque de Google.

La section sitemap montre : type (urlset / sitemapindex), nombre d'URL, couverture `lastmod` (%), date la plus récente et la plus ancienne, plus un échantillon des 100 premières URLs dans un tableau. Si c'est un sitemap index, on récupère automatiquement les sitemaps imbriqués (jusqu'à 50 par sécurité).

Quand cet outil est utile

Cinq situations où le validateur vous épargne un week-end dans Search Console :

Nouveau site ne s'indexe pas dans Google. Vous vérifiez `robots.txt`, le validateur flague `Disallow: /` sous `User-agent: *` (le classique restant d'environnement dev). Vous changez en `Disallow: /admin` et l'indexation commence en 24 heures.
Migration de domaine ou refonte. Après le passage à une nouvelle plateforme, vous validez l'ancien et le nouveau sitemap. Le validateur montre 1 200 URLs manquantes dans le nouveau (préfixe de langue oublié). Vous corrigez dans le CMS avant que Google ne remarque la chute.
Audit SEO avant un gros lancement. Un client demande "pourquoi la boutique n'apparaît pas dans la recherche". Le validateur trouve `User-agent: Googlebot` + `Disallow: /produits`, quelqu'un (sciemment ou non) a bloqué tout le catalogue produit. Vous n'auriez jamais repéré ça sans la vue par bot.
GPTBot, ClaudeBot, Google-Extended. Vous voulez opt-out de l'entraînement IA sur votre contenu. La vue par bot du validateur montre si votre `Disallow: /` pour `GPTBot` s'applique réellement, ou s'il est outrepassé par un groupe `*` plus tôt avec `Allow: /`.
Vérifications pré-déploiement CI/CD. Branchez le validateur sur votre pipeline (un simple `curl` avec JSON le fait) et les builds échouent quand `robots.txt` a `Disallow: /` sous `User-agent: *`. Vendre ça à un senior DevOps prend 10 minutes. Économies : des milliers.

Besoin de rédiger les fichiers ? Générez-les dans le générateur robots.txt et le générateur sitemap.xml. Pour les aperçus sociaux des mêmes URLs, utilisez l'aperçu OpenGraph.

Questions fréquentes