Pourquoi votre site n'apparaît pas dans Google ? Commencez par robots.txt et sitemap.xml
Vous collez une URL, choisissez un mode (`robots.txt` seul, `sitemap.xml` seul, ou Les deux ensemble) et cliquez sur Vérifier. Notre serveur récupère les fichiers publiquement accessibles, les parse et vous montre exactement ce que Googlebot verrait en visitant votre domaine.
Le validateur fait trois choses que vous ne pouvez pas faire depuis le navigateur :
- Récupère `robots.txt` depuis l'origine réelle, pas le cache de votre CDN, les mêmes octets qu'un crawler obtiendrait ;
- Simule de vrais bots : Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Choisissez un bot dans les pastilles et vous voyez exactement les règles qui s'appliquent à lui (avec matching par préfixe le plus long, l'algorithme que Google utilise vraiment) ;
- Parse sitemap.xml (incluant un sitemap index avec sitemaps imbriqués), vérifie les limites de la spec (50 000 URLs, 50 Mo), valide les dates W3C/ISO-8601, `changefreq`, `priority` et fait remonter les entrées `<loc>` dupliquées.
Tout revient comme un rapport bien rangé avec erreurs (rouge), avertissements (jaune) et info (gris). Plus un testeur d'URL, collez `/admin` ou `/prive/rapports.pdf` et voyez instantanément "autorisé" ou "interdit" pour le bot sélectionné.
Pourquoi s'embêter ? La raison unique la plus courante pour laquelle un nouveau site n'est jamais indexé est une faute de frappe dans robots.txt (`Disllow: /` au lieu de `Disallow: /admin`) ou pas de lien sitemap dans robots.txt. Le validateur attrape les deux en 5 secondes.
Mode d'emploi
- Choisissez un mode dans la barre segmentée en haut. En cas de doute, choisissez "Les deux", on récupérera `/robots.txt` d'abord, on trouvera le lien sitemap dedans, et on pullera ça aussi.
- Collez votre URL dans le champ URL. Domaine nu (`exemple.fr`), URL complète (`https://exemple.fr`) ou un lien direct vers un sitemap (`https://exemple.fr/sitemap.xml`) tout marche.
- Cliquez sur "Vérifier" (ou appuyez sur Entrée). Le serveur récupère avec un timeout de 10 secondes et un plafond de 50 Mo, pour que même les énormes sitemaps ne fassent pas caler la validation.
- La section robots.txt montre : statut HTTP, taille du fichier, nombre de groupes, total des règles Allow/Disallow. Les issues sont divisées en 3 niveaux de gravité (erreur / avertissement / info), chacune avec le numéro de ligne où elle vit.
- Vue par bot, cliquez sur les pastilles bot (Googlebot, Bingbot, GPTBot, ChatGPT-User et autres). Vous voyez exactement les règles qui s'appliquent à ce bot, et on vous dit quel token User-Agent dans votre fichier a matché.
- Testeur d'URL, tapez n'importe quel chemin (par exemple `/admin` ou `/api/users`), voyez "Autorisé" ou "Interdit" plus la règle exacte qui a décidé. Parfait pour comprendre pourquoi une URL spécifique manque de Google.
- La section sitemap montre : type (urlset / sitemapindex), nombre d'URL, couverture `lastmod` (%), date la plus récente et la plus ancienne, plus un échantillon des 100 premières URLs dans un tableau. Si c'est un sitemap index, on récupère automatiquement les sitemaps imbriqués (jusqu'à 50 par sécurité).
Quand cet outil est utile
Cinq situations où le validateur vous épargne un week-end dans Search Console :
- Nouveau site ne s'indexe pas dans Google. Vous vérifiez `robots.txt`, le validateur flague `Disallow: /` sous `User-agent: *` (le classique restant d'environnement dev). Vous changez en `Disallow: /admin` et l'indexation commence en 24 heures.
- Migration de domaine ou refonte. Après le passage à une nouvelle plateforme, vous validez l'ancien et le nouveau sitemap. Le validateur montre 1 200 URLs manquantes dans le nouveau (préfixe de langue oublié). Vous corrigez dans le CMS avant que Google ne remarque la chute.
- Audit SEO avant un gros lancement. Un client demande "pourquoi la boutique n'apparaît pas dans la recherche". Le validateur trouve `User-agent: Googlebot` + `Disallow: /produits`, quelqu'un (sciemment ou non) a bloqué tout le catalogue produit. Vous n'auriez jamais repéré ça sans la vue par bot.
- GPTBot, ClaudeBot, Google-Extended. Vous voulez opt-out de l'entraînement IA sur votre contenu. La vue par bot du validateur montre si votre `Disallow: /` pour `GPTBot` s'applique réellement, ou s'il est outrepassé par un groupe `*` plus tôt avec `Allow: /`.
- Vérifications pré-déploiement CI/CD. Branchez le validateur sur votre pipeline (un simple `curl` avec JSON le fait) et les builds échouent quand `robots.txt` a `Disallow: /` sous `User-agent: *`. Vendre ça à un senior DevOps prend 10 minutes. Économies : des milliers.
Besoin de rédiger les fichiers ? Générez-les dans le générateur robots.txt et le générateur sitemap.xml. Pour les aperçus sociaux des mêmes URLs, utilisez l'aperçu OpenGraph.