¿Por qué tu sitio no aparece en Google? Empieza por robots.txt y sitemap.xml
Pegas una URL, eliges un modo (`robots.txt` solo, `sitemap.xml` solo, o Ambos juntos) y pulsas Comprobar. Nuestro servidor descarga los ficheros accesibles públicamente, los parsea y te muestra exactamente lo que vería Googlebot al visitar tu dominio.
El validador hace tres cosas que no puedes hacer desde el navegador:
- Tira de `robots.txt` del origen real, no de la caché de tu CDN, los mismos bytes que recibiría un crawler;
- Simula bots reales: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Elige un bot en los chips y ves exactamente las reglas que se le aplican (con matching de prefijo más largo, el algoritmo que Google usa de verdad);
- Parsea sitemap.xml (incluido un sitemap index con sitemaps anidados), comprueba los límites de la spec (50.000 URLs, 50 MB), valida fechas W3C/ISO-8601, `changefreq`, `priority` y saca a la luz entradas `<loc>` duplicadas.
Todo vuelve como un reporte ordenado con errores (rojos), avisos (amarillos) e info (gris). Más un probador de URLs, pega `/admin` o `/private/reportes.pdf` y ve al instante "permitido" o "denegado" para el bot seleccionado.
¿Por qué molestarse? La razón más común para que un sitio nuevo nunca se indexe es una errata en robots.txt (`Disllow: /` en lugar de `Disallow: /admin`) o sin enlace Sitemap en robots.txt. El validador pilla ambas en 5 segundos.
Cómo usarla
- Elige un modo en la barra segmentada arriba. Si dudas, elige "Ambos", descargaremos primero `/robots.txt`, encontraremos el enlace al sitemap dentro y tiraremos de ese también.
- Pega tu URL en el campo URL. Dominio pelado (`ejemplo.com`), URL completa (`https://ejemplo.com`) o un enlace directo a un sitemap (`https://ejemplo.com/sitemap.xml`) todos funcionan.
- Pulsa "Comprobar" (o Enter). El servidor descarga con un timeout de 10 segundos y un tope de 50 MB, así que ni los sitemaps enormes pararán la validación.
- La sección robots.txt muestra: status HTTP, tamaño del fichero, número de grupos, total de reglas Allow/Disallow. Los issues se dividen en 3 niveles de severidad (error / warning / info), cada uno con el número de línea donde vive.
- Vista por bot, pulsa los chips de bot (Googlebot, Bingbot, GPTBot, ChatGPT-User y otros). Ves exactamente las reglas que se aplican a ese bot, más te decimos qué token User-Agent de tu fichero coincidió.
- Probador de URLs, escribe cualquier ruta (p. ej. `/admin` o `/api/users`), ve "Permitido" o "Denegado" más la regla exacta que decidió. Perfecto para descubrir por qué una URL concreta falta en Google.
- La sección sitemap muestra: tipo (urlset / sitemapindex), número de URLs, cobertura de `lastmod` (%), fecha más reciente y más antigua, más una muestra de las primeras 100 URLs en una tabla. Si es un sitemap index, descargamos automáticamente los sitemaps anidados (hasta 50 por seguridad).
Cuándo es útil
Cinco situaciones en las que el validador te ahorra un fin de semana en Search Console:
- Un sitio nuevo no se indexa en Google. Compruebas `robots.txt`, el validador marca `Disallow: /` bajo `User-agent: *` (el clásico restos del entorno dev). Lo cambias por `Disallow: /admin` y la indexación arranca en 24 horas.
- Migración de dominio o rediseño. Tras pasar a una plataforma nueva, validas el sitemap viejo y el nuevo. El validador muestra 1.200 URLs ausentes en el nuevo (prefijo de idioma olvidado). Lo arreglas en el CMS antes de que Google note el bajón.
- Auditoría SEO antes de un gran lanzamiento. Un cliente pregunta "¿por qué la tienda no aparece en búsqueda?". El validador encuentra `User-agent: Googlebot` + `Disallow: /products`, alguien (a sabiendas o no) bloqueó el catálogo entero. Nunca lo habrías detectado sin la vista por bot.
- GPTBot, ClaudeBot, Google-Extended. Quieres optar por no entrenar IA con tu contenido. La vista por bot del validador muestra si tu `Disallow: /` para `GPTBot` se aplica realmente, o si lo anula un grupo `*` anterior con `Allow: /`.
- Comprobaciones CI/CD antes del deploy. Enchufa el validador en tu pipeline (un `curl` plano con JSON lo hace) y las builds fallan cuando `robots.txt` tiene `Disallow: /` bajo `User-agent: *`. Venderle eso a un DevOps senior lleva 10 minutos. Ahorro, miles.
¿Necesitas redactar los ficheros? Genéralos en el generador de robots.txt y el generador de sitemap.xml. Para previsualizaciones sociales de las mismas URLs, usa la previsualización OpenGraph.