¿Por qué no lo hacéis en el navegador?

**Por CORS**. Tu navegador **no tiene permiso** para descargar `https://otrositio.com/robots.txt` porque `otrositio.com` no envía una cabecera `Access-Control-Allow-Origin`. **En el servidor** el problema desaparece: CORS es una protección del lado del navegador, **no servidor-a-servidor**. Por eso cada validador serio (Google Search Console, Bing Webmaster, Screaming Frog) corre desde un servidor. **El nuestro no es excepción**. Bonus: en el servidor vemos el **estado HTTP real** (si tu `robots.txt` devuelve un 500, el validador te lo dice). Un navegador solo mostraría "bloqueado por CORS".

¿Qué es el "matching de prefijo más largo" para reglas robots?

**El algoritmo que usa Googlebot** (y la mayoría de crawlers modernos). Si tu fichero tiene: ``` User-agent: Googlebot Disallow: /admin Allow: /admin/public ``` Y pruebas la ruta `/admin/public/report.pdf`, el validador (y Google) escoge la regla por **"el prefijo coincidente más largo gana"**: - `Disallow: /admin` coincide (6 caracteres) - `Allow: /admin/public` también coincide (13 caracteres, **más largo**) **Gana Allow**, así que la ruta está **permitida**. El antiguo algoritmo "primer match gana" (que usaba el Bing antiguo) daría una respuesta distinta, pero **los crawlers modernos usan matching más largo**. El validador implementa **exactamente esa lógica**, así que el veredicto **"Permitido"** en el tester coincide con lo que Googlebot hace realmente.

Tengo tanto `User-agent: *` como `User-agent: Googlebot`. ¿Cuál gana?

**El más específico**. Googlebot, cuando ve un grupo `User-agent: Googlebot`, **ignora por completo** el grupo `User-agent: *`. **Es todo o nada**, Googlebot no mezcla reglas entre grupos. La trampa clásica: pones un `Disallow: /admin` importante y un `Sitemap: ...` en el grupo `*`, luego añades un pequeño grupo específico para Googlebot con **una sola regla** `Crawl-delay: 5`. **Googlebot ignora ahora `Disallow: /admin`**, porque todo el grupo `*` es invisible para él. **Solución**: si quieres una sobreescritura específica de Googlebot, **duplica cada regla** que deba seguir aplicándose (`Disallow: /admin`, el sitemap suele declararse **fuera** de cualquier grupo y es global de todas formas). La **vista por bot** del validador te muestra **exactamente lo que Googlebot ve realmente**.

Mi sitemap.xml tiene 50.001 URLs, ¿por qué se queja el validador?

**Porque eso excede la spec oficial**. `sitemaps.org` dice: un solo sitemap puede contener **hasta 50.000 URLs** y pesar **como máximo 50 MB** (sin comprimir). Google no leerá el exceso, **simplemente trunca**. **Solución**: construye un **sitemap index** (` `) que enlace a varios sitemaps planos (` `): ```xml https://ejemplo.com/sitemap-pages-1.xml https://ejemplo.com/sitemap-pages-2.xml https://ejemplo.com/sitemap-products.xml ``` Cada sitemap hijo puede tener **sus propios 50.000**, así que un index realista te permite tener **hasta 2.500 millones de URLs** (el límite son 50.000 indices × 50.000 URLs cada uno). Nuestro validador **descarga automáticamente** hasta 50 sitemaps anidados y valida cada uno.

Una URL está en el sitemap, pero no se indexa?

**Un sitemap es una pista, no una garantía**. Google mira las entradas ` ` pero al final **su propio algoritmo decide** si indexar una página. Una URL en el sitemap **puede seguir faltando en Search**. Las razones habituales: - **La página tiene ` `**, el sitemap dice "crawl", la etiqueta dice "no indexes", **gana la etiqueta** - **La página devuelve 404 o 5xx**, Google la quita del índice rápido - **Contenido duplicado**, Google ve que la página es **copia** de otra, indexa solo una - **Baja calidad**, Google decide que la página es **thin content** (poco texto, autogenerado) y la salta - **Bloqueada por robots.txt**, el validador lo saca a la luz **Sitemap es útil**, pero **no mágico**. Es un **mapa** para Google, no un **mandato de indexación**. El validador ayuda con lo que es comprobable: validez del fichero, completitud, sin duplicados.

¿Por qué el validador avisa "sin línea Sitemap en robots.txt"?

**Porque esa es la recomendación estándar de Google y Bing**. Los crawlers buscan el enlace al sitemap en tres sitios: 1) en `robots.txt` (`Sitemap: https://...`), 2) en **Google Search Console** (envío manual), 3) en el `/sitemap.xml` por defecto. **`Sitemap:` ausente en `robots.txt`** = te saltas el mecanismo **gratuito** de descubrimiento de sitemap. Cada crawler del planeta descarga `robots.txt` en la primera visita, si encuentra `Sitemap: ...` ahí, **sigue el enlace inmediatamente**. Sin él, tiene que adivinar (prueba `/sitemap.xml`, pero si tu sitemap está en `/sitemap_index.xml`, **puede no encontrarlo**). **Solución fácil**, añade **una línea** al final del fichero: ``` Sitemap: https://ejemplo.com/sitemap.xml ``` Puedes tener **varias** (`Sitemap: ...` repetido, p. ej. una por idioma).

¿Qué son estas "directivas desconocidas" en mi robots.txt?

**Cualquier directiva** que no esté en el **estándar oficial** (User-agent, Allow, Disallow, Crawl-delay, Sitemap, Host). Las no estándar comunes: - **`Clean-param`**, solo Yandex, quita parámetros URL del crawl - **`Request-rate`**, primo antiguo de `Crawl-delay`, la mayoría de crawlers la ignoran - **`Visit-time`**, una pista sobre cuándo crawlear (p. ej. `0500-0845`), ignorada en todas partes salvo Yandex - **Comentarios mal formados**, a veces alguien escribe `# comentario` en vez de `#comentario`, algunos crawlers lo parsean, otros lo marcan El validador las saca como **info (gris)**, no errores. **No rompen la indexación**, pero deberías saber que están. Si ves algo exótico, **probablemente lo heredaste** de un consultor SEO antiguo, seguro de quitar.

¿Puedo bloquear que ChatGPT y Claude entrenen con mi sitio?

**Sí, cada bot tiene su propio User-agent**, puedes bloquearlos individualmente. **Actuales** (a 2026): ``` User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / User-agent: CCBot Disallow: / ``` **Nota**: `Google-Extended` bloquea **solo el entrenamiento de Bard/Gemini**, **no** bloquea al Googlebot regular (así que **no caes de la búsqueda**, solo del entrenamiento IA de Google). `GPTBot` bloquea **solo entrenamiento**, `ChatGPT-User` es el fetcher en tiempo real (cuando un usuario pide a ChatGPT que mire algo en vivo). **El validador te deja comprobar** si tu `Disallow: /` para GPTBot **se aplica realmente**, pulsa el chip "GPTBot" en la vista por bot y ves exactamente las reglas.

¿Por qué cada URL del sitemap debería tener un `lastmod`?

**Porque Google lo usa para priorizar el re-crawl**. Si envías un sitemap con 10.000 URLs pero solo 50 cambiaron desde el último crawl (`lastmod` fresco), Google **empieza por esas 50**. Sin `lastmod` tiene que **sondear cada URL** para ver qué cambió, **más lento y desperdicio de crawl budget**. **El validador muestra la cobertura de `lastmod`** como porcentaje: si ves **30%**, eso significa que el 70% de URLs no tiene fecha, Google las trata como "último cambio desconocido". **Objetivo: 100%** de URLs en el sitemap. El formato `lastmod` debe ser **W3C/ISO-8601**: - `2026-05-11` (día) - `2026-05-11T14:30:00Z` (UTC) - `2026-05-11T14:30:00+02:00` (con offset) **Inválido**: `11/05/2026`, `2026-5-11`, `11 de mayo de 2026`. El validador los pilla y apunta a la línea ofensora.

Validador de robots.txt y sitemap.xml - gratis

¿Por qué tu sitio no aparece en Google? Empieza por robots.txt y sitemap.xml

Pegas una URL, eliges un modo (`robots.txt` solo, `sitemap.xml` solo, o Ambos juntos) y pulsas Comprobar. Nuestro servidor descarga los ficheros accesibles públicamente, los parsea y te muestra exactamente lo que vería Googlebot al visitar tu dominio.

El validador hace tres cosas que no puedes hacer desde el navegador:

Tira de `robots.txt` del origen real, no de la caché de tu CDN, los mismos bytes que recibiría un crawler;
Simula bots reales: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Elige un bot en los chips y ves exactamente las reglas que se le aplican (con matching de prefijo más largo, el algoritmo que Google usa de verdad);
Parsea sitemap.xml (incluido un sitemap index con sitemaps anidados), comprueba los límites de la spec (50.000 URLs, 50 MB), valida fechas W3C/ISO-8601, `changefreq`, `priority` y saca a la luz entradas `<loc>` duplicadas.

Todo vuelve como un reporte ordenado con errores (rojos), avisos (amarillos) e info (gris). Más un probador de URLs, pega `/admin` o `/private/reportes.pdf` y ve al instante "permitido" o "denegado" para el bot seleccionado.

¿Por qué molestarse? La razón más común para que un sitio nuevo nunca se indexe es una errata en robots.txt (`Disllow: /` en lugar de `Disallow: /admin`) o sin enlace Sitemap en robots.txt. El validador pilla ambas en 5 segundos.

Cómo usarla

Elige un modo en la barra segmentada arriba. Si dudas, elige "Ambos", descargaremos primero `/robots.txt`, encontraremos el enlace al sitemap dentro y tiraremos de ese también.
Pega tu URL en el campo URL. Dominio pelado (`ejemplo.com`), URL completa (`https://ejemplo.com`) o un enlace directo a un sitemap (`https://ejemplo.com/sitemap.xml`) todos funcionan.
Pulsa "Comprobar" (o Enter). El servidor descarga con un timeout de 10 segundos y un tope de 50 MB, así que ni los sitemaps enormes pararán la validación.
La sección robots.txt muestra: status HTTP, tamaño del fichero, número de grupos, total de reglas Allow/Disallow. Los issues se dividen en 3 niveles de severidad (error / warning / info), cada uno con el número de línea donde vive.
Vista por bot, pulsa los chips de bot (Googlebot, Bingbot, GPTBot, ChatGPT-User y otros). Ves exactamente las reglas que se aplican a ese bot, más te decimos qué token User-Agent de tu fichero coincidió.
Probador de URLs, escribe cualquier ruta (p. ej. `/admin` o `/api/users`), ve "Permitido" o "Denegado" más la regla exacta que decidió. Perfecto para descubrir por qué una URL concreta falta en Google.
La sección sitemap muestra: tipo (urlset / sitemapindex), número de URLs, cobertura de `lastmod` (%), fecha más reciente y más antigua, más una muestra de las primeras 100 URLs en una tabla. Si es un sitemap index, descargamos automáticamente los sitemaps anidados (hasta 50 por seguridad).

Cuándo es útil

Cinco situaciones en las que el validador te ahorra un fin de semana en Search Console:

Un sitio nuevo no se indexa en Google. Compruebas `robots.txt`, el validador marca `Disallow: /` bajo `User-agent: *` (el clásico restos del entorno dev). Lo cambias por `Disallow: /admin` y la indexación arranca en 24 horas.
Migración de dominio o rediseño. Tras pasar a una plataforma nueva, validas el sitemap viejo y el nuevo. El validador muestra 1.200 URLs ausentes en el nuevo (prefijo de idioma olvidado). Lo arreglas en el CMS antes de que Google note el bajón.
Auditoría SEO antes de un gran lanzamiento. Un cliente pregunta "¿por qué la tienda no aparece en búsqueda?". El validador encuentra `User-agent: Googlebot` + `Disallow: /products`, alguien (a sabiendas o no) bloqueó el catálogo entero. Nunca lo habrías detectado sin la vista por bot.
GPTBot, ClaudeBot, Google-Extended. Quieres optar por no entrenar IA con tu contenido. La vista por bot del validador muestra si tu `Disallow: /` para `GPTBot` se aplica realmente, o si lo anula un grupo `*` anterior con `Allow: /`.
Comprobaciones CI/CD antes del deploy. Enchufa el validador en tu pipeline (un `curl` plano con JSON lo hace) y las builds fallan cuando `robots.txt` tiene `Disallow: /` bajo `User-agent: *`. Venderle eso a un DevOps senior lleva 10 minutos. Ahorro, miles.

¿Necesitas redactar los ficheros? Genéralos en el generador de robots.txt y el generador de sitemap.xml. Para previsualizaciones sociales de las mismas URLs, usa la previsualización OpenGraph.

Preguntas y respuestas

Solo a nuestro servidor, que entonces se conecta a tu dominio para descargar ficheros accesibles públicamente: `/robots.txt` y `/sitemap.xml`. Los mismos ficheros que cada crawler del planeta puede coger en 5 segundos (ese es el sentido de que sean públicos). No almacenamos tu URL, no logueamos el contenido, no lo pasamos a ningún tercero. La validación es stateless: una vez renderizado el resultado, olvidamos.

¿Por qué tu sitio no aparece en Google? Empieza por robots.txt y sitemap.xml

El validador hace tres cosas que no puedes hacer desde el navegador:

Tira de `robots.txt` del origen real, no de la caché de tu CDN, los mismos bytes que recibiría un crawler;
Simula bots reales: Googlebot, Bingbot, GPTBot, ChatGPT-User, ClaudeBot. Elige un bot en los chips y ves exactamente las reglas que se le aplican (con matching de prefijo más largo, el algoritmo que Google usa de verdad);
Parsea sitemap.xml (incluido un sitemap index con sitemaps anidados), comprueba los límites de la spec (50.000 URLs, 50 MB), valida fechas W3C/ISO-8601, `changefreq`, `priority` y saca a la luz entradas `<loc>` duplicadas.

Cómo usarla

Elige un modo en la barra segmentada arriba. Si dudas, elige "Ambos", descargaremos primero `/robots.txt`, encontraremos el enlace al sitemap dentro y tiraremos de ese también.

Pega tu URL en el campo URL. Dominio pelado (`ejemplo.com`), URL completa (`https://ejemplo.com`) o un enlace directo a un sitemap (`https://ejemplo.com/sitemap.xml`) todos funcionan.

Pulsa "Comprobar" (o Enter). El servidor descarga con un timeout de 10 segundos y un tope de 50 MB, así que ni los sitemaps enormes pararán la validación.

La sección robots.txt muestra: status HTTP, tamaño del fichero, número de grupos, total de reglas Allow/Disallow. Los issues se dividen en 3 niveles de severidad (error / warning / info), cada uno con el número de línea donde vive.

Vista por bot, pulsa los chips de bot (Googlebot, Bingbot, GPTBot, ChatGPT-User y otros). Ves exactamente las reglas que se aplican a ese bot, más te decimos qué token User-Agent de tu fichero coincidió.

Probador de URLs, escribe cualquier ruta (p. ej. `/admin` o `/api/users`), ve "Permitido" o "Denegado" más la regla exacta que decidió. Perfecto para descubrir por qué una URL concreta falta en Google.

La sección sitemap muestra: tipo (urlset / sitemapindex), número de URLs, cobertura de `lastmod` (%), fecha más reciente y más antigua, más una muestra de las primeras 100 URLs en una tabla. Si es un sitemap index, descargamos automáticamente los sitemaps anidados (hasta 50 por seguridad).

Cuándo es útil

Cinco situaciones en las que el validador te ahorra un fin de semana en Search Console:

Un sitio nuevo no se indexa en Google. Compruebas `robots.txt`, el validador marca `Disallow: /` bajo `User-agent: *` (el clásico restos del entorno dev). Lo cambias por `Disallow: /admin` y la indexación arranca en 24 horas.
Migración de dominio o rediseño. Tras pasar a una plataforma nueva, validas el sitemap viejo y el nuevo. El validador muestra 1.200 URLs ausentes en el nuevo (prefijo de idioma olvidado). Lo arreglas en el CMS antes de que Google note el bajón.
Auditoría SEO antes de un gran lanzamiento. Un cliente pregunta "¿por qué la tienda no aparece en búsqueda?". El validador encuentra `User-agent: Googlebot` + `Disallow: /products`, alguien (a sabiendas o no) bloqueó el catálogo entero. Nunca lo habrías detectado sin la vista por bot.
GPTBot, ClaudeBot, Google-Extended. Quieres optar por no entrenar IA con tu contenido. La vista por bot del validador muestra si tu `Disallow: /` para `GPTBot` se aplica realmente, o si lo anula un grupo `*` anterior con `Allow: /`.
Comprobaciones CI/CD antes del deploy. Enchufa el validador en tu pipeline (un `curl` plano con JSON lo hace) y las builds fallan cuando `robots.txt` tiene `Disallow: /` bajo `User-agent: *`. Venderle eso a un DevOps senior lleva 10 minutos. Ahorro, miles.

¿Necesitas redactar los ficheros? Genéralos en el generador de robots.txt y el generador de sitemap.xml. Para previsualizaciones sociales de las mismas URLs, usa la previsualización OpenGraph.

Preguntas y respuestas