¿Qué es crawl-delay y lo respeta Google?

**Crawl-delay** es el número de segundos entre peticiones consecutivas del bot. `Crawl-delay: 5` significa "espera 5 segundos". **Googlebot lo ignora** desde 2019 y usa su propio algoritmo (ajusta en Search Console > Settings > Crawl rate). **Bingbot, Yandex, Yahoo Slurp lo respetan**. Valores 1-10 son el rango típico, más normalmente no tiene sentido.

¿En qué se diferencia Disallow de noindex?

**Disallow** en robots.txt bloquea el **acceso** al fichero, **noindex** en una meta tag bloquea la **indexación**. Si quieres una página **completamente invisible en Google**, usa **noindex** (Google debe tener acceso para verlo). Si quieres **ahorrar crawl budget** (p. ej. para 10.000 resultados de búsqueda internos), usa **Disallow**.

¿Qué hace "User-agent: *"?

El asterisco es un **wildcard**, significa "cada bot sin excepción". Es el **grupo default** que usarán los bots sin sus propias reglas. En la práctica **casi siempre** empiezas tu robots.txt con `User-agent: *` y añades grupos aparte solo para bots que quieras tratar de forma distinta (p. ej. Googlebot con más libertad, GPTBot con bloqueo total).

¿Cómo bloqueo cada bot IA (ChatGPT, Claude, Perplexity)?

Pulsa **"Block AI crawlers"** en la herramienta. Añade grupos aparte para **GPTBot** (OpenAI), **ChatGPT-User** (ChatGPT browse), **ClaudeBot** (Anthropic), **anthropic-ai**, **CCBot** (Common Crawl, la fuente para muchos modelos), **Google-Extended** (data para Gemini), **PerplexityBot**, **Bytespider** (ByteDance), cada uno con `Disallow: /`. Es una **petición no vinculante**, pero cada empresa listada dice públicamente que la honra.

¿"Disallow: /admin" también bloqueará "/admin/login"?

**Sí.** Sin barra final = **match por prefix**. `Disallow: /admin` bloquea **todo** lo que empieza con `/admin`: `/admin`, `/admin/`, `/admin/login`, pero también `/administrator` (porque "administrator" empieza por "admin"). Si solo quieres la carpeta `/admin/`, usa `Disallow: /admin/` (con barra final). La herramienta te avisa cuando escribes una ruta sin barra.

¿Qué pasa si dejo "Disallow: /"?

**Bloqueas el sitio entero** para ese bot. Es el **ajuste estándar para entornos staging y dev**, pero si lo dejas accidentalmente en producción **el sitio desaparecerá de Google en días**. La herramienta mostrará un gran aviso. Tras desplegar, comprueba siempre `tu-dominio.com/robots.txt` para confirmar que el fichero es lo que querías.

¿Dónde subo robots.txt en el servidor?

**Directorio raíz de tu dominio**, justo al lado de tu `index.html` / home page. Debe ser accesible en `https://tu-dominio.com/robots.txt` (no `https://tu-dominio.com/static/robots.txt` ni `/public/robots.txt`). Para **Next.js** suéltalo como `public/robots.txt` (o usa la ruta API `app/robots.ts`). Para **WordPress** añade un fichero físico en el directorio raíz (vía FTP); los plugins SEO suelen hacerlo automáticamente.

¿Puedo tener varios ficheros sitemap.xml?

**Sí.** En robots.txt puedes listar **varias líneas `Sitemap:`**, cada una apuntando a un fichero distinto. El layout típico para sitios grandes: `sitemap-pages.xml` (páginas estáticas), `sitemap-blog.xml` (artículos), `sitemap-products.xml` (productos de tienda). También puedes tener un **sitemap index** (`sitemap.xml` apuntando a una lista de otros mapas). Google acepta felizmente ambos enfoques.

¿Por qué mi robots.txt no funciona pese a la sintaxis correcta?

Razones más comunes: **1)** El fichero está en la ruta incorrecta (debe estar en la raíz del dominio). **2)** Caché del CDN (Cloudflare). Fuerza un cache purge. **3)** El fichero devuelve **HTTP 404** en vez de **HTTP 200** (Google lo trata como "sin fichero", es decir, todo permitido). **4)** El fichero devuelve **HTTP 500** (Google deja de crawlear el sitio entero hasta que lo arregles). Comprueba tanto el status HTTP **como** el [validador robots.txt](/es/validador-robots-sitemap).

YourDevToolsPro

Generador de robots.txt

Construye robots.txt con reglas Allow / Disallow / Sitemap por user-agent.

LiveFunciona en tu navegador

Presets (un clic)

Conjuntos rápidos de reglas para situaciones típicas

Grupos de reglas

Cada grupo = un User-agent + sus reglas. El primer grupo suele ser * (todos los bots).

Grupo #1

User-agent

Añadir bot rápido:

Nombre del bot (`*` = todos los bots, `Googlebot`, `Bingbot`, `GPTBot`, etc.)

Allow (una ruta por línea)Rutas a las que el bot PUEDE acceder. Normalmente se usa para poner en lista blanca una subruta dentro de una sección bloqueada.Disallow (una ruta por línea)Rutas a las que el bot no puede acceder. `/admin/` bloquea la carpeta, `/` bloquea todo, vacío = nada.

Crawl-delay (opcional, segundos)Pausa entre solicitudes. Bingbot/Yandex lo respetan, Googlebot lo ignora desde 2019.

Sitemap

URLs completas de tus archivos sitemap.xml. Una URL por línea.

Avisos

Sin avisos, el archivo se ve bien.

Vista previa

robots.txt

89 B · 5 líneas

User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

¿Qué es robots.txt y por qué molestarse en configurarlo?

robots.txt es el primer fichero que Googlebot, Bingbot o GPTBot consultan antes de leer tu sitio. Les dice: "estas rutas puedes navegarlas, esas no". Es un fichero de texto plano que vive en `https://tu-dominio.com/robots.txt`.

Aquí pulsas y eliges qué bots reciben qué reglas, añades URLs de sitemap y ves inmediatamente el fichero terminado listo para copiar a tu servidor. También puedes bloquear cada crawler IA con un botón (GPTBot, ClaudeBot, PerplexityBot) si no quieres que tu contenido acabe en modelos de lenguaje.

Importante: robots.txt es una petición, no una medida de seguridad. Los bots bien educados (Google, Bing) escuchan, pero los scrapers maliciosos ignorarán el fichero. Para protección real usa autenticación, un web application firewall o bloqueo de IP.

Cómo usarla

Decide qué reglas quieres. Normalmente basta un grupo `User-agent: *` (todos los bots).
Para cada grupo añade Allow paths (permitidos) y Disallow paths (bloqueados). P. ej. `Disallow: /admin/` bloquea el panel admin.
Escribe URLs de sitemap en el campo Sitemap. Deben ser URLs completas con `https://`.
Usa los botones preset (bloquear IA, bloquear staging, permitir todo excepto admin) para ahorrar tiempo.
Copia el fichero generado o descárgalo como `robots.txt`. Suéltalo en la raíz de tu sitio (junto a index.html). Verifica en `tu-dominio.com/robots.txt`.

Cuándo ayuda esta herramienta

Los escenarios más comunes donde necesitas configurar robots.txt:

Bloquear scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. Más empresas no quieren que su contenido entrene modelos de lenguaje. El preset "Block AI" lo gestiona.
Ocultar panel admin y API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. No debería aparecer en resultados de Google.
Entornos staging y test. `staging.tu-empresa.com` debe quedarse invisible a Google. Bloqueo total: `Disallow: /`.
Apuntar a sitemaps. Google encuentra todas las páginas más rápido cuando robots.txt contiene una línea como `Sitemap: https://tu-dominio.com/sitemap.xml`.
Crawl-delay para servidores lentos. Si tu servidor tiene una CPU débil y Bingbot genera demasiada carga, añade `Crawl-delay: 10` (pausa de 10 segundos entre peticiones). Googlebot no lo soporta, usa Search Console en su lugar.
Reglas distintas para bots distintos. Puedes dejar a Google entrar en todas partes pero bloquear Yandex en rutas específicas. Cada User-agent recibe su propio grupo.

Tras generar el fichero compruébalo con el validador robots.txt + sitemap.xml. Tras subir al servidor añade también sitemap.xml, para que Google descubra todas las páginas más rápido.

Preguntas y respuestas

No. robots.txt dice "no visites esta página", mientras que `<meta name="robots" content="noindex">` dice "puedes visitar, pero no muestres en resultados". Más aún, si bloqueas una página en robots.txt, Google no verá el noindex dentro, así que la página aún puede acabar en el índice (sin descripción, solo como URL). Para ocultar contenido, prefiere noindex; para ahorrar crawl budget, robots.txt.

Quizá también te interese

Generador de robots.txt

Construye robots.txt con reglas Allow / Disallow / Sitemap por user-agent.

LiveFunciona en tu navegador

Presets (un clic)

Conjuntos rápidos de reglas para situaciones típicas

Grupos de reglas

Cada grupo = un User-agent + sus reglas. El primer grupo suele ser * (todos los bots).

Grupo #1

User-agent

Añadir bot rápido:

Nombre del bot (`*` = todos los bots, `Googlebot`, `Bingbot`, `GPTBot`, etc.)

Crawl-delay (opcional, segundos)Pausa entre solicitudes. Bingbot/Yandex lo respetan, Googlebot lo ignora desde 2019.

Sitemap

URLs completas de tus archivos sitemap.xml. Una URL por línea.

Avisos

Sin avisos, el archivo se ve bien.

Vista previa

robots.txt

89 B · 5 líneas

User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

¿Qué es robots.txt y por qué molestarse en configurarlo?

Cómo usarla

Decide qué reglas quieres. Normalmente basta un grupo `User-agent: *` (todos los bots).
Para cada grupo añade Allow paths (permitidos) y Disallow paths (bloqueados). P. ej. `Disallow: /admin/` bloquea el panel admin.
Escribe URLs de sitemap en el campo Sitemap. Deben ser URLs completas con `https://`.
Usa los botones preset (bloquear IA, bloquear staging, permitir todo excepto admin) para ahorrar tiempo.
Copia el fichero generado o descárgalo como `robots.txt`. Suéltalo en la raíz de tu sitio (junto a index.html). Verifica en `tu-dominio.com/robots.txt`.

Cuándo ayuda esta herramienta

Los escenarios más comunes donde necesitas configurar robots.txt:

Bloquear scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. Más empresas no quieren que su contenido entrene modelos de lenguaje. El preset "Block AI" lo gestiona.
Ocultar panel admin y API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. No debería aparecer en resultados de Google.
Entornos staging y test. `staging.tu-empresa.com` debe quedarse invisible a Google. Bloqueo total: `Disallow: /`.
Apuntar a sitemaps. Google encuentra todas las páginas más rápido cuando robots.txt contiene una línea como `Sitemap: https://tu-dominio.com/sitemap.xml`.
Crawl-delay para servidores lentos. Si tu servidor tiene una CPU débil y Bingbot genera demasiada carga, añade `Crawl-delay: 10` (pausa de 10 segundos entre peticiones). Googlebot no lo soporta, usa Search Console en su lugar.
Reglas distintas para bots distintos. Puedes dejar a Google entrar en todas partes pero bloquear Yandex en rutas específicas. Cada User-agent recibe su propio grupo.

Tras generar el fichero compruébalo con el validador robots.txt + sitemap.xml. Tras subir al servidor añade también sitemap.xml, para que Google descubra todas las páginas más rápido.

Preguntas y respuestas

Quizá también te interese

Generador de robots.txt

¿Qué es robots.txt y por qué molestarse en configurarlo?

Cómo usarla

Cuándo ayuda esta herramienta

Preguntas y respuestas

Herramientas relacionadas

Generador de sitemap.xml

Generador de meta tags

Generador de schema JSON-LD

Validador de robots.txt y sitemap.xml

Vista previa OpenGraph / Twitter Card

Generador de robots.txt

¿Qué es robots.txt y por qué molestarse en configurarlo?

Cómo usarla

Cuándo ayuda esta herramienta

Preguntas y respuestas

Herramientas relacionadas

Generador de sitemap.xml

Generador de meta tags

Generador de schema JSON-LD

Validador de robots.txt y sitemap.xml

Vista previa OpenGraph / Twitter Card