¿Qué es robots.txt y por qué molestarse en configurarlo?
robots.txt es el primer fichero que Googlebot, Bingbot o GPTBot consultan antes de leer tu sitio. Les dice: "estas rutas puedes navegarlas, esas no". Es un fichero de texto plano que vive en `https://tu-dominio.com/robots.txt`.
Aquí pulsas y eliges qué bots reciben qué reglas, añades URLs de sitemap y ves inmediatamente el fichero terminado listo para copiar a tu servidor. También puedes bloquear cada crawler IA con un botón (GPTBot, ClaudeBot, PerplexityBot) si no quieres que tu contenido acabe en modelos de lenguaje.
Importante: robots.txt es una petición, no una medida de seguridad. Los bots bien educados (Google, Bing) escuchan, pero los scrapers maliciosos ignorarán el fichero. Para protección real usa autenticación, un web application firewall o bloqueo de IP.
Cómo usarla
- Decide qué reglas quieres. Normalmente basta un grupo `User-agent: *` (todos los bots).
- Para cada grupo añade Allow paths (permitidos) y Disallow paths (bloqueados). P. ej. `Disallow: /admin/` bloquea el panel admin.
- Escribe URLs de sitemap en el campo Sitemap. Deben ser URLs completas con `https://`.
- Usa los botones preset (bloquear IA, bloquear staging, permitir todo excepto admin) para ahorrar tiempo.
- Copia el fichero generado o descárgalo como `robots.txt`. Suéltalo en la raíz de tu sitio (junto a index.html). Verifica en `tu-dominio.com/robots.txt`.
Cuándo ayuda esta herramienta
Los escenarios más comunes donde necesitas configurar robots.txt:
- Bloquear scrapers IA. GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, CCBot (Common Crawl), Google-Extended. Más empresas no quieren que su contenido entrene modelos de lenguaje. El preset "Block AI" lo gestiona.
- Ocultar panel admin y API. `Disallow: /admin/`, `Disallow: /api/`, `Disallow: /wp-admin/`. No debería aparecer en resultados de Google.
- Entornos staging y test. `staging.tu-empresa.com` debe quedarse invisible a Google. Bloqueo total: `Disallow: /`.
- Apuntar a sitemaps. Google encuentra todas las páginas más rápido cuando robots.txt contiene una línea como `Sitemap: https://tu-dominio.com/sitemap.xml`.
- Crawl-delay para servidores lentos. Si tu servidor tiene una CPU débil y Bingbot genera demasiada carga, añade `Crawl-delay: 10` (pausa de 10 segundos entre peticiones). Googlebot no lo soporta, usa Search Console en su lugar.
- Reglas distintas para bots distintos. Puedes dejar a Google entrar en todas partes pero bloquear Yandex en rutas específicas. Cada User-agent recibe su propio grupo.
Tras generar el fichero compruébalo con el validador robots.txt + sitemap.xml. Tras subir al servidor añade también sitemap.xml, para que Google descubra todas las páginas más rápido.