GarToolsPremium Tools

Generador de robots.txt

Crea archivos robots.txt personalizados.

Por Ferran Garola BonillaDesarrollador y especialista en SEO técnicoActualizado: Robots Exclusion Protocol (RFC 9309)
Procesamiento local Resultado instantáneo 100% gratuito
Regla 1
robots.txt
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/

Qué es robots.txt y por qué importa para el SEO

El archivo robots.txt es la primera cosa que un rastreador de buscadores busca cuando visita tu sitio web. Antes de rastrear cualquier página, Googlebot, Bingbot y otros bots comprueban si existe un archivo en tudominio.com/robots.txt con instrucciones sobre qué pueden y qué no pueden visitar. Es un estándar que existe desde 1994 y sigue siendo fundamental para el SEO técnico.

Un robots.txt bien configurado ayuda a que los buscadores inviertan su presupuesto de rastreo en las páginas que realmente importan. Si tienes miles de páginas de filtros, paginaciones internas o resultados de búsqueda que no aportan valor, bloquear su rastreo permite que Google dedique más recursos a indexar tu contenido principal.

Directivas principales del robots.txt

El formato es sencillo pero hay que entenderlo bien para no cometer errores. User-agent especifica a qué bot van dirigidas las reglas (usa * para todos). Disallow indica las rutas que el bot no debe rastrear. Allow permite el acceso a una ruta dentro de una sección bloqueada, útil para excepciones. Sitemap indica la URL de tu mapa del sitio XML.

La directiva Crawl-delay sugiere al bot cuántos segundos esperar entre peticiones. Google no la respeta (usa Search Console para controlar la velocidad de rastreo), pero Bing y Yandex sí la tienen en cuenta. Es útil si tu servidor tiene recursos limitados y el rastreo intensivo causa problemas de rendimiento.

Errores comunes al configurar robots.txt

El error más frecuente es bloquear recursos que Google necesita para renderizar las páginas. Si tu robots.txt impide el acceso a archivos CSS, JavaScript o fuentes, Google no puede ver tu página como la ven los usuarios y eso afecta negativamente al posicionamiento. Otro error habitual es usar Disallow: / pensando que solo bloquea la página de inicio, cuando en realidad bloquea todo el sitio.

También es común confundir robots.txt con una herramienta de desindexación. Si bloqueas una URL con Disallow pero esa URL tiene enlaces entrantes desde otros sitios, Google puede indexarla igualmente, mostrando un resultado sin descripción. Para desindexar, necesitas la meta etiqueta noindex o la cabecera HTTP X-Robots-Tag: noindex. Y un detalle importante: si bloqueas el rastreo con Disallow, el bot no puede leer la etiqueta noindex, así que nunca combines ambas para la misma URL.

Cómo afecta al presupuesto de rastreo

Google asigna a cada sitio un presupuesto de rastreo limitado: un número máximo de páginas que Googlebot visitará en un periodo de tiempo. Para sitios pequeños (menos de unos pocos miles de páginas) esto raramente es un problema. Pero para sitios grandes como ecommerce con miles de productos, variantes y filtros, el presupuesto de rastreo es un recurso escaso.

Un robots.txt inteligente bloquea las URLs de bajo valor: páginas de búsqueda interna, filtros con combinaciones infinitas, URLs con parámetros de sesión, áreas de administración y APIs internas. Esto libera presupuesto para que Google rastree las páginas de producto, categoría y contenido que sí quieres posicionar. En sitios grandes, optimizar el robots.txt puede acelerar significativamente la indexación de páginas nuevas.

Ejemplos prácticos según tipo de sitio

Para un WordPress típico, conviene bloquear /wp-admin/ pero permitir /wp-admin/admin-ajax.php (necesario para funcionalidades de frontend), bloquear /wp-includes/ y añadir la URL del sitemap. Para un ecommerce, bloquea las URLs de filtros combinados (/productos?color=rojo&talla=m), el carrito, el checkout y las páginas de cuenta de usuario. Permite siempre las páginas de producto y de categoría.

Para aplicaciones SPA (Single Page Applications con React, Angular o Vue), el robots.txt suele ser más sencillo porque hay menos URLs. Lo importante aquí es no bloquear los archivos JavaScript que renderizan el contenido, ya que Google necesita ejecutarlos para ver las páginas. Y en todos los casos, incluye siempre la directiva Sitemap apuntando a tu archivo XML para facilitar el descubrimiento de nuevas páginas.

Preguntas frecuentes

Es un archivo de texto plano que se coloca en la raíz de tu sitio web (https://tudominio.com/robots.txt) para indicar a los rastreadores de buscadores qué páginas pueden o no pueden rastrear. Forma parte del protocolo de exclusión de robots, un estándar que respetan Google, Bing, Yahoo y la mayoría de bots legítimos.

Debe estar exactamente en la raíz de tu dominio: https://tudominio.com/robots.txt. Los buscadores lo buscan automáticamente en esa ubicación y solo en esa. Un robots.txt en un subdirectorio (como /blog/robots.txt) no será detectado. Si tienes subdominios, cada uno necesita su propio archivo.

No necesariamente. robots.txt impide el rastreo, pero Google puede indexar una URL si la encuentra enlazada en otros sitios, mostrándola en resultados con el mensaje 'No hay información disponible para esta página'. Para evitar la indexación por completo, usa la etiqueta meta robots con el valor noindex o la cabecera HTTP X-Robots-Tag.

Si no existe el archivo, los buscadores asumen que pueden rastrear todas las páginas de tu sitio. No tener robots.txt no es un error y no penaliza el SEO. Sin embargo, es recomendable tener uno para incluir al menos la URL del sitemap y controlar el acceso a carpetas que no aportan valor al rastreo, como /admin, /tmp o /api.

Disallow en robots.txt impide que el bot rastree (visite) una URL, pero no impide que la indexe si la descubre por otros medios. La directiva noindex (como meta tag o HTTP header) permite que el bot rastree la página pero le indica que no la muestre en resultados. Para bloquear completamente una página de los resultados, usa noindex. Importante: no combines Disallow con noindex para la misma URL, porque si bloqueas el rastreo, el bot no podrá leer la etiqueta noindex.

No. robots.txt es una directiva que los bots legítimos respetan voluntariamente, pero cualquiera puede leer su contenido y los bots maliciosos lo ignoran. Nunca uses robots.txt para ocultar información sensible como paneles de administración o datos privados. Para proteger contenido, usa autenticación, permisos de servidor y firewalls.

Herramientas relacionadas

Lecturas relacionadas