GarToolsPremium Tools
SEO24 de marzo de 20268 min

robots.txt: qué es, cómo funciona y cómo configurarlo correctamente

Qué es robots.txt?

El archivo robots.txt es un fichero de texto plano que se coloca en la raíz de un sitio web para indicar a los rastreadores (crawlers) de buscadores qué partes del sitio pueden o no pueden visitar. Es el primer archivo que cualquier crawler responsable consulta antes de empezar a rastrear.

Se basa en el Robots Exclusion Protocol, un estándar informal que existe desde 1994. Aunque no es un mecanismo de seguridad (los bots maliciosos simplemente lo ignoran), es respetado por todos los buscadores legítimos: Googlebot, Bingbot, Yandex, Baidu, y cientos más.

La URL siempre es la misma: https://tudominio.com/robots.txt. Si no existe, los buscadores asumen que pueden rastrear todo el sitio.

intaxis básica

El archivo robots.txt usa directivas simples:


User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://tudominio.com/sitemap.xml

irectivas principales

User-agent: especifica a qué crawler se aplican las reglas siguientes. * significa "todos los crawlers".


User-agent: Googlebot
User-agent: Bingbot
User-agent: *

Disallow: indica rutas que el crawler no debe visitar. Se aplica a la ruta especificada y todo lo que esté por debajo.


Disallow: /privado/          # Bloquea /privado/ y todo su contenido
Disallow: /temp              # Bloquea /temp, /temporal, /temp.html...
Disallow: /archivo.pdf       # Bloquea un archivo específico

Allow: permite explícitamente una ruta dentro de una ruta bloqueada. Útil para excepciones.


Disallow: /admin/
Allow: /admin/public/        # Permite /admin/public/ aunque /admin/ esté bloqueado

Sitemap: indica la ubicación del mapa del sitio XML. Puede haber múltiples directivas Sitemap.


Sitemap: https://tudominio.com/sitemap.xml
Sitemap: https://tudominio.com/sitemap-blog.xml

Crawl-delay: solicita un retraso entre peticiones (en segundos). Google lo ignora (usa Search Console para controlar la velocidad), pero Bing y Yandex lo respetan.

jemplos prácticos

itio web estándar


User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /_next/
Disallow: /search?
Allow: /

Sitemap: https://gartools.es/sitemap.xml

log con WordPress


User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /author/
Disallow: /tag/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Sitemap: https://miblog.com/sitemap_index.xml

loquear bots específicos


# Bloquear bots de AI que rastrean para datos de entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Permitir buscadores legítimos
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

obots.txt y SEO: lo que realmente importa

isallow NO es noindex

Un error muy extendido: bloquear una URL en robots.txt no impide que Google la indexe. Si otros sitios enlazan a esa URL, Google puede mostrarla en resultados de búsqueda (sin snippet, solo la URL). Para evitar la indexación, usa la meta tag noindex o la cabecera HTTP X-Robots-Tag: noindex.

rawl budget

Los buscadores asignan un "presupuesto de rastreo" (crawl budget) a cada sitio: un número limitado de páginas que visitarán en cada sesión. Para sitios grandes (10.000+ páginas), es crucial usar robots.txt para evitar que los crawlers desperdicien su presupuesto en páginas irrelevantes (filtros, paginaciones, versiones de impresión).

Para sitios pequeños (menos de 1.000 páginas), el crawl budget raramente es un problema.

loquear recursos CSS y JavaScript

En el pasado, algunos SEOs bloqueaban archivos CSS y JS en robots.txt. Hoy es una mala práctica: Google necesita renderizar tu página para evaluar su contenido y experiencia de usuario. Bloquear estos recursos puede perjudicar tu posicionamiento.

ómo verificar tu robots.txt

  • Google Search Console → Configuración → robots.txt: verifica que Google pueda leer tu archivo y prueba URLs específicas.
  • Acceso directo: visita https://tudominio.com/robots.txt en tu navegador.
  • GarTools Generador: usa nuestro generador de robots.txt para crear un archivo optimizado con las directivas correctas para tu tipo de sitio.
  • rrores comunes que debes evitar

  • Bloquear el sitio entero por error. Disallow: / bloquea TODO. Verifica tres veces antes de subir cambios.
  • Olvidar el archivo. Si no existe, todos los bots rastrean todo. Para la mayoría de sitios pequeños esto es aceptable, pero para sitios grandes es un desperdicio de crawl budget.
  • Usar robots.txt como seguridad. Es un archivo público que cualquiera puede leer. No pongas rutas sensibles que no quieres que nadie conozca.
  • Bloquear el sitemap. Asegúrate de que la ruta del sitemap no esté dentro de un bloque Disallow.
  • Sintaxis incorrecta. Un espacio extra, una mayúscula donde no debe o una directiva mal escrita puede invalidar las reglas.
  • No actualizar al cambiar la estructura del sitio. Si migras, redesigns o eliminas secciones, revisa robots.txt para eliminar reglas obsoletas.
  • onclusión

    El archivo robots.txt es pequeño pero poderoso. Bien configurado, optimiza cómo los buscadores rastrean tu sitio y protege páginas que no necesitan ser indexadas. Mal configurado, puede hacer invisible tu web en Google. Usa nuestro generador de robots.txt para crear el tuyo en segundos y verificarlo antes de publicar.

    Artículos relacionados

    Volver al blog