robots.txt: qué es, cómo funciona y cómo configurarlo correctamente
Qué es robots.txt?
El archivo robots.txt es un fichero de texto plano que se coloca en la raíz de un sitio web para indicar a los rastreadores (crawlers) de buscadores qué partes del sitio pueden o no pueden visitar. Es el primer archivo que cualquier crawler responsable consulta antes de empezar a rastrear.
Se basa en el Robots Exclusion Protocol, un estándar informal que existe desde 1994. Aunque no es un mecanismo de seguridad (los bots maliciosos simplemente lo ignoran), es respetado por todos los buscadores legítimos: Googlebot, Bingbot, Yandex, Baidu, y cientos más.
La URL siempre es la misma: https://tudominio.com/robots.txt. Si no existe, los buscadores asumen que pueden rastrear todo el sitio.
intaxis básica
El archivo robots.txt usa directivas simples:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://tudominio.com/sitemap.xml
irectivas principales
User-agent: especifica a qué crawler se aplican las reglas siguientes. * significa "todos los crawlers".
User-agent: Googlebot
User-agent: Bingbot
User-agent: *
Disallow: indica rutas que el crawler no debe visitar. Se aplica a la ruta especificada y todo lo que esté por debajo.
Disallow: /privado/ # Bloquea /privado/ y todo su contenido
Disallow: /temp # Bloquea /temp, /temporal, /temp.html...
Disallow: /archivo.pdf # Bloquea un archivo específico
Allow: permite explícitamente una ruta dentro de una ruta bloqueada. Útil para excepciones.
Disallow: /admin/
Allow: /admin/public/ # Permite /admin/public/ aunque /admin/ esté bloqueado
Sitemap: indica la ubicación del mapa del sitio XML. Puede haber múltiples directivas Sitemap.
Sitemap: https://tudominio.com/sitemap.xml
Sitemap: https://tudominio.com/sitemap-blog.xml
Crawl-delay: solicita un retraso entre peticiones (en segundos). Google lo ignora (usa Search Console para controlar la velocidad), pero Bing y Yandex lo respetan.
jemplos prácticos
itio web estándar
User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /_next/
Disallow: /search?
Allow: /
Sitemap: https://gartools.es/sitemap.xml
log con WordPress
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /author/
Disallow: /tag/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Sitemap: https://miblog.com/sitemap_index.xml
loquear bots específicos
# Bloquear bots de AI que rastrean para datos de entrenamiento
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Permitir buscadores legítimos
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
obots.txt y SEO: lo que realmente importa
isallow NO es noindex
Un error muy extendido: bloquear una URL en robots.txt no impide que Google la indexe. Si otros sitios enlazan a esa URL, Google puede mostrarla en resultados de búsqueda (sin snippet, solo la URL). Para evitar la indexación, usa la meta tag noindex o la cabecera HTTP X-Robots-Tag: noindex.
rawl budget
Los buscadores asignan un "presupuesto de rastreo" (crawl budget) a cada sitio: un número limitado de páginas que visitarán en cada sesión. Para sitios grandes (10.000+ páginas), es crucial usar robots.txt para evitar que los crawlers desperdicien su presupuesto en páginas irrelevantes (filtros, paginaciones, versiones de impresión).
Para sitios pequeños (menos de 1.000 páginas), el crawl budget raramente es un problema.
loquear recursos CSS y JavaScript
En el pasado, algunos SEOs bloqueaban archivos CSS y JS en robots.txt. Hoy es una mala práctica: Google necesita renderizar tu página para evaluar su contenido y experiencia de usuario. Bloquear estos recursos puede perjudicar tu posicionamiento.
ómo verificar tu robots.txt
https://tudominio.com/robots.txt en tu navegador.rrores comunes que debes evitar
Disallow: / bloquea TODO. Verifica tres veces antes de subir cambios.onclusión
El archivo robots.txt es pequeño pero poderoso. Bien configurado, optimiza cómo los buscadores rastrean tu sitio y protege páginas que no necesitan ser indexadas. Mal configurado, puede hacer invisible tu web en Google. Usa nuestro generador de robots.txt para crear el tuyo en segundos y verificarlo antes de publicar.