robots.txt: qué es, cómo funciona y cómo configurarlo correctamente

¿Qué es robots.txt?

El archivo robots.txt es un fichero de texto plano que se coloca en la raíz de un sitio web para indicar a los rastreadores (crawlers) de buscadores qué partes del sitio pueden o no pueden visitar. Es el primer archivo que cualquier crawler responsable consulta antes de empezar a rastrear.

Se basa en el Robots Exclusion Protocol, un estándar informal que existe desde 1994. Aunque no es un mecanismo de seguridad (los bots maliciosos simplemente lo ignoran), es respetado por todos los buscadores legítimos: Googlebot, Bingbot, Yandex, Baidu, y cientos más.

La URL siempre es la misma: https://tudominio.com/robots.txt. Si no existe, los buscadores asumen que pueden rastrear todo el sitio.

Sintaxis básica

El archivo robots.txt usa directivas simples:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://tudominio.com/sitemap.xml

Directivas principales

User-agent: especifica a qué crawler se aplican las reglas siguientes. * significa "todos los crawlers".

User-agent: Googlebot
User-agent: Bingbot
User-agent: *

Disallow: indica rutas que el crawler no debe visitar. Se aplica a la ruta especificada y todo lo que esté por debajo.

Disallow: /privado/          # Bloquea /privado/ y todo su contenido
Disallow: /temp              # Bloquea /temp, /temporal, /temp.html...
Disallow: /archivo.pdf       # Bloquea un archivo específico

Allow: permite explícitamente una ruta dentro de una ruta bloqueada. Útil para excepciones.

Disallow: /admin/
Allow: /admin/public/        # Permite /admin/public/ aunque /admin/ esté bloqueado

Sitemap: indica la ubicación del mapa del sitio XML. Puede haber múltiples directivas Sitemap.

Sitemap: https://tudominio.com/sitemap.xml
Sitemap: https://tudominio.com/sitemap-blog.xml

Crawl-delay: solicita un retraso entre peticiones (en segundos). Google lo ignora (usa Search Console para controlar la velocidad), pero Bing y Yandex lo respetan.

Ejemplos prácticos

Sitio web estándar

User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /_next/
Disallow: /search?
Allow: /

Sitemap: https://gartools.es/sitemap.xml

Blog con WordPress

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /author/
Disallow: /tag/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Sitemap: https://miblog.com/sitemap_index.xml

Bloquear bots específicos

# Bloquear bots de AI que rastrean para datos de entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Permitir buscadores legítimos
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

robots.txt y SEO: lo que realmente importa

Disallow NO es noindex

Un error muy extendido: bloquear una URL en robots.txt no impide que Google la indexe. Si otros sitios enlazan a esa URL, Google puede mostrarla en resultados de búsqueda (sin snippet, solo la URL). Para evitar la indexación, usa la meta tag noindex o la cabecera HTTP X-Robots-Tag: noindex.

Crawl budget

Los buscadores asignan un "presupuesto de rastreo" (crawl budget) a cada sitio: un número limitado de páginas que visitarán en cada sesión. Para sitios grandes (10.000+ páginas), es crucial usar robots.txt para evitar que los crawlers desperdicien su presupuesto en páginas irrelevantes (filtros, paginaciones, versiones de impresión).

Para sitios pequeños (menos de 1.000 páginas), el crawl budget raramente es un problema.

Bloquear recursos CSS y JavaScript

En el pasado, algunos SEOs bloqueaban archivos CSS y JS en robots.txt. Hoy es una mala práctica: Google necesita renderizar tu página para evaluar su contenido y experiencia de usuario. Bloquear estos recursos puede perjudicar tu posicionamiento.

Cómo verificar tu robots.txt

Google Search Console → Configuración → robots.txt: verifica que Google pueda leer tu archivo y prueba URLs específicas.
Acceso directo: visita https://tudominio.com/robots.txt en tu navegador.
GarTools Generador: usa nuestro generador de robots.txt para crear un archivo optimizado con las directivas correctas para tu tipo de sitio.

Errores comunes que debes evitar

Bloquear el sitio entero por error. Disallow: / bloquea TODO. Verifica tres veces antes de subir cambios.
Olvidar el archivo. Si no existe, todos los bots rastrean todo. Para la mayoría de sitios pequeños esto es aceptable, pero para sitios grandes es un desperdicio de crawl budget.
Usar robots.txt como seguridad. Es un archivo público que cualquiera puede leer. No pongas rutas sensibles que no quieres que nadie conozca.
Bloquear el sitemap. Asegúrate de que la ruta del sitemap no esté dentro de un bloque Disallow.
Sintaxis incorrecta. Un espacio extra, una mayúscula donde no debe o una directiva mal escrita puede invalidar las reglas.
No actualizar al cambiar la estructura del sitio. Si migras, redesigns o eliminas secciones, revisa robots.txt para eliminar reglas obsoletas.

robots.txt en diferentes plataformas

WordPress

WordPress genera un robots.txt virtual automaticamente que puedes personalizar con plugins como Yoast SEO o Rank Math. Por defecto, bloquea el acceso a /wp-admin/ pero permite /wp-admin/admin-ajax.php (necesario para funcionalidades frontend). Si creas un archivo robots.txt fisico en la raiz, WordPress lo usara en lugar del virtual.

Next.js y frameworks modernos

En Next.js puedes generar robots.txt de forma programatica exportando una funcion en app/robots.ts que devuelve las reglas como un objeto JavaScript. Esto permite generar reglas diferentes segun el entorno (por ejemplo, bloquear todo el sitio en staging con Disallow: / y permitir todo en produccion). Astro, Gatsby y Nuxt ofrecen funcionalidad similar con sus respectivos plugins o funciones de configuracion.

Sitios estaticos

Para sitios estaticos alojados en GitHub Pages, Netlify o Vercel, simplemente crea un archivo robots.txt en la carpeta publica (public/ o static/) del proyecto. Asegurate de que el proceso de build no lo excluya y verifica que sea accesible despues del deploy visitando la URL directamente.

Monitorizar el rastreo de tu sitio

Google Search Console proporciona datos valiosos sobre como Googlebot rastrea tu sitio. En la seccion "Rastreo", puedes ver la frecuencia de rastreo, el numero de paginas rastreadas por dia, el tiempo de respuesta del servidor durante el rastreo y los errores encontrados. Estos datos te ayudan a identificar si robots.txt esta bloqueando paginas importantes o si hay problemas de rendimiento que afectan al rastreo.

La seccion "Cobertura del indice" muestra que paginas estan indexadas, cuales estan excluidas y por que. Si ves paginas importantes marcadas como "Bloqueada por robots.txt", es una señal clara de que tu archivo necesita revision.

Ademas, el informe "Estadisticas de rastreo" (disponible para propiedades de dominio verificadas) muestra metricas detalladas: solicitudes de rastreo, tamaño de descarga, tiempo de respuesta y codigos de estado HTTP. Analizar estos datos mensualmente te permite detectar problemas de rastreo antes de que afecten al posicionamiento.

robots.txt y crawlers de IA en 2026

Con la proliferacion de modelos de lenguaje y herramientas de IA que rastrean la web para entrenar sus modelos, robots.txt ha adquirido una nueva relevancia. Crawlers como GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended y otros pueden bloquearse con directivas User-agent especificas. Muchos sitios web han actualizado sus archivos robots.txt para controlar que crawlers de IA tienen acceso a su contenido.

Es importante distinguir entre bloquear el rastreo para indexacion en buscadores (que afecta a tu SEO) y bloquear crawlers de IA para entrenamiento de modelos (que no afecta al SEO). Puedes permitir Googlebot para mantener tu posicionamiento en Google mientras bloqueas GPTBot si no quieres que tu contenido se use para entrenar modelos de lenguaje.

Sin embargo, robots.txt sigue siendo un mecanismo voluntario: los crawlers maliciosos o no conformes simplemente lo ignoran. Para proteccion real del contenido, necesitas medidas tecnicas adicionales como rate limiting, deteccion de bots por comportamiento o proteccion a nivel de servidor.

Automatizar la validacion de robots.txt

Para sitios que actualizan frecuentemente su archivo robots.txt, es recomendable incluir validacion automatica en el pipeline de CI/CD. Existen linters especificos para robots.txt que verifican la sintaxis, detectan directivas conflictivas y alertan sobre reglas potencialmente peligrosas como Disallow: / aplicado a todos los user-agents.

Tambien puedes crear tests automatizados que verifiquen que las URLs criticas de tu sitio no estan bloqueadas accidentalmente. Un test simple que parsee robots.txt y compruebe que tus URLs de producto, blog y landing pages estan accesibles puede evitar desastres de SEO causados por cambios inadvertidos.

Google ofrece una libreria open source llamada robots.txt-parser que implementa las mismas reglas de parseo que Googlebot. Usar esta libreria en tus tests garantiza que tu interpretacion del archivo coincide con la de Google, eliminando ambiguedades sobre que URLs estan realmente bloqueadas.

Ejemplos de robots.txt para diferentes tipos de sitio

Para un blog o sitio de contenido, el robots.txt ideal permite el rastreo completo y solo bloquea rutas administrativas, paginas de busqueda interna y assets no indexables. Es importante no bloquear las hojas de estilo CSS ni los archivos JavaScript, ya que Google necesita renderizar la pagina para evaluarla.

Para un ecommerce, ademas de las rutas administrativas, conviene bloquear las paginas de filtros facetados (por ejemplo, /productos?color=rojo&talla=M) que generan miles de combinaciones de URLs con contenido duplicado. Sin embargo, las categorias principales y las fichas de producto deben estar siempre accesibles.

Para un SPA (Single Page Application) que renderiza contenido con JavaScript, es critico no bloquear ningun recurso JS necesario para el renderizado. Si Googlebot no puede ejecutar tu JavaScript, vera una pagina vacia y no indexara ningun contenido.

Conclusión

El archivo robots.txt es pequeño pero poderoso. Bien configurado, optimiza cómo los buscadores rastrean tu sitio y protege páginas que no necesitan ser indexadas. Mal configurado, puede hacer invisible tu web en Google. Usa nuestro generador de robots.txt para crear el tuyo en segundos y verificarlo antes de publicar.

¿Te ha sido útil este artículo?

Suscríbete a la newsletter mensual: un correo cuando publicamos algo igual de útil. Sin spam.

¿Te ha gustado?

Compártelo con alguien a quien le pueda ser útil.

Los comentarios se activarán próximamente. ¿Quieres compartir algo sobre este artículo? Escríbenos en /contacto.

Continuar leyendo

SEO