Question 1

¿Qué es un archivo robots.txt?

Accepted Answer

Es un archivo de texto plano que se coloca en la raíz de tu sitio web (https://tudominio.com/robots.txt) para indicar a los rastreadores de buscadores qué páginas pueden o no pueden rastrear. Forma parte del protocolo de exclusión de robots, un estándar que respetan Google, Bing, Yahoo y la mayoría de bots legítimos.

Question 2

¿Dónde debo colocar el archivo robots.txt?

Accepted Answer

Debe estar exactamente en la raíz de tu dominio: https://tudominio.com/robots.txt. Los buscadores lo buscan automáticamente en esa ubicación y solo en esa. Un robots.txt en un subdirectorio (como /blog/robots.txt) no será detectado. Si tienes subdominios, cada uno necesita su propio archivo.

Question 3

¿robots.txt bloquea la indexación de una página?

Accepted Answer

No necesariamente. robots.txt impide el rastreo, pero Google puede indexar una URL si la encuentra enlazada en otros sitios, mostrándola en resultados con el mensaje 'No hay información disponible para esta página'. Para evitar la indexación por completo, usa la etiqueta meta robots con el valor noindex o la cabecera HTTP X-Robots-Tag.

Question 4

¿Qué pasa si mi sitio no tiene robots.txt?

Accepted Answer

Si no existe el archivo, los buscadores asumen que pueden rastrear todas las páginas de tu sitio. No tener robots.txt no es un error y no penaliza el SEO. Sin embargo, es recomendable tener uno para incluir al menos la URL del sitemap y controlar el acceso a carpetas que no aportan valor al rastreo, como /admin, /tmp o /api.

Question 5

¿Cuál es la diferencia entre Disallow y noindex?

Accepted Answer

Disallow en robots.txt impide que el bot rastree (visite) una URL, pero no impide que la indexe si la descubre por otros medios. La directiva noindex (como meta tag o HTTP header) permite que el bot rastree la página pero le indica que no la muestre en resultados. Para bloquear completamente una página de los resultados, usa noindex. Importante: no combines Disallow con noindex para la misma URL, porque si bloqueas el rastreo, el bot no podrá leer la etiqueta noindex.

Question 6

¿robots.txt puede usarse como medida de seguridad?

Accepted Answer

No. robots.txt es una directiva que los bots legítimos respetan voluntariamente, pero cualquiera puede leer su contenido y los bots maliciosos lo ignoran. Nunca uses robots.txt para ocultar información sensible como paneles de administración o datos privados. Para proteger contenido, usa autenticación, permisos de servidor y firewalls.

Generador de robots.txt

Qué es robots.txt y por qué importa para el SEO

Directivas principales del robots.txt

Errores comunes al configurar robots.txt

Cómo afecta al presupuesto de rastreo

Ejemplos prácticos según tipo de sitio

Preguntas frecuentes

Herramientas relacionadas

Generador de Meta Tags

Testador de Expresiones Regulares

Lecturas relacionadas

Robots.txt: guía completa

Sitemap.xml: qué es y cómo crearlo

Meta tags y SEO técnico