Etiqueta X-Robots

Por Manu Duque

X-Robots-Tag es una directiva que se utiliza en los encabezados HTTP.

Para controlar cómo los motores de búsqueda deben indexar y gestionar el contenido de una página web.

Otros recursos no HTML, como archivos PDF, imágenes, videos, hojas de estilo (CSS) y scripts JavaScript.

Este encabezado ofrece una forma más flexible y avanzada.

De indicar a los motores de búsqueda cómo deben tratar el contenido de un sitio.

Especialmente en situaciones donde las etiquetas robots tradicionales.

De metaetiquetas HTML no son aplicables.

¿Qué es el X-Robots-Tag?

La directiva X-Robots-Tag es un encabezado HTTP que permite especificar a los motores de búsqueda.

Reglas sobre cómo tratar el contenido de una página o recurso.

Esta etiqueta proporciona las mismas funcionalidades que la metaetiqueta robots.

Con una mayor flexibilidad, ya que se puede aplicar a cualquier tipo de archivo.

Que responda con encabezados HTTP, no solo a documentos HTML.

¿Por Qué Utilizar X-Robots-Tag?

Control Avanzado de Indexación

Permite un control más granular y avanzado de cómo los motores de búsqueda deben indexar.

Manejar diferentes tipos de contenido, no limitado únicamente a páginas HTML.

Aplicable a Recursos No HTML

Se puede utilizar para controlar la indexación de archivos.

Como PDF, imágenes, videos, y otros recursos.

Que no soportan etiquetas meta robots directamente.

Flexibilidad en el Control de Indexación

Es útil para aplicar reglas de indexación a nivel de servidor.

Especialmente cuando se necesita una administración masiva.

Automatizada de la indexación de contenidos.

Optimización de Crawl Budget

Permite una mejor administración del presupuesto de rastreo.

Al evitar que los motores de búsqueda rastreen recursos innecesarios o irrelevantes.

Optimizando así la eficiencia del rastreo.

Sintaxis del Encabezado X-Robots-Tag

La directiva X-Robots-Tag se incluye en la respuesta HTTP de un servidor web.

Ejemplo básico de cómo se puede configurar en el encabezado HTTP:

X-Robots-Tag: noindex, nofollow

noindex

Indica a los motores de búsqueda que no deben indexar la página o recurso.

nofollow

Indica a los motores de búsqueda que no deben seguir los enlaces.

Contenidos en la página o recurso.

Principales Valores Utilizados en X-Robots-Tag

noindex

Evita que el recurso sea indexado por los motores de búsqueda.

nofollow

Indica que los motores de búsqueda no deben seguir los enlaces en el recurso.

noarchive

Indica que el recurso no debe ser almacenado en caché por los motores de búsqueda.

nosnippet

Indica que los motores de búsqueda no deben mostrar un fragmento o descripción.

Del contenido en los resultados de búsqueda.

noimageindex

Evita que las imágenes del recurso se indexen.

En los resultados de búsqueda de imágenes.

nocache

Evita que el recurso sea almacenado en la caché del navegador o motor de búsqueda.

unavailable_after:[fecha]

Especifica una fecha después de la cual el recurso ya no estará disponible para su indexación.

unavailable_after: 30 Sep 2024 12:00:00 PST.

Ejemplos de Uso del X-Robots-Tag

Aplicar `X-Robots-Tag` a un Archivo PDF

Si tienes un archivo PDF que no deseas que sea indexado por los motores de búsqueda, puedes utilizar el encabezado X-Robots-Tag de la siguiente manera:

HTTP/1.1 200 OK
Content-Type: application/pdf
X-Robots-Tag: noindex

Evitar la Indexación de Imágenes

Para evitar que una imagen específica se indexe, puedes utilizar:

HTTP/1.1 200 OK
Content-Type: image/png
X-Robots-Tag: noindex

Uso en Hojas de Estilo o JavaScript

Si deseas que ciertas hojas de estilo o archivos JavaScript no sean indexados.

Almacenados en caché por los motores de búsqueda.

Puedes configurarlo así:

HTTP/1.1 200 OK
Content-Type: text/css
X-Robots-Tag: noindex, noarchive

Controlar la Indexación Después de una Fecha Específica

Para indicar que un recurso no debe ser indexado después de una fecha determinada:

HTTP/1.1 200 OK
X-Robots-Tag: unavailable_after: 30 Sep 2024 12:00:00 PST

Cómo Implementar X-Robots-Tag en Distintos Servidores

Apache

En un servidor Apache, se puede utilizar el archivo .htaccess para agregar el encabezado X-Robots-Tag:

<FilesMatch «\.(pdf|jpg|png)$»>
Header set X-Robots-Tag «noindex, nofollow»
</FilesMatch>

NGINX

En NGINX, el encabezado se puede agregar a través del archivo de configuración del servidor:

location ~* \.(pdf|jpg|png)$ {
add_header X-Robots-Tag «noindex, nofollow»;
}

Beneficios del Uso de X-Robots-Tag

Mayor Control y Flexibilidad

Permite controlar la indexación y el rastreo de recursos.

Que no pueden gestionarse fácilmente con metaetiquetas robots.

Como archivos multimedia y documentos.

Protección del Contenido Sensible

Evita que contenido confidencial o sensible sea indexado por motores de búsqueda.

Reduciendo así el riesgo de exposición no intencional.

Optimización del Crawl Budget

Ayuda a mejorar la eficiencia del presupuesto de rastreo de los motores de búsqueda.

Dirigiendo su atención solo a las páginas y recursos importantes.

Mejora de la Experiencia del Usuario

Evita que los usuarios encuentren contenido desactualizado.

Irrelevante o duplicado en los resultados de búsqueda.

Consideraciones Importantes

Compatibilidad Limitada

Algunos motores de búsqueda más pequeños pueden no soportar completamente el encabezado X-Robots-Tag.

Aunque los motores principales como Google y Bing lo reconocen.

Aplicación Cuidadosa

Debe aplicarse con precaución para evitar desindexar accidentalmente contenido importante o relevante.

Uso Combinado con Otras Herramientas

Puede ser utilizado en combinación con robots.txt y metaetiquetas robots

Para un control más detallado y efectivo de la indexación.

X-Robots-Tag es una herramienta poderosa y flexible.

Permite a los propietarios de sitios web controlar.

Cómo los motores de búsqueda deben indexar, rastrear y mostrar contenido.

Ofrece una mayor flexibilidad en comparación con las metaetiquetas robots.

Especialmente para manejar la indexación de recursos no HTML.

Su uso adecuado puede mejorar significativamente la estrategia de SEO de un sitio web.

Optimizando el crawl budget, protegiendo contenido sensible.

Garantizando que solo el contenido relevante.

Útil se muestre en los resultados de búsqueda.

Te puede interesar;

Herramientas de Link Building y Análisis de Enlaces

Plataformas de Linkbuilding para Crear Enlaces

Google Core Updates: Actualizaciones del Algoritmo de Google

Herramientas SEO Profesionales

Motores de Búsqueda Alternativos a Google