Dominar el rastreo de su sitio web.

Arañas web: lo bueno y lo malo
Las arañas web, rastreadoras o bots, son programas informáticos que continuamente «visitan» y rastrean páginas web para recopilar cierta información de ellos y sobre ellos. Dependiendo del propósito del rastreo, se pueden distinguir los siguientes tipos de arañas:- Las arañas de los motores de búsqueda
- Arañas de servicios web
- Arañas piratas.
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) or
- Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/).
Descripción del presupuesto de rastreo
El presupuesto de rastreo es el número de veces que una araña de un buscador llega a su sitio web durante un período de tiempo determinado. Por ejemplo, Googlebot suele llegar a mi sitio unas 1.000 veces al mes, puedo decir que 1K es mi presupuesto de rastreo mensual para Google. Tenga en cuenta que no hay límite universal en cuanto al número y la frecuencia de estos rastreos; Llegaremos a los factores que forman su presupuesto de rastreo en un momento. ¿Por qué el presupuesto de rastreo es importante? Bastante lógicamente, debe preocuparse por el presupuesto de rastreo porque desea que Google descubra la mayor cantidad posible de páginas importantes de su sitio. También desea que encuentre nuevos contenidos en su sitio rápidamente. Cuanto mayor sea el presupuesto de rastreo (y cuanto más inteligente sea su gestión), más rápido esto sucederá. Determinación del presupuesto de rastreo Puede obtener una idea del presupuesto de rastreo de su sitio en Google Search Console y Bing Webmaster Tools. Los datos de rastreo que obtendrá en estas herramientas son muy generales, pero suficientes para este paso. Supongamos que necesita determinar su presupuesto de rastreo de Google. Inicie sesión en su cuenta de Search Console y vaya a Crawl -> Crawl Stats. Aquí, verá el número promedio de páginas de su sitio rastreadas por día.
- /var/log/httpd/access_log
- /var/log/apache2/access.log
- /var/log/httpd-access.log
- Popularidad: las páginas más populares se rastrean más a menudo, y
- Staleness: Google no permite que la información sobre las páginas se vuelva obsoleta. Para los webmasters, significa que si el contenido de una página se actualiza a menudo, Google intenta rastrear la página con más frecuencia.

Cómo aprovechar al máximo su presupuesto de rastreo

- Asegúrese de que las páginas importantes pueden rastrearse y el contenido que no proporciona valor si se encuentra en la búsqueda está bloqueado.

- Ejecute la herramienta (si todavía no tiene Auditor de sitio web, puede descargarlo gratis aquí) y crear o abrir un proyecto.
- Vaya a la pestaña Páginas y haga clic en el icono Robots.txt. Verá el contenido actual del archivo robots.txt.
- Para agregar una nueva regla a su robots.txt, haga clic en Agregar regla. El software le permitirá elegir una instrucción (inhabilitar o permitir), una araña (puede introducir su nombre manualmente o seleccionar de una lista de los bots de búsqueda más difundidos) y una URL o directorio que debe bloquear.
- Del mismo modo, también puede eliminar y editar las reglas existentes.
- Cuando haya terminado de editar, haga clic en Siguiente y guarde el archivo en su disco duro o subirlo a su sitio a través de FTP de inmediato.

- Abra su proyecto y vaya al módulo Auditoría del sitio.
- Haga clic en Páginas con redireccionamiento 302 y Páginas con redireccionamiento 301 para obtener una lista completa de páginas redireccionadas.
- Haga clic en Páginas con largas cadenas de redireccionamiento para obtener una lista de URL con más de 2 redirecciones.


- En el proyecto Auditor de sitio Web, vaya al módulo Auditoría de sitio.
- Haga clic en Páginas con código de estado 4xx para obtener una lista de páginas 4xx, si las hubiera. Copie las URL en un archivo separado (una hoja de cálculo o cualquier editor de texto regular).

- Haga clic en Páginas con redireccionamiento 301 para obtener una lista de 301 páginas. Copia esos, también.
- Haga lo mismo para Páginas con redireccionamiento 302.
- Haga clic en Páginas con rel = ‘canonical’ para obtener una lista de páginas canónicas y no canónicas. Agregue estas URL a su lista también.
- Utilice el filtro rápido para buscar las URL 4xx, 3xx y no canónicas que acaba de copiar y desmarque las casillas junto a esas páginas.
- Ajuste la prioridad y la frecuencia de cambio. Estos ajustes son opcionales, pero pueden ayudarlo a dirigir bots de búsqueda a las páginas más importantes y actualizadas con más frecuencia de su sitio. Por ejemplo, normalmente daría la máxima prioridad a su página de inicio, a las páginas de categorías ya las subcategorías.

Etiquetas:dominar rastreo, estadísticas de rastreo, herramientas de SEO, vínculos internos
"Trackback" Enlace desde tu web.