Uno de los aspectos cruciales para poder trabajar el SEO técnico es saber identificar a GoogleBot y conocer en detalle cómo se comporta el robot de búsqueda de Google dentro de nuestra página.
Es importante conocer cuándo nos visitan los robots y qué rutas siguen dentro de nuestra web de tal forma que podamos optimizar sus caminos para favorecer la indexación de páginas/secciones con alto valor.
También podemos bloquear el acceso a robots que no nos interesen y que puedan consumir recursos en exceso.
Rutas que siguen los robots de búsqueda
Como ha confirmado Google, el criterio principal de rastreo de sus robots se basa en la popularidad de las URLs:
Las URL que son más populares en Internet tienden a rastrearse con mayor frecuencia para mantenerlas más frescas en nuestro índice.
Básicamente si tenemos un mejor enlazado interno y externo y se trata de contenido dinámico y actualizado, tendremos más posibilidades de que los robots nos rastreen con una mayor frecuencia.
Si Google no lo visita con frecuencia, quizá no aporte valor
John Mueller hizo un comentario bastante interesante en Twitter. Si detectamos un contenido que no es visitado con frecuencia por Google, quizá es que no tiene suficiente valor y tendríamos que replantearnos optimizarlo o eliminarlo.
Sure, that can happen. If we don't crawl then that often, usually that's a sign that we didn't think they were that important, which might help confirm that they were ok to remove.
— 🍌 John 🍌 (@JohnMu) August 15, 2018
Para páginas grandes con millones de páginas indexadas, optimizar el rastreo por parte de los robots de búsqueda -conocido como crawl budget- es crucial para garantizar que se rastrea e indexa el contenido que realmente aporta valor.
Cómo descrubre Googlebot nuevas páginas
Hay varias formas de que Googlebot identifique y rastree las páginas de nuestro sitio:
- Sigue un enlace interno o externo
- Sigue un enlace desde un fichero Sitemap XML
- Se envía a través de Google Search Console