Ni Google ni Bing aceptan usar expresiones regulares en los ficheros robots.txt no obstante, sí permiten hacer uso de dos caracteres a modo de comodines: son el *
y el $
.
- El asteristo
*
nos permitirá identificar 0 o más apariciones de cualquier término. - El dólar
$
nos permitirá identificar el final de una cadena.
Por ejemplo, si queremos evitar el rastreo de todas las URLs que contengan el término perros
lo podemos hacer de la siguiente manera.
User-agent: *
Disallow: /*perros
Si únicamente quisiéramos bloquear el rastreo de las páginas que terminan en perros
lo haríamos de la siguiente manera. Esto no afectaría a otras páginas que incluyeran dicho término en la URL, como por ejemplo perros-grandes
ya que no terminan de la forma que hemos indicado.
User-agent: *
Disallow: /*perros$
Es importante recordar que las reglas que transmitimos a través del robots.txt son directivas que pueden ser ignoradas por los buscadores y que sólo sirven para ajustar el rastreo de una página, pero no su indexación. Si realmente queremos evitar una indexación, deberemos utilizar la etiqueta noindex.
Por último, si bloqueamos el rastreo de ficheros clave para nuestra visualización mobile, podría afectar a nuestro posicionamiento, por lo que hay que ser muy cautos con los ficheros y páginas que queremos evitar que sean rastreados por los robots de búsqueda.