Cómo bloquear el rastreador de las inteligencias artificiales

Publicado el 06/11/2023 3 minutos de lectura SEO

Los chatbots actuales, como ChatGPT y Google Bard, son capaces de generar texto, traducir idiomas, escribir diferentes tipos de contenido creativo y responder a preguntas de forma informativa. Sin embargo, también pueden ser utilizados para fines maliciosos, como la difusión de información falsa o la recopilación de datos personales.

Para protegernos de estos riesgos, es importante bloquear el rastreo a los robots de búsqueda de los chatbots. Esto se puede hacer, a día de hoy, bloqueando el acceso de sus rastreadores a través del fichero robots.txt.

¿Qué es un rastreador?

Un rastreador web, también conocido como araña web o bot web, es un programa informático que navega sistemáticamente por Internet, visitando páginas web y recopilando (extrayendo) datos de ellas. Los rastreadores web se utilizan principalmente para indexar el contenido web para los motores de búsqueda y para recopilar datos para el entrenamiento de IA.

La realidad es que en muchos casos los chatbots ignoran esta directiva y acceden a nuestros contenidos, aún así, es la única medida propuesta por los desarrolladores a día de hoy.

Bloquear el rastreo de ChatGPT

ChatGPT, de OpenIA, utiliza el robot de rastreo GTPbot, el cuál puede ser bloqueado con la siguiente instrucción desde el fichero robots.txt:

User-agent: GPTBot
Disallow: /

También tenemos la opción de identificar el user-agent de la visita a nuestra página y bloquear si detectamos que se trata de ChatGPT-User. o bloquear las IPs que utilizan. Todas las medidas pueden convivir.

Tanto las IPs como el user-agent pueden cambiar, por lo que la medida más escalable en el tiempo será bloquear a través del robots.txt.

Bloquear el rastreo de Google Bard y Vertex AI

Ambas aplicaciones, de Google, y las futuras que estén relacionadas con la inteligencia artificial, pueden ser bloqueadas a través del fichero robots.txt. Al igual que el caso de GTPbot, podemos bloquear al rastreador Google-Extended, que es el que utilizan estas aplicaciones. Os dejo el listado de user-agents que utiliza Google.

User-agent: Google-Extended
Disallow: /

Mucho cuidado con utilizar otro user-agent que no sea el asociado a estas dos aplicaciones, ya que podríamos provocar la desindexación de nuestra página. Recordad las consecuencias de bloquear el Javascript y el CSS a los robots de búsqueda.

Si preferimos bloquear al robot con otros métodos más fiables que no sea a través del fichero robots.txt tendremos que identificar a Googlebot y asegurarnos que se trata de Google-Extended. Una vez que tengamos esa certeza, podemos generar una respuesta de error 404 o de prohibido el acceso 403.

Bloquear otros robots de IA

Además de los dos antes expuestos, podemos seguir las mismas instrucciones para bloquear los siguientes:

CCBot
Anthoropic IA
Cohere-ai

Bloquear el acceso a SGE (búsqueda generativa de Google)

En este caso ya no estamos hablando de un chatbot sino de la búsqueda generativa de Google, una respuesta de inteligencia artificial que se incluye directamente en la página de resultados. Por desgracia esta respuesta se basa en el rastreo e indexación del robot principal de Google, por lo que no hay manera de evitar su acceso a no ser que no queramos aparecer en Google.

Además de bloquear a los rastreadores de chatbots e inteligencias artificiales, existen listados de robots spam que consumen nuestros recursos ni aportarnos ningún valor. Os recomiendo bloquearlos.

Seguimiento de medios digitales que han bloqueado a los chatbots existentes

El proyecto News Websites Blocking LLM Dataset Bots - Research Data está haciendo seguimiento de la postura de los grandes medios digitales frente a los rastreadores de IA. Actualmente, en España sólo un medio bloquea a los rastreadores frente al 50% de los medios en EEUU.