Google permitirá a los administradores bloquear sus webs a las páginas de entrenamiento de inteligencia artificial.

03/10/2023

Después de que OpenAI anunciara que los administradores de páginas webs pueden bloquear sus contenidos para que no sean usados en el entrenamiento de su inteligencia artificial mediante la actualización del fichero robots.txt, Google también busca proporcionar a los administradores webs más control sobre sus datos, permitiendo o no su rastreo.

Como ha explicado Google:

“Hoy presentamos Google-Extended, un nuevo control que los publicadores de webs pueden usar para gestionar si sus sitios ayudan a las APIs generativas de Bard y Vertex Ai, incluidas las generaciones futuras de modelos que impulsan estos productos.. Al usar Google-Extended para controlar el acceso a contenido de un sitio, el administrador, puede elegir si desea ayudar a que estos modelos de IA sean más precisos y capaces con el tiempo.”

Lo cual es similar a lo que ha comunicado la OpenAI documentation al intentar conseguir que más sitios permitan el acceso a sus datos con la promesa de mejorar sus modelos.

“El contenido recuperado solo se utiliza en el proceso de entrenamiento de nuestros modelos a cómo responder una petición de un usuario dado este contenido (p.ej. mejorar nuestros modelos en navegación), no para mejorar nuestros modelos al crear respuestas .”

Está claro que ambas inteligencias, Google y OpenAI, quieren alimentarse de la mayor cantidad de información posible de los sitios abiertos. Pero la capacidad de bloquear el acceso, ha llevado a muchos publicadores y creadores de contenido web a proteger su contenido, lo cual tiene un impacto negativo en los sistemas de IA.

Y a medida que se debate la regularización del la IA, las grandes compañías cada vez tienen más claro que el punto crítico es la creación de conjuntos de datos que se utilizarán en la creación de los modelos.

Por supuesto ya es tarde para algunos sitios web ya que por ejemplo OpenAI, está construyendo su modelo GPT (hasta el GPT-4) con los datos extraídos antes del 2021. Algunos modelos de lenguaje (LLMs) se construyeron antes de que se publicaran esta posibilidad de bloqueo. Pero si miramos hacia adelante, cada vez habrá menos sitios webs que se podrán utilizar para el entrenamiento de modelos.

Habrá que ver también si la IA afecta a la Optimización para motores de búsqueda (SEO) que son las estrategias y técnicas de optimización que usan las páginas webs para aparecer en los buscadores de internet como Google, Bing, Youtube. Podría pasar que, como está aumentando el uso de la IA en búsqueda de contenidos, los sitios webs quisieran incluirse en las bases de datos de IA y así mejorar su posicionamiento al aparecer en búsquedas relevantes.

Igualmente, es lógico que Google se alinee con estas discusiones sobre el uso de la IA y permita a los administradores de sitios web la posibilidad de permitir el uso o no uso de sus contenidos, antes de que haya una ley sobre el uso de la IA.

Además Google destaca que a medida que aumente el número de aplicaciones de IA, los creadores de contenidos webs tendrán que enfrentarse a nuevos retos en el manejo de la información y que ellos estarán abiertos a cualquier colaboración que acerque los puntos de vista de las comunidades de IA y los gestores web.

Puedes aprender más acerca de como bloquear los sistemas de rastreo de IA de Google aquí. (En inglés)

O también puedes enviarnos un mensaje si quieres que te ayudemos a implementarlo en tu sitio web.

Comparte el artículo: