Click acá para ir directamente al contenido
Aumentan sitios que bloquean rastreadores de inteligencia artificial

Aumentan sitios que bloquean rastreadores de inteligencia artificial

El caso de Reddit, que bloqueó a todos los rastreadores exceptuando a Google - con quienes tienen un acuerdo - muestra cómo ha crecido el descontento con las compañías de IA que usan libremente contenidos de la web para entrenar sus modelos.

<

El rechazo al rastreo masivo de contenidos en Internet para entrenar modelos de Inteligencia Artificial se ha visto reflejado en un aumento de sitios que están bloqueando a los "scrapers", o bots que realizan el rastreo.

Un estudio de Data Provenance Initiative, un grupo de investigadores del MIT y universidades alrededor del mundo encontró que en el último año "ha habido un crecimiento rápido de las restricciones de datos desde fuentes en la web" para evitar que los sistemas de IA entrenen con sus contenidos.

En específico, un 5% de los 14.000 sitios analizados habían modificado su archivo robots.txt para bloquear específicamente a bots de rastreo de IA. Puede parecer poco, pero el cambio ha ocurrido casi completamente en el último año. A mediados de 2023, solo 1% de los sitios restringían el rastreo de IA.

El caso de Reddit

Uno de los casos más destacados ha sido el de Reddit, que además de bloquear robots de IA bloqueó también a todos los buscadores, excepto por Google, con quienes firmaron un acuerdo por US$60 millones anuales por uso de contenidos.

Otros buscadores como Bing o DuckDuckGo solo retornar resultados de contenidos antiguos de Reddit, obtenidos antes de que ocurriera el bloqueo el 1 de julio pasado, según confirmó Microsoft. En una declaración hecha a The Verge, Reddit dijo que el bloqueo no está relacionado con el acuerdo firmado con Google.

"Esto no está relacionado en absoluto a nuestro reciente acuerdo con Google. Hemos estado en conversaciones con múltiples buscadores. No hemos podido alcanzar acuerdos con todos, dado que algunos no pueden o no están dispuestos ha hacer promesas que se puedan cumplir respecto al uso de contenido de Reddit, incluyendo su uso para IA", señaló un vocero de la compañía.

Reddit ha estado descontento con el uso de sus contenidos para el entrenamiendo de modelos de lenguaje de IA, y ha tomado medidas agresivas para detener los rastreos. "Desafortunadamente hemos visto un aumento de entidades comerciales que rastrean Reddit y argumentan que no deben regirse por nuestros términos o políticas", escribió Reddit en junio. "Peor aún, se esconden tras robots.txt y dicen que pueden usar contenido de Reddit para cualquier caso de uso que quieran. Aunque seguimos haciendo lo que podemos para encontrar y bloquear proactivamente a estos malos actores, necesitamos hacer más para proteger las contribuciones de los Redditors", señaló la compañía.

Robots.txt

En ese mismo comunicado adelantaron que habría cambios en su archivo robots.txt. Este documento conocido como "estándar de exclusión de robots" funciona como una petición que especifica que determinados bots ignoren archivos o directorios de un sitio web cuando hacen su proceso de rastreo. Se trata de un protocolo consultivo, es decir, se basa en la confianza de que los dueños de los bots de rastreo acatarán las instrucciones contenidas en el documento, ya que podrían ignorarlas. Varias empresas han sido descubiertas ignorando este protocolo para obtener los datos de todos modos.

Medidas como las tomadas por Reddit podrían volverse más populares, dificultando la tarea a las compañías de IA y a investigadores que esperan usar contenidos de la web para entrenar sus modelos. El analisis de Data Provenance sugiere que existe un descontento de los creadores de contenidos y dueños de sitios web que no quieren que su material sea utilizado para entrenamiento de IA sin permiso ni compensación.

Comencemos a trabajar juntos

Cotiza tu proyecto con nosotros. Podemos acompañarte en el proceso y llevar tus ideas a la web.

Contáctanos