Tecnología

Los sitios web luchan por frenar el robo de datos que realiza la Inteligencia Artificial para entrenarse

Cientos de sitios web intentan cada día bloquear el “data scraping”, que se refiere a la extracción de información

Los sitios web luchan por frenar el robo de datos que realiza la Inteligencia Artificial para entrenarse


Cientos de sitios web intentan cada día bloquear el “data scraping”, que se refiere a la extracción de información y metadatos mediante el uso de un software específico que simula la navegación en línea de las personas, por parte de la inteligencia artificial (IA). Sin embargo, estos esfuerzos no están dando resultados efectivos.

De acuerdo con 404Media, un ejemplo de esta situación se relaciona con la empresa Anthropic. Aunque su sitio web ha conseguido bloquear dos bots que ya no utiliza, llamados “ANTHROPIC-AI” y “CLAUDE-WEB”, aún no ha logrado detener a un nuevo bot de recolección de datos llamado “CLAUDEBOT”, que sigue extrayendo información de manera incesante.

Este problema es bastante común para los propietarios de sitios web, quienes ahora deben lidiar con la constante aparición de programas diseñados para obtener datos, que luego son utilizados para entrenar modelos de inteligencia artificial.

“El ecosistema cambia rápidamente, lo que hace prácticamente imposible que los propietarios de sitios web se mantengan al día manualmente. Por ejemplo, Apple (Applebot-Extended) y Meta (Meta-ExternalAgent) añadieron nuevos agentes recientemente”, comentó a 404Media un usuario anónimo de Dark Visitors, una página online que hace un seguimiento del panorama siempre en transformación del software utilizado por las empresas de IA para el web scraping.

Sitios web defienden sus datos ante los bots de IA

En la actualidad, los datos se han convertido en uno de los recursos más valiosos, especialmente aquellos que son esenciales para entrenar modelos de lenguaje utilizados en aplicaciones de inteligencia artificial (IA) como ChatGPT de OpenAI, Claude de Anthropic y Gemini de Google. Para protegerse, plataformas de diversas magnitudes han comenzado a implementar medidas que impiden a los bots extraer sus datos sin autorización o compensación.

Uno de los recursos más comunes en este contexto es earchivo robots.txt, que regula la actividad de los bots en busca de datos. Sin embargo, es importante destacar que este mecanismo consiste en un conjunto de instrucciones cuya aceptación es voluntaria, lo que limita su efectividad. La supervisión de estas actividades es crucial para los administradores de sitios web, ya que les permite actualizar constantemente el archivo robots.txt, que indica si un bot tiene permiso para rastrear o escanear el sitio.

LEE TAMBIÉN: Meta anuncia Movie Gen, una IA que genera videos con sonido y desafía a OpenAI

A pesar de esto, las empresas de inteligencia artificial parecen eludir este archivo para acceder a los datos necesarios para entrenar sus modelos. Como resultado, muchos propietarios de sitios web han decidido bloquear indiscriminadamente todos los crawlers, lo que puede limitar su visibilidad en los motores de búsqueda.

Sin embargo, aquellos que gestionan estos sitios están dispuestos a arriesgar su tráfico web para evitar ser “bombardeados” por los crawlers de las empresas de IA. Por ejemplo, la semana pasada, el portal de guías de reparación iFixit reportó haber sido visitado por los crawlers de Anthropic cerca de un millón de veces en un solo día.

La IA causa colapsos en los sitios web

La plataforma sin fines de lucro Internet Archive sufrió una interrupción en sus servicios debido a una inteligencia artificial que accedía de manera continua a su extenso repositorio de información. Según informa El Español, Internet Archive es una biblioteca digital que documenta la historia de Internet y alberga más de 800,000 millones de páginas.

Durante el incidente, el sitio experimentó hasta dos colapsos operativos. A través de su cuenta de Twitter, identificaron a una empresa de inteligencia artificial como responsable, mencionando que “decenas de miles de solicitudes por segundo fueron enviadas a nuestros archivos OCR de dominio público desde 64 hosts virtuales en los servicios de AWS de Amazon”.

Hasta el momento, no se ha confirmado oficialmente que la causa del problema haya sido una IA, aunque, como señala el medio, “este perfil se ajusta más a la situación”. Con el crecimiento de los modelos de inteligencia artificial, se espera que la demanda de acceso a volúmenes aún mayores de datos siga en aumento.

La recolección de datos crece en la era de la IA

Este fenómeno no parece estar en vías de cambio a corto plazo. La competencia entre las grandes empresas tecnológicas y un número creciente de startups en el desarrollo de nuevas tecnologías de inteligencia artificial ha acelerado tanto la magnitud del web scraping como los daños potenciales que este puede ocasionar. Recientemente, Google confirmó que Bard, su sistema de inteligencia artificial, se entrena con datos públicos recopilados a través de este proceso.

En una actualización de su política de privacidad, la empresa indicó que “utiliza información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que benefician a nuestros usuarios y al público”. Además, mencionó que puede “usar información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”.

Ante esta situación, muchos sitios web de acceso público han implementado políticas que prohíben la recolección de datos con el fin de entrenar modelos de lenguaje grande (LLM) y otras herramientas de inteligencia artificial. Esta creciente preocupación por el uso indebido de datos ha llevado a un diálogo sobre la necesidad de regulaciones más estrictas para proteger la información de los sitios web.

LEE TAMBIÉN: El alto costo de proteger a los CEOs de Big Tech: Meta invierte más de 10 millones en proteger a su CEO



Source link

About Author

admin

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *