La inteligencia artificial y el tráfico web

La inteligencia artificial y el tráfico web

El asistente virtual viral Openclaw, antes conocido como Moltbot, y previamente como Clawdbot, es un símbolo de una revolución más amplia que podría alterar radicalmente el funcionamiento de internet. En lugar de ser un sitio habitado principalmente por humanos, la web podría estar muy pronto dominada por bots autónomos de inteligencia artificial.

Un nuevo informe que mide la actividad de los bots en internet, así como datos relacionados compartidos con la revista Wired por la empresa de infraestructuras de internet Akamai, muestra que los bots de IA ya representan una parte significativa del tráfico web.

Los resultados también arrojan luz sobre una carrera armamentística cada vez más sofisticada que se desarrolla a medida que los bots despliegan tácticas inteligentes para eludir las defensas de los sitios destinadas a mantenerlos alejados.

Datos preocupantes

“En el futuro, la mayor parte de internet será tráfico de ‘bots’”, vaticina Toshit Pangrahi, cofundador y CEO de Tollbit, una empresa que rastrea la actividad de web-scraping (raspado) y ha publicado el nuevo informe. “No es solo un problema de derechos de autor, está surgiendo un nuevo visitante en internet”, indican.

La mayoría de los grandes sitios intentan limitar el contenido que los bots pueden raspar y alimentar a los sistemas de IA con fines de entrenamiento. La empresa matriz de Wired, Condé Nast, así como otros editores, están demandando actualmente a varias compañías de IA por supuestas infracciones de derechos de autor relacionadas con el entrenamiento de inteligencia artificial.

Sin embargo, también está aumentando otro tipo de scraping de sitios web relacionado con la IA. Muchos chatbots y otras herramientas de IA pueden ahora recuperar información de la web en tiempo real y utilizarla para aumentar y mejorar sus resultados. Esto puede incluir precios actualizados de productos, horarios de cines o resúmenes de las últimas noticias. Según los datos de Akamai, el tráfico de bots relacionados con la formación no ha dejado de aumentar desde el pasado mes de julio. Mientras tanto, la actividad global de los bots que buscan contenido web para los agentes de IA también está en alza.

“La IA está cambiando la ‘web’ tal y como la conocemos”, asegura a Wired Robert Blumofe, director de tecnología de Akamai. “La carrera que se avecina determinará el futuro aspecto, la sensación y la funcionalidad de la ‘web’, así como los aspectos básicos de hacer negocios.”

La invasión de los bots

En el cuarto trimestre de 2025, Tollbit estima que una media de una de cada 50 visitas a los sitios de sus clientes procedía de un bot de IA de scraping. En los tres primeros meses de 2025, esa cifra fue de solo una de cada 200. La empresa señala que, en el cuarto trimestre, más del 13 % de las solicitudes de bots se saltaban el robots.txt, un archivo que algunos sitios web utilizan para indicar qué páginas deben evitar los bots. Tollbit indica que la proporción de bots de IA que ignoraron robots.txt aumentó un 400 % entre el segundo y el cuarto trimestre del año pasado; también informó de un aumento del 336% en el número de sitios que intentaron bloquear los robots de IA durante el año pasado. Según Pangrahi, las técnicas de scraping son cada vez más sofisticadas, ya que los sitios intentan controlar el acceso de los bots a sus contenidos. El estudio de Tollbit señala que el comportamiento de algunos agentes de IA es ahora casi indistinguible del tráfico web humano.

Qué dicen los dueños de los bots

Wired intentó ponerse en contacto con 15 empresas de AI scraping citadas en el informe de TollBit para obtener comentarios. La mayoría no respondió o no fue posible contactar con ellas. Varias manifestaron que sus sistemas de inteligencia artificial intentan respetar los límites técnicos que los sitios establecen para limitar el scraping, pero señalaron que estas barreras pueden ser a menudo complejas y difíciles de seguir.

Or Lenchner, director general de Bright Data, una de las mayores empresas de web scraping del mundo, afirma que los robots de su empresa no recopilan información no pública. Bright Data fue demandada anteriormente por Meta y X por presunta sustracción indebida de contenidos de sus plataformas.(Meta retiró posteriormente su demanda, y un juez federal de California desestimó el caso presentado por X.)

Karolis Stasiuleviciu, portavoz de otra de las compañías citadas, Scrapingbee, declaró a Wired: “Scrapingbee se basa en uno de los principios fundamentales de internet: la ‘web’ abierta debe ser accesible. Las páginas públicas son, por su diseño, legibles tanto por humanos como por máquinas”.

Oxylabs, otra empresa de scraping, afirmó en un comunicado sin firma que sus robots no “acceden a contenidos que se encuentren tras inicios de sesión, muros de pago o autenticación. Exigimos a nuestros clientes que utilicen nuestros servicios únicamente para acceder a información de acceso público, y aplicamos normas de cumplimiento en toda nuestra plataforma.” También añade que hay muchas razones legítimas para que las empresas hagan scraping de contenidos web, por ejemplo con fines de ciberseguridad y para llevar a cabo periodismo de investigación. La empresa también indica que las contramedidas que utilizan algunos sitios no discriminan entre los distintos casos de uso. “La realidad es que muchos sistemas ‘anti-bot’ modernos no distinguen bien entre el tráfico malicioso y el acceso automatizado legítimo”, reclama Oxylabs.

Nuevas herramientas

Además de causar dolores de cabeza a los editores, la guerra del web-scraping está creando nuevas oportunidades de negocio. El informe de Tollbit revela que más de 40 empresas comercializan ahora bots capaces de recopilar contenidos web para entrenar a la IA u otros fines. Es probable que el auge de los motores de búsqueda basados en IA, así como herramientas como Openclaw, estén contribuyendo a aumentar la demanda de estos servicios.

Algunas empresas prometen ayudar a las compañías a sacar a la superficie contenidos para los agentes de IA en lugar de intentar bloquearlos, una estrategia conocida como optimización generativa de motores, o GEO. “Esencialmente, estamos asistiendo al auge de un nuevo canal de ‘marketing’”, aclara Uri Gafni, director comercial de Brandlight, una empresa que optimiza contenidos para que aparezcan de forma destacada en las herramientas de IA.