La controversia alrededor de las prácticas de web scraping de Perplexity AI es más compleja y polarizante de lo que parece a simple vista, según un informe detallado de Cloudflare y la amplia cobertura mediática. Cloudflare acusa a Perplexity de ignorar sistemáticamente las restricciones que ciertos sitios web ponen para impedir el acceso automatizado, además de disfrazar su identidad para recolectar datos de páginas que han expresamente solicitado no ser utilizadas, lo que abre un debate serio sobre ética, transparencia y el futuro del modelo de negocio en internet.

Lo que descubrió Cloudflare El informe de Cloudflare, junto a investigaciones independientes, señala que Perplexity, una startup de inteligencia artificial, estaría rastreando y extrayendo contenido de sitios que expresamente indican que no permiten la acción de herramientas de IA, ya sea mediante archivos robots.txt o bloqueos directos. Para evitar ser detectados y bloqueados, Perplexity habría usado técnicas avanzadas como cambiar el agente de usuario para parecer navegadores comunes como Google Chrome en macOS, y rotar números de sistema autónomo (ASN). Según Cloudflare, estas acciones ocurrieron en decenas de miles de dominios, generando millones de solicitudes diarias; además, pudieron identificar este rastreador utilizando aprendizaje automático y otras señales de red.

Por qué estas acusaciones importan Durante años, el archivo robots.txt ha servido como un acuerdo tácito para que los bots respeten qué contenido pueden acceder o no. Aunque no es ilegal en la mayoría de las regiones ignorar estas señales, compañías líderes en IA como OpenAI y Anthropic suelen respetarlas. La supuesta conducta de Perplexity rompe con este acuerdo no escrito, mostrando disposición a pasar por alto las restricciones de los dueños de los sitios para obtener datos de entrenamiento.

Esto sucede justo cuando Cloudflare lanzó su nuevo mercado “Pay Per Crawl”, que permite a los editores cobrar por el acceso de bots de IA y bloquea la mayoría de los rastreadores por defecto. Grandes medios como The Atlantic, BuzzFeed, Time Inc. y O’Reilly ya forman parte de esta iniciativa, y más de 2.5 millones de sitios han prohibido expresamente el uso de sus contenidos para entrenar IA.

La respuesta de Perplexity Un portavoz de Perplexity calificó el informe de Cloudflare como poco más que una estrategia comercial, alegando que las capturas de pantalla mostraban que no se accedió a ningún contenido y negando posesión del bot señalado. Posteriormente, explicaron que buena parte de estas solicitudes correspondían a búsquedas solicitadas directamente por usuarios (es decir, el agente de IA actuando a pedido humano) y no a rastreo automatizado, un punto clave en la discusión sobre qué se considera realmente scraping. Además señalaron que enfrentaron previas acusaciones similares, como casos de plagio reportados por medios como Wired, y que aún están definiendo sus propios estándares sobre uso de contenido.

Reacciones divididas e implicaciones más amplias Cloudflare defiende la necesidad de proteger los modelos de negocio de los editores, hacer cumplir las señales de bloqueo y cobrar por el acceso de IA a los contenidos. Por su parte, Perplexity argumenta que cuando un agente de IA actúa por petición de un usuario, no debe diferenciarse del comportamiento humano al navegar. En redes sociales, algunos opinan que si un usuario solicita información pública a través de Perplexity, es similar a consultarla desde un navegador tradicional como Firefox. Sin embargo, otros advierten que esto perjudica los ingresos publicitarios y el control que tienen los propietarios de los sitios sobre sus datos.

Un cambio inevitable en el modelo de negocio de internet La forma de monetizar el contenido está cambiando rápidamente: los editores están pasando de la publicidad a cobrar por el acceso, y el scraping se convierte en un mercado de pago. La transparencia y el cumplimiento ya no son opcionales; las empresas de IA enfrentan riesgos reputacionales y legales crecientes si se las descubre evadiendo bloqueos o usando contenido de manera indebida. En ese contexto, las alianzas y acuerdos de licencia entre grandes actores de la IA y editores serán clave para el futuro, desplazando la práctica del scraping furtivo.

En definitiva, ya sea que Perplexity esté siendo señalada injustamente o realmente haya violado normas web establecidas, este caso marca un punto de inflexión. La era del “dato gratis” para la inteligencia artificial está llegando a su fin. Aspectos éticos, económicos y plataformas de control como Cloudflare están impulsando un cambio hacia datos pagos, mayor responsabilidad y colaboraciones sostenibles con los creadores de contenido. Si las empresas de IA no se adaptan, se enfrentarán a un internet fragmentado, cerrado y de pago, algo que transformará profundamente la base del mundo digital.

↗

fuente original

https://www.marktechpost.com/2025/08/08/cloudflare-vs-perplexity-the-battle-over-ai-web-scraping-heats-up/

ver →

etiquetas:web scraping inteligencia artificial ética en internet protección de contenidos modelos de negocio digital cloudflare perplexity ai