Una discusión en San Francisco sobre proveedores de IA «éticos» ha destacado la creciente tensión entre las compañías de IA y los editores de sitios web. El debate se centra en cómo las empresas de IA cosechan datos web para capacitar a sus modelos y alimentar sus chatbots, a menudo sin devolver el tráfico a las fuentes de contenido originales.
Medir el desequilibrio con una relación rastreo a referente
Durante años, la Web ha operado en un acuerdo no escrito: los sitios web permiten a los bots de los motores de búsqueda rastrear su contenido a cambio del tráfico de referencias, lo que impulsa a los usuarios e ingresos. Los chatbots de IA generativos interrumpen este modelo proporcionando respuestas directas, reduciendo la necesidad de que los usuarios visiten el sitio web de origen. Para cuantificar este cambio, Cloudflare, que admite aproximadamente el 20% de los sitios web del mundo, ha comenzado a rastrear una «relación rastreo-referente». Esta métrica compara cuántas veces los bots de una empresa acceden a un sitio web para obtener datos contra la cantidad de usuarios humanos que se refiere a ese sitio. Una alta relación indica que una empresa está tomando muchos más datos que el valor que devuelve en el tráfico.
Cómo se comparan las diferentes empresas de IA
Los datos de la primera semana de septiembre revelaron diferencias significativas entre las empresas. Anthrope, el fabricante del Claude Chatbot, mostró una relación de rastreo a referencias particularmente alta. En respuesta a los hallazgos, Anthrope dijo que no podía confirmar las cifras de Cloudflare y señaló que una nueva función de búsqueda web lanzada a principios de este año está generando una cantidad de tráfico de referencia en rápido crecimiento. Operai no respondió a las solicitudes de comentarios. La perplejidad, otro motor de respuesta de IA, proporcionó una declaración detallada sobre el asunto.
En el caso del contenido público, los editores pueden optar por no hacer público su contenido. En el caso de los hechos, la ley de derechos de autor, como saben, siempre ha trazado una línea entre hechos y expresión. Esa es una base de la investigación humana en sí.
Una nota metodológica establece que estas relaciones solo rastrean la actividad web y excluyen el tráfico de las aplicaciones nativas, lo que podría reducir los números generales. Sin embargo, la metodología se aplica consistentemente a todas las empresas.
El impacto en los propietarios de sitios web y el rol cambiante de Google
Esta recopilación de datos a gran escala tiene costos directos para los propietarios de sitios web. Un informe de negocios interno de hace aproximadamente un año señaló que el rastreo de bots antrópicos y de OpenAI estaba causando aumentos significativos en los costos de tráfico para algunos sitios, y un desarrollador informaba que las facturas que compiten la nube de su cliente se habían duplicado. La relación rastreo a referente de Google es actualmente más baja que muchas compañías de IA primero, en gran parte porque sus resultados de búsqueda tradicionales aún se vinculan a los sitios web. Sin embargo, a medida que Google integra más respuestas directas de IA a través de características como las descripciones de IA, su relación es fluctuante. Los datos de CloudFlare mostraron que la relación de Google aumentó de 3.3: 1 en enero a 18: 1 en abril, antes de establecerse a las 9: 1 en julio. Google ha declarado que sigue comprometido a enviar tráfico a la web.





