Reddit tiene archivado una demanda contra la empresa de motores de respuesta Perplexity y tres proveedores de servicios de extracción de datos, SerpApi, Oxylabs y AWMProxy. La acción legal busca detener lo que la denuncia de Reddit describe como la elusión ilegal a escala industrial de su protección de datos. La denuncia alega que Perplexity es cliente de al menos una de estas empresas de extracción de datos. Reddit utiliza una metáfora para describir la supuesta actividad, comparando a los proveedores con «aspirantes a ladrones de bancos» que, al no poder acceder directamente a la «bóveda» de datos de la empresa, apuntan al «camión blindado» que transporta la información. Esto implica que los acusados acceden al contenido de Reddit a través de canales indirectos. La demanda afirma que Perplexity elige adquirir datos a través de estos medios en lugar de buscar un acuerdo de licencia directo, un camino que han tomado algunos de sus competidores. Según el expediente judicial, Reddit emitió una carta de cese y desistimiento a Perplexity en mayo de 2024, exigiéndole que dejara de extraer datos de la plataforma. Tras la entrega de esta carta, supuestamente aumentó el volumen de citas de Reddit que aparecen en el servicio de Perplexity. Para investigar más a fondo, Reddit creó una publicación en su plataforma que estaba configurada para que solo Google pudiera rastrearla. La compañía afirma que «en cuestión de horas», el motor de respuestas de Perplexity «produjo el contenido» de esta publicación específica. Reddit sostiene que la única forma en que Perplexity podría haber adquirido este contenido fue si él, o sus coacusados, eliminaron los resultados de búsqueda de Google para el contenido de Reddit y lo integraron rápidamente en su sistema.
Samsung lanza la aplicación Perplexity TV con Vision AI
El contenido generado por los usuarios de la plataforma, que consiste en publicaciones escritas y clasificadas por humanos sobre una amplia gama de temas, se ha convertido en un recurso valioso para entrenar modelos de inteligencia artificial. En 2023, Reddit implementó cambios en la API que provocaron protestas de los usuarios; La empresa posicionó estos cambios como una forma de garantizar que los desarrolladores de IA la compensaran por el uso de sus datos. Desde entonces, Reddit ha cerrado acuerdos de licencia de datos con empresas como OpenAI y Google y, según se informa, está buscando acuerdos adicionales. Este no es el primer desafío legal de Reddit en esta área; Anteriormente demandó a Anthropic, alegando que sus bots continuaron accediendo al sitio después de que la compañía hubiera declarado lo contrario. Ben Lee, director jurídico de Reddit, describió la situación como una «economía de ‘lavado de datos’ a escala industrial» impulsada por una «carrera armamentista de IA por contenido humano de calidad». Afirmó: «Los scrapers eluden las protecciones tecnológicas para robar datos y luego los venden a clientes ávidos de material de capacitación. Reddit es un objetivo principal porque es una de las colecciones de conversaciones humanas más grandes y dinámicas jamás creadas». Lee identificó a los coacusados Oxylabs UAB, AWM Proxy y SerpAI como “ejemplos de libro de texto de este comportamiento ilegal”, y los describió como un oscuro raspador lituano, una antigua botnet rusa y una empresa que anuncia tácticas cuestionables. Añadió: «Al no poder rastrear Reddit directamente, enmascaran sus identidades, ocultan sus ubicaciones y disfrazan sus raspadores web para robar contenido de Reddit de la Búsqueda de Google». En respuesta a la demanda, el jefe de comunicación de Perplexity, Jesse Dwyer, afirmó que la empresa aún no había recibido la presentación legal. Dwyer dijo El borde«siempre lucharemos vigorosamente por los derechos de los usuarios a acceder libre y justamente al conocimiento público». Añadió: «Nuestro enfoque sigue siendo responsable y basado en principios, ya que brindamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público».





