Bluesky está lidiando con un importante problema de privacidad después de un millón de publicaciones públicas fueron raspados desde su plataforma para entrenamiento de IA, según un 404Medios informe. El conjunto de datos, compilado por bibliotecario de aprendizaje automático Daniel van Strien, de la empresa de inteligencia artificial Hugging Face, estaba destinado a ser utilizado en investigaciones relacionadas con el procesamiento del lenguaje natural y el análisis de redes sociales. Aunque los representantes de Bluesky afirman que la plataforma nunca entrenará IA generativa con datos de usuario, la naturaleza abierta de su API la hace vulnerable a raspadores externos.
Bluesky enfrenta preocupaciones de privacidad por publicaciones de usuarios eliminadas
El conjunto de datos en cuestión se obtuvo a través de Bluesky. API de manguera contra incendiosque proporciona un flujo agregado de actualizaciones de datos públicos, incluidas publicaciones, me gusta y seguidores. Van Strien tenía como objetivo utilizar este conjunto de datos para impulsar la investigación del aprendizaje automático. Sin embargo, no solo incluía el texto de las publicaciones, sino también los identificadores descentralizados (DID) y los metadatos de los usuarios. Después de que los informes de los medios resaltaran el problema, el conjunto de datos se eliminó rápidamente de Hugging Face debido a la reacción que generó con respecto a la privacidad del usuario y la falta de consentimiento.
Los usuarios de Bluesky no otorgaron permiso explícito para que sus publicaciones se utilizaran de esta manera, aunque las políticas de Bluesky no prohíben categóricamente tales acciones. El núcleo de la controversia radica en la estructura abierta de la API de Bluesky, que permite a los desarrolladores externos acceder libremente a sus datos públicos. Según una declaración de un representante de Bluesky, «nos gustaría encontrar una manera para que los usuarios de Bluesky se comuniquen con organizaciones/desarrolladores externos si dan su consentimiento para esto», lo que indica un esfuerzo para mejorar el control del usuario sobre el intercambio de datos en el futuro.
Bluesky gana 1,25 millones de usuarios después de las elecciones
Tras la eliminación del conjunto de datos, van Strien reconoció la violación de la transparencia y el consentimiento en su enfoque de recopilación de datos. «Pido disculpas por este error», afirmó en una publicación de seguimiento en Bluesky. Este incidente sirve para que los usuarios comprendan mejor que cualquier contenido compartido públicamente en la plataforma es accesible para entidades externas. A medida que la plataforma continúa creciendo (recientemente superó los 20 millones de usuarios), Bluesky probablemente enfrentará un escrutinio cada vez mayor con respecto a sus medidas de protección de datos y privacidad de los usuarios.
Bluesky se encuentra actualmente en conversaciones sobre mecanismos que podrían permitir a los usuarios expresar sus preferencias de consentimiento a terceros. Sin embargo, la aplicación de la ley sigue siendo un desafío; Como lo señala la plataforma, en última instancia, dependerá de los desarrolladores externos cumplir con estas preferencias. Los representantes de Bluesky también expresaron que, si bien apuntan a conversaciones con ingenieros y equipos legales, no hay soluciones inmediatas disponibles.
Crédito de la imagen destacada: cielo azul