Una propuesta de demanda colectiva presentada por la autora de Oregón Elizabeth Lyon acusa a Adobe de entrenar su modelo SlimLM AI en libros pirateados, incluidas sus guías, a través del conjunto de datos SlimPajama-627B derivado de la colección RedPajama que contiene Books3. Adobe ha llevado a cabo un amplio desarrollo en inteligencia artificial en los últimos años. La compañía lanzó múltiples servicios de inteligencia artificial a partir de 2023, con Firefly como su suite de generación de medios impulsada por inteligencia artificial diseñada para crear imágenes, videos y otro contenido multimedia a partir de entradas y mensajes de texto.
SlimLM representa una serie de pequeños modelos de lenguaje que Adobe ha optimizado específicamente para tareas de asistencia de documentos en dispositivos móviles. Estos modelos permiten funciones como resumir documentos, extraer información clave y proporcionar ayuda contextual directamente dentro de las aplicaciones móviles. Adobe estados que entrenó previamente a SlimLM utilizando el conjunto de datos SlimPajama-627B. Cerebras liberado este conjunto de datos en junio de 2023 como un recurso de código abierto, de múltiples corpus y deduplicado destinado a entrenar modelos de lenguaje grandes. El conjunto de datos agrega varias fuentes de texto después de eliminar duplicados para mejorar la eficiencia del entrenamiento y el rendimiento del modelo. Elizabeth Lyon, especializada en guías para escritura de no ficción, inició la demanda alegando que Adobe incorporó versiones pirateadas de numerosos libros, incluidas sus propias obras, en el proceso de formación de SlimLM. La acción legal busca el estatus de demanda colectiva para representar a otros autores afectados. La demanda detalla cómo el conjunto de datos SlimPajama se originó a partir del conjunto de datos RedPajama, que incluye la colección Books3 que comprende 191.000 libros. Reuters primero reportado en la presentación. La denuncia dice textualmente: «El conjunto de datos SlimPajama se creó copiando y manipulando el conjunto de datos RedPajama (incluida la copia de Books3)». Continúa: «Por lo tanto, debido a que es una copia derivada del conjunto de datos de RedPajama, SlimPajama contiene el conjunto de datos de Books3, incluidas las obras protegidas por derechos de autor del demandante y los miembros del grupo». Lyon sostiene que sus materiales protegidos por derechos de autor aparecieron en estos datos previos al entrenamiento sin su consentimiento ni compensación. Books3 ha surgido repetidamente en disputas legales dentro del sector de la IA, ya que los desarrolladores lo han utilizado para entrenar sistemas de IA generativa. La colección contiene textos digitalizados de diversos géneros y autores, lo que la convierte en un corpus de formación completo pero polémico. RedPajama, que incorpora Books3, también ha enfrentado menciones en múltiples casos judiciales.




