Operai enfrenta acusaciones de capacitar a sus modelos de IA en material con derechos de autor sin permiso, como un nuevo papel alega que la compañía usó libros con paredes de pago de O’Reilly Media para capacitar a su modelo GPT-4O. El proyecto de divulgaciones de IA, una organización sin fines de lucro cofundada por Tim O’Reilly e Ilan Strauss, publicó el artículo.
Los modelos de IA funcionan como motores de predicción, patrones de aprendizaje de datos extensos como libros y películas para extrapolar de las indicaciones. Mientras que algunos laboratorios de IA están utilizando datos generados por IA a medida que disminuyen las fuentes del mundo real, la capacitación en datos puramente sintéticos conlleva riesgos, como impactar el rendimiento de un modelo.
La metodología del artículo, De-capasdetermina si un modelo distingue entre los textos de los humanos y Parafrases generadas por IA. Esto sugiere si el modelo tiene conocimiento previo de sus datos de capacitación. Los investigadores sondearon GPT-4O, GPT-3.5 Turbo y otros modelos Operai, utilizando 13,962 extractos de 34 libros en O’Reilly para estimar la probabilidad de inclusión en los conjuntos de datos de capacitación.
Los resultados indicaron que GPT-4O reconoció significativamente más contenido de libros O’Reilly O’Reilly que modelos más antiguos como GPT-3.5 Turbo. Según el artículo, GPT-4O Probablemente reconoce muchos libros no públicos de O’Reilly publicados antes de su fecha de corte de capacitación. O’Reilly no tiene un acuerdo de licencia con Openai, según el documento.
Los coautores reconocen que el método no es infalible y OpenAI podría haber recopilado extractos de las entradas ChatGPT de los usuarios. Otra advertencia es que los modelos OpenAI más recientes, incluido GPT-4.5, no fueron evaluados.
OpenAI, que aboga por las restricciones de derechos de autor más sueltas, ha buscado datos de capacitación de mayor calidad, contratando a los periodistas para ajustar los resultados del modelo. La compañía también tiene acuerdos de licencia con editores de noticias y ofrece mecanismos de exclusión para los propietarios de derechos de autor. Operai no ha comentado en el periódico.