La Universidad de Harvard, en colaboración con Google, publicará un conjunto de datos de aproximadamente un millón de libros de dominio público para su uso en el entrenamiento de modelos de IA, según CABLEADO. Esta iniciativa, conocida como Iniciativa de Datos Institucionales, ha obtenido financiación tanto de Microsoft como de OpenAI. El conjunto de datos comprende obras que ya no están bajo protección de derechos de autor, extraídas de los extensos esfuerzos de escaneo de libros de Google.
Harvard y Google proporcionan un millón de libros para la formación en IA
El anuncio se produjo el 12 de diciembre de 2024 con el conjunto de datos, que abarca una amplia gama de géneros, idiomas y autores, incluidas figuras notables como Dickens, Dante y Shakespeare. El director ejecutivo de Harvard para la iniciativa, Greg Leppert, enfatizó que el conjunto de datos tiene como objetivo «nivelar el campo de juego», permitiendo el acceso a laboratorios de investigación y nuevas empresas de inteligencia artificial para mejorar sus esfuerzos de desarrollo de modelos lingüísticos. El conjunto de datos está destinado a cualquiera que busque entrenar modelos de lenguaje grandes (LLM), aunque aún no se han revelado la fecha de lanzamiento y el método específicos.
A medida que las tecnologías de IA dependen cada vez más de grandes cantidades de datos de texto, este conjunto de datos sirve como un recurso crucial. Los modelos fundamentales como ChatGPT se benefician significativamente de los datos de entrenamiento de alta calidad. Sin embargo, la necesidad de datos ha planteado desafíos para empresas como OpenAI, que enfrentan un escrutinio legal por el uso no autorizado de materiales protegidos por derechos de autor. Las demandas de las principales editoriales, incluidos el Wall Street Journal y el New York Times, resaltan las tensiones actuales con respecto al uso de contenido y la infracción de derechos de autor en la capacitación en inteligencia artificial.
Si bien el próximo conjunto de datos será ventajoso, aún no está claro si un millón de libros será suficiente para satisfacer las demandas del entrenamiento de modelos de IA, especialmente porque las referencias contemporáneas y la jerga actualizada no se tratan en estos textos históricos. Las empresas de IA seguirán buscando fuentes de datos adicionales, en particular información exclusiva o actualizada, para distinguir sus modelos de los de la competencia.
- La Iniciativa de Datos Institucionales de Harvard tiene como objetivo proporcionar datos accesibles para el desarrollo de la IA.
- La financiación de Microsoft y OpenAI respalda el proyecto.
- El conjunto de datos incluye clásicos literarios y textos menos familiares.
- Los modelos de IA requieren una gran cantidad de datos; Las controversias actuales rodean los derechos de uso de datos.
Los desarrolladores del sector de la IA no se limitan únicamente a los textos históricos. Varias plataformas, incluidas Reddit y X, han comenzado a restringir el acceso a sus datos al reconocer su valor creciente. Reddit ha firmado acuerdos de licencia con empresas como Google, mientras que X mantiene acuerdos de contenido exclusivos para la utilización de datos en tiempo real. Este cambio en la accesibilidad al contenido refleja el panorama competitivo en el que las empresas de inteligencia artificial luchan por adquirir datos de capacitación adecuados y relevantes sin enfrentar repercusiones legales.
La ejecución de la Iniciativa de Datos Institucionales es un paso para aliviar estas presiones al proporcionar un conjunto legalmente seguro de textos históricos, lo que permite una capacitación modelo responsable. Sin embargo, seguirán siendo necesarias estrategias integrales para garantizar que los modelos de IA sean competitivos y capaces de comprender el lenguaje y las referencias contemporáneas.
La eficacia con la que este recurso satisfará la demanda actual de datos completos y diversos sigue siendo una cuestión a medida que continúan las investigaciones sobre el uso de datos.
Crédito de la imagen destacada: Bancos de arcilla/Unsplash