NVIDIA tiene desvelado Fugatto, un modelo de IA generativa capaz de crear y modificar contenido de audio. El modelo tiene como objetivo ayudar a los productores de música, creadores de películas y desarrolladores de juegos permitiéndoles generar sonidos novedosos a través de indicaciones de texto. Fugatto combina varias capacidades de generación de audio y emplea algoritmos avanzados para mejorar los procesos creativos en la industria del audio.
NVIDIA presenta Fugatto, una IA generativa para la creación de audio
fugatoabreviatura de Foundational Generative Audio Transformer Opus 1, fue presentado por NVIDIA, el proveedor líder mundial de chips y software para sistemas de inteligencia artificial. La tecnología puede generar y alterar sonido a partir de archivos de audio existentes, lo que la distingue de los modelos anteriores. Por ejemplo, puede transformar una melodía de piano en una voz humana o modificar el acento y el tono emocional de una grabación hablada. Esta flexibilidad permite a los creadores explorar una variedad de aplicaciones innovadoras en diferentes campos.
El equipo detrás de Fugatto está formado por más de una docena de investigadores, entre ellos Rafael Valle, director de investigación de audio aplicado de NVIDIA. Valle enfatizó el objetivo del proyecto: «Queríamos crear un modelo que entienda y genere sonido como lo hacen los humanos». La clave del diseño de Fugatto es su capacidad para integrar múltiples tareas relacionadas con la generación y transformación de audio, mostrando propiedades emergentes que surgen de sus extensos datos de entrenamiento.
Los usuarios pueden instruir a Fugatto con indicaciones de forma libre para crear paisajes sonoros, fragmentos de música o incluso efectos de sonido únicos. Por ejemplo, un productor podría crear rápidamente prototipos de diferentes estilos o instrumentos para una pista. En particular, Fugatto presenta técnicas como ComposableART, que permite a los usuarios combinar diferentes comandos. Las pruebas revelaron resultados sorprendentes, como sugirió Rohan Badlani, un investigador de inteligencia artificial involucrado con el modelo, quien describió la experiencia como artísticamente gratificante a pesar de su experiencia técnica.
Durante su formación, Fugatto utilizó 2.500 millones de parámetros y se desarrolló en los potentes sistemas DGX de NVIDIA con 32 GPU H100 Tensor Core. El entrenamiento del modelo se basó en un conjunto de datos diverso y combinado que comprende millones de muestras de audio, lo que mejoró su funcionalidad multiacento y multilingüe. Este ambicioso proyecto también tardó más de un año en desarrollarse, y el equipo superó varios desafíos en la generación de datos y la capacitación de modelos.
Fugatto ofrece varias aplicaciones potenciales, incluso para agencias de publicidad y plataformas de aprendizaje de idiomas. Se ha sugerido que las campañas de marketing podrían beneficiarse de su capacidad para adaptar locuciones con diferentes acentos o estados de ánimo. En educación, los estudiantes pueden disfrutar de cursos personalizados con voces familiares. Los desarrolladores de juegos podrían adaptar dinámicamente el audio del juego, integrando elementos interactivos que respondan a las acciones del usuario.
Si bien las capacidades de Fugatto son impresionantes, NVIDIA no ha anunciado planes inmediatos para lanzar esta tecnología al público. La compañía expresa su preocupación por el posible uso indebido de la IA generativa, y Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado de NVIDIA, destaca la importancia de tener precaución dados los riesgos asociados con dicha tecnología. OpenAI y otras empresas en el campo enfrentan desafíos similares con respecto al despliegue responsable de sus modelos, particularmente en lo que respecta a los derechos de propiedad intelectual y la desinformación.
Crédito de la imagen destacada: NVIDIA