Universidad de Tsinghua y Inteligencia artificial Zhipu han presentado CogVideoX en colaboración, un modelo de texto a video de código abierto preparado para desafiar a los pesos pesados de la IA como Pista, Inteligencia artificial de Lumay Laboratorios PikaDetallada en una publicación reciente de arXiv, esta innovación ofrece capacidades avanzadas de generación de video a desarrolladores de todo el mundo.
CogVideoX: nueva herramienta de inteligencia artificial de código abierto para convertir texto en video
“Presentamos CogVideoX, modelos de transformadores de difusión a gran escala diseñados para generar videos basados en indicaciones de texto. Para modelar de manera eficiente los datos de video, proponemos aprovechar un autocodificador variacional 3D (VAE) para comprimir videos a lo largo de las dimensiones espaciales y temporales. Para mejorar la alineación de texto y video, proponemos un transformador experto con el LayerNorm adaptativo experto para facilitar la fusión profunda entre las dos modalidades. Al emplear una técnica de entrenamiento progresivo, CogVideoX es experto en producir videos coherentes y de larga duración caracterizados por movimientos significativos”, dice el autor. El papel dice.
Recientemente, colaboraron en OpenVoice, una plataforma de clonación de voz de código abierto desarrollada junto con el MIT y Mi Shelly ahora han presentado CogVideoX-5B, un modelo de texto a video. También se han asociado con Shengshu Technology para lanzar Vidu AIuna herramienta diseñada para simplificar la creación de videos usando IA.
CogVideoX puede crear videos coherentes de alta calidad de hasta seis segundos de duración a partir de indicaciones de texto simples.
El modelo más destacado, CogVideoX-5B, cuenta con 5 mil millones de parámetros y produce videos con una resolución de 720×480 y 8 cuadros por segundo. Si bien estas especificaciones pueden no rivalizar con los últimos sistemas propietarios, el verdadero avance radica en el enfoque de código abierto de CogVideoX.
Los modelos de código abierto están revolucionando el campoliberando su código y pesos de modelo Para el público, el equipo de Tsinghua ha democratizado de manera efectiva una tecnología que antes era dominio de gigantes tecnológicos bien financiados. Se espera que esta medida acelere los avances en el video generado por IA aprovechando la experiencia colectiva de la comunidad global de desarrolladores.
Los investigadores lograron los impresionantes resultados de CogVideoX a través de varias innovaciones clave, incluida una Codificador automático variacional 3D para una compresión de vídeo eficiente y un “transformador experto” diseñado para mejorar la alineación texto-vídeo.
“Para mejorar la alineación entre los vídeos y los textos, proponemos un Transformer experto con LayerNorm adaptativo experto para facilitar la fusión entre las dos modalidades”, explica el artículo. Este avance permite una interpretación más precisa de las indicaciones de texto y una generación de vídeos más precisa.
¿Cómo probar CogVideoX?
- Comience por dirigirse a la plataforma HuggingFace donde el Herramienta de generación de vídeo de código abierto CogVideoX-5B Está disponible para pruebas.
- Elaborar un mensaje descriptivo para el video que quieres generar. Por ejemplo, usamos:
- Una vez que tu mensaje esté listo, Haga clic en el botón para generar el videoNecesitarás esperar un momento mientras la herramienta procesa tu solicitud y crea el video basado en tu descripción.
- Una vez generado el vídeo, podrás descargarlo directamente desde la plataforma. Esto le permite ver el resultado de su solicitud y ver con qué precisión la herramienta interpretó su descripción.
- Mira el video. Si bien el resultado puede no ser sorprendente, es importante tener en cuenta que este tipo de herramientas están mejorando rápidamente. Tal como vimos con la evolución de ChatGPT, es probable que se avecine un avance significativo en el video generado por IA.
Lo probé. Si bien aún no es una maravilla, estas herramientas están apareciendo en todas partes. Esperamos un gran avance pronto, como vimos con ChatGPT. foto.twitter.com/53xYz6lBLf
— Kerem Gülen (@kgulenn) 28 de agosto de 2024
Vamos a ver más y más deepfakes
Sin embargo, la amplia disponibilidad de una tecnología tan poderosa no está exenta de peligros. La posibilidad de un uso indebido, en particular en la creación de deepfakes o contenido engañoso, es un problema grave que la comunidad de inteligencia artificial debe afrontar. Los propios investigadores reconocen estas preocupaciones éticas y piden que la tecnología se utilice de forma responsable.
A medida que el video generado por IA se vuelve cada vez más accesible y avanzado, nos estamos aventurando en territorio desconocido en la creación de contenido digital. El lanzamiento de CogVideoX podría representar un momento clave, que podría redistribuir el poder de los grandes actores del sector hacia un modelo de desarrollo de IA más abierto y descentralizado.
Los verdaderos efectos de esta democratización aún son inciertos: ¿generará una nueva ola de creatividad e innovación o empeorará los problemas existentes de desinformación y manipulación digital?
Crédito de la imagen destacada: Kerem Gülen/Middayney