Probé CogVideoX, otra inteligencia artificial de texto a video de código abierto

Universidad de Tsinghua y Inteligencia artificial Zhipu han presentado CogVideoX en colaboración, un modelo de texto a video de código abierto preparado para desafiar a los pesos pesados de la IA como Pista, Inteligencia artificial de Lumay Laboratorios PikaDetallada en una publicación reciente de arXiv, esta innovación ofrece capacidades avanzadas de generación de video a desarrolladores de todo el mundo.

CogVideoX: nueva herramienta de inteligencia artificial de código abierto para convertir texto en video

“Presentamos CogVideoX, modelos de transformadores de difusión a gran escala diseñados para generar videos basados en indicaciones de texto. Para modelar de manera eficiente los datos de video, proponemos aprovechar un autocodificador variacional 3D (VAE) para comprimir videos a lo largo de las dimensiones espaciales y temporales. Para mejorar la alineación de texto y video, proponemos un transformador experto con el LayerNorm adaptativo experto para facilitar la fusión profunda entre las dos modalidades. Al emplear una técnica de entrenamiento progresivo, CogVideoX es experto en producir videos coherentes y de larga duración caracterizados por movimientos significativos”, dice el autor. El papel dice.

La Universidad de Tsinghua ha estado muy involucrada en la investigación de IA, con varios proyectos notables en su haber.
Recientemente, colaboraron en OpenVoice, una plataforma de clonación de voz de código abierto desarrollada junto con el MIT y Mi Shelly ahora han presentado CogVideoX-5B, un modelo de texto a video. También se han asociado con Shengshu Technology para lanzar Vidu AIuna herramienta diseñada para simplificar la creación de videos usando IA.

CogVideoX puede crear videos coherentes de alta calidad de hasta seis segundos de duración a partir de indicaciones de texto simples.

El modelo más destacado, CogVideoX-5B, cuenta con 5 mil millones de parámetros y produce videos con una resolución de 720×480 y 8 cuadros por segundo. Si bien estas especificaciones pueden no rivalizar con los últimos sistemas propietarios, el verdadero avance radica en el enfoque de código abierto de CogVideoX.

Los modelos de código abierto están revolucionando el campoliberando su código y pesos de modelo Para el público, el equipo de Tsinghua ha democratizado de manera efectiva una tecnología que antes era dominio de gigantes tecnológicos bien financiados. Se espera que esta medida acelere los avances en el video generado por IA aprovechando la experiencia colectiva de la comunidad global de desarrolladores.

Los investigadores lograron los impresionantes resultados de CogVideoX a través de varias innovaciones clave, incluida una Codificador automático variacional 3D para una compresión de vídeo eficiente y un “transformador experto” diseñado para mejorar la alineación texto-vídeo.

“Para mejorar la alineación entre los vídeos y los textos, proponemos un Transformer experto con LayerNorm adaptativo experto para facilitar la fusión entre las dos modalidades”, explica el artículo. Este avance permite una interpretación más precisa de las indicaciones de texto y una generación de vídeos más precisa.

¿Cómo probar CogVideoX?

Comience por dirigirse a la plataforma HuggingFace donde el Herramienta de generación de vídeo de código abierto CogVideoX-5B Está disponible para pruebas.

CogVideoX es otra inteligencia artificial de texto a video de código abierto — Paso 1

Elaborar un mensaje descriptivo para el video que quieres generar. Por ejemplo, usamos:

Una escena tranquila en un jardín donde una mariposa revolotea con gracia en el aire, sus alas vibrantes captan la luz mientras aterriza suavemente en la mano extendida de un niño. Los ojos del niño se abren de par en par con asombro, capturando la magia del momento mientras la mariposa descansa delicadamente en sus pequeños dedos. A su alrededor, las flores florecientes se balancean suavemente con la brisa, mientras un arroyo distante murmura silenciosamente, agregando una sensación de calma a la atmósfera serena. La mano del niño permanece firme, ofreciendo una cálida bienvenida a la delicada criatura, encarnando una conexión entre la inocencia y las maravillas de la naturaleza.

Una vez que tu mensaje esté listo, Haga clic en el botón para generar el videoNecesitarás esperar un momento mientras la herramienta procesa tu solicitud y crea el video basado en tu descripción.

Una vez generado el vídeo, podrás descargarlo directamente desde la plataforma. Esto le permite ver el resultado de su solicitud y ver con qué precisión la herramienta interpretó su descripción.

Mira el video. Si bien el resultado puede no ser sorprendente, es importante tener en cuenta que este tipo de herramientas están mejorando rápidamente. Tal como vimos con la evolución de ChatGPT, es probable que se avecine un avance significativo en el video generado por IA.

Lo probé. Si bien aún no es una maravilla, estas herramientas están apareciendo en todas partes. Esperamos un gran avance pronto, como vimos con ChatGPT. foto.twitter.com/53xYz6lBLf
— Kerem Gülen (@kgulenn) 28 de agosto de 2024

Vamos a ver más y más deepfakes

Sin embargo, la amplia disponibilidad de una tecnología tan poderosa no está exenta de peligros. La posibilidad de un uso indebido, en particular en la creación de deepfakes o contenido engañoso, es un problema grave que la comunidad de inteligencia artificial debe afrontar. Los propios investigadores reconocen estas preocupaciones éticas y piden que la tecnología se utilice de forma responsable.

A medida que el video generado por IA se vuelve cada vez más accesible y avanzado, nos estamos aventurando en territorio desconocido en la creación de contenido digital. El lanzamiento de CogVideoX podría representar un momento clave, que podría redistribuir el poder de los grandes actores del sector hacia un modelo de desarrollo de IA más abierto y descentralizado.

Los verdaderos efectos de esta democratización aún son inciertos: ¿generará una nueva ola de creatividad e innovación o empeorará los problemas existentes de desinformación y manipulación digital?

Crédito de la imagen destacada: Kerem Gülen/Middayney

Tags: AI Presentado video

Probé CogVideoX, otra inteligencia artificial de texto a video de código abierto

Related Posts

JBL lanza amplificadores BandBox impulsados por IA

Spotify lanza listas de reproducción solicitadas impulsadas por IA

Anthropic revisa las pruebas de contratación gracias a Claude AI

Anthropic revisa la Constitución de Claude con nuevos principios éticos de seguridad

YouTube lanzará herramientas de gestión de imágenes con IA para creadores

Amazon integra el asistente Health AI en la aplicación móvil One Medical

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Probé CogVideoX, otra inteligencia artificial de texto a video de código abierto

CogVideoX: nueva herramienta de inteligencia artificial de código abierto para convertir texto en video

¿Cómo probar CogVideoX?

Vamos a ver más y más deepfakes

Related Posts

JBL lanza amplificadores BandBox impulsados ​​por IA

Spotify lanza listas de reproducción solicitadas impulsadas por IA

Anthropic revisa las pruebas de contratación gracias a Claude AI

Anthropic revisa la Constitución de Claude con nuevos principios éticos de seguridad

YouTube lanzará herramientas de gestión de imágenes con IA para creadores

Amazon integra el asistente Health AI en la aplicación móvil One Medical

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

JBL lanza amplificadores BandBox impulsados por IA