¿Alguna vez has deseado que tus fotografías pudieran hablar o cantar? Conoce a EMO, abreviatura de Emote Portrait Alive. Desarrollado por investigadores del Instituto de Computación Inteligente de Alibaba, EMO es un sistema de inteligencia artificial diseñado para hacer precisamente eso.
EMO adopta un enfoque único para la animación, evitando modelos 3D complejos al convertir directamente audio en cuadros de video. Esto significa que sus videos animados conservan los movimientos y expresiones naturales del habla o la canción, todo desde una sola foto y clip de audio.
Alibaba AI: ¿Qué es Emote Portrait Alive (EMO)?
EMO, o Emote Portrait Alive, es un sistema de inteligencia artificial desarrollado por investigadores del Instituto de Computación Inteligente de Alibaba. Su función principal es animar fotos de retratos estáticoscreando videos donde el sujeto parece hablar o cantar de manera realista.
Lo que distingue a EMO es su enfoque para generar estas animaciones. En lugar de depender de métodos tradicionales que a menudo tienen dificultades para capturar los matices de la expresión humana, EMO convierte directamente formas de onda de audio en fotogramas de vídeo. Esto significa que no necesita modelos 3D intermedios ni puntos de referencia faciales para generar animaciones. En cambio, se centra en capturar movimientos faciales sutiles y estilos faciales individuales asociados con el habla natural.
Recién en
Este es el audio2video más sorprendente que he visto en mi vida.
Se llama EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu— Stelfie la viajera del tiempo (@StelfieTT) 28 de febrero de 2024
La tecnología que impulsa EMO se basa en un modelo de difusión, conocido por su capacidad de generar imágenes sintéticas realistas. Para entrenar el sistema, los investigadores utilizaron un gran conjunto de datos de vídeos de cabezas parlantes de diversas fuentes, incluidos discursos, películas, programas de televisión y actuaciones musicales. Esta amplia formación permite a EMO producir vídeos de alta calidad preservando la identidad del sujeto y transmitiendo expresividad.
Además de generar vídeos conversacionales, EMO también puede animar retratos cantados. Sincronizar las formas de la boca y las expresiones faciales con las voces puede crear videos de canto en diferentes estilos y duraciones.
Si bien el desarrollo de EMO presenta posibilidades interesantes para la creación de contenido de vídeo personalizado, también plantea preocupaciones éticas. Existe riesgo de uso indebido, como interpretación o la propagación de desinformación. Por lo tanto, es esencial abordar el despliegue de dicha tecnología con precaución y garantizar que existan salvaguardas adecuadas para abordar estas preocupaciones éticas.
Sincronización de labios de Pika hace que los vídeos generados por IA también hablen
¿Cómo funciona la EMO?
El sistema EMO opera en dos etapas principales: codificación de tramas y proceso de difusión.
- Codificación de cuadros: Extrae características de imágenes de referencia y fotogramas en movimiento para establecer las bases de la animación.
- Proceso de difusión: Utiliza un codificador de audio previamente entrenado para procesar la entrada de audio. Integra máscaras de regiones faciales con ruido de cuadros múltiples para la generación de animaciones. Backbone Network elimina el ruido de las animaciones, con la ayuda de mecanismos de atención de referencia y atención de audio. Los módulos temporales ajustan la velocidad del movimiento.
¿Qué puedes hacer con EMO?
EMO ofrece una herramienta versátil para crear videos animados realistas, ampliando las posibilidades de creación de contenido personalizado y expresivo, como:
- Cantando: Genera videos de avatar vocal con expresiones faciales expresivas sincronizadas con entradas de audio de canto.
- Idioma y estilo: Admite diversos idiomas y estilos de retrato, capturando variaciones tonales para animaciones de avatar dinámicas.
- ritmo rápido: Garantiza la sincronización de las animaciones de los personajes con ritmos rápidos.
- Hablando: anima retratos en respuesta a entradas de audio habladas en varios idiomas y estilos.
- Actuación entre actores: Retrata personajes de películas u otros medios en contextos multilingües y multiculturales.
En resumen, EMO, también conocido como Emote Portrait Alive, es un avance significativo en la tecnología de animación. Puede convertir imágenes fijas en vídeos animados donde los sujetos parecen hablar o cantar de forma realista. EMO logra esto convirtiendo directamente audio en cuadros de video, capturando con precisión expresiones y movimientos faciales. Si bien EMO ofrece posibilidades interesantes para crear contenido visual dinámico, se deben abordar las preocupaciones éticas sobre su posible uso indebido. No obstante, EMO presenta una herramienta valiosa para dar vida a imágenes fijas y potencialmente puede transformar la forma en que interactuamos con los medios visuales en el futuro.
Para obtener información más detallada, aquí es su trabajo de investigación.
Crédito de la imagen destacada: EMO: Investigación Emote Portrait Alive