¿Recuerdas los incómodos doblajes de las viejas películas de kung-fu? ¿O la discordante sincronización de labios de las primeras películas animadas? Esos días se están desvaneciendo rápidamente y, gracias al auge de la tecnología de sincronización de labios impulsada por IA, podrían quedar atrás para siempre. Desde abril de 2023, el número de soluciones y el volumen de Búsquedas de palabras clave de “sincronización labial con IA” ha crecido dramáticamente, surgiendo de la nada hasta convertirse en una de las tendencias críticas en IA generativa.
Este campo de vanguardia está revolucionando la forma en que creamos y consumimos contenido de video, con implicaciones para todo, desde la realización de películas y la animación hasta las videoconferencias y los juegos.
Para profundizar en esta fascinante tecnología, hablé con Aleksandr Rezanov, un ingeniero de visión por computadora y aprendizaje automático que anteriormente encabezó el desarrollo de sincronización de labios en Rask AI y actualmente trabaja en IA de Higgsfield en Londres. La experiencia de Rezanov ofrece una visión del intrincado funcionamiento, los desafíos y el potencial transformador de la sincronización labial de IA.
Deconstruyendo la magia: cómo funciona la sincronización de labios con IA
«La mayoría de las arquitecturas de sincronización de labios funcionan según un principio inspirado en el artículo ‘Wav2Lip: vídeos con sincronización labial precisa en la naturaleza‘”, me dijo Rezanov. Estos sistemas utilizan una compleja interacción de redes neuronales para analizar la entrada de audio y generar los correspondientes movimientos de los labios. «Los datos de entrada incluyen una imagen en la que queremos alterar la boca, una imagen de referencia que muestra cómo se ve la persona y una entrada de audio», dijo Rezanov.
Tres codificadores separados procesan estos datos, creando representaciones comprimidas que interactúan para generar formas de boca realistas. «La tarea de sincronización de labios consiste en ‘dibujar’ una boca donde está enmascarada (o ajustar una boca existente), teniendo en cuenta la apariencia de la persona y lo que estaba diciendo en ese momento», dijo Rezanov.
Este proceso implica modificaciones complejas, incluido el uso de múltiples imágenes de referencia para capturar la apariencia de una persona, el empleo de diferentes modelos faciales y distintos métodos de codificación de audio.
«En esencia, los estudios sobre sincronización de labios exploran qué bloques en este marco pueden reemplazarse mientras los principios básicos siguen siendo consistentes: tres codificadores, interacción interna y un decodificador», dijo Rezanov.
Desarrollar tecnología de sincronización de labios con IA es una hazaña desafiante. El equipo de Rezanov en Rask AI enfrentó numerosos desafíos, particularmente para lograr calidad visual y una sincronización precisa de audio y video.
«Para resolver esto, aplicamos varias estrategias», dijo Rezanov. «Eso incluyó modificar la arquitectura de la red neuronal, refinar y mejorar el procedimiento de entrenamiento y mejorar el conjunto de datos».
Rask también fue pionero en el soporte de sincronización de labios para videos con múltiples hablantes, una tarea compleja que requiere la diarioización de los hablantes (identificar y segmentar automáticamente una grabación de audio en distintos segmentos de voz) y la detección activa del hablante.
Más allá del entretenimiento: las aplicaciones en expansión de la sincronización de labios con IA
Las implicaciones de la sincronización de labios con IA se extienden mucho más allá del entretenimiento. «La tecnología de sincronización de labios tiene una amplia gama de aplicaciones», dijo Rezanov. «Al utilizar sincronización de labios de alta calidad, podemos eliminar la brecha audiovisual al ver contenido traducido, permitiendo a los espectadores permanecer inmersos sin distraerse por las discrepancias entre la voz y el video».
Esto tiene importantes implicaciones para la accesibilidad, ya que hace que el contenido sea más atractivo para los espectadores que dependen de los subtítulos o el doblaje. Además, la sincronización labial con IA puede agilizar la producción de contenidos, reduciendo la necesidad de múltiples tomas y reduciendo los costos.
«Esta tecnología podría agilizar y reducir el costo de producción de contenido, ahorrando a los estudios de juegos recursos significativos y probablemente mejorando la calidad de la animación», dijo Rezanov.
La búsqueda de la perfección: el futuro de la sincronización de labios con IA
Si bien la sincronización de labios con IA ha logrado avances notables, la búsqueda de una sincronización de labios perfecta e indistinguible continúa.
«El mayor desafío de la tecnología de sincronización de labios es que los humanos, como especie, somos excepcionalmente hábiles para reconocer rostros», dijo Rezanov. “La evolución nos ha entrenado para esta tarea durante miles de años, lo que explica las dificultades para generar algo relacionado con rostros”.
Describe tres etapas en el desarrollo de la sincronización de labios: lograr una sincronización básica de la boca con el audio, crear movimientos naturales y fluidos y, finalmente, capturar detalles finos como los poros, el cabello y los dientes.
«Actualmente, el mayor obstáculo en la sincronización de labios reside en mejorar este nivel de detalle», dijo Rezanov. «Los dientes y la barba siguen siendo un desafío especial». Como propietario de dientes y barba, puedo dar fe de la decepción (y a veces de los resultados dalinianos que me provocan risa) que he experimentado al probar algunas soluciones de sincronización de labios con IA.
A pesar de estos desafíos, Rezanov sigue siendo optimista.
«En mi opinión, nos estamos acercando constantemente a lograr una sincronización de labios verdaderamente indistinguible», dijo Rezanov. “¿Pero quién sabe qué nuevos detalles comenzaremos a notar cuando lleguemos allí?”
De la sincronización labial a la manipulación facial: la próxima frontera
El trabajo de Rezanov en Higgsfield AI se basa en su experiencia en sincronización de labios y se centra en técnicas más amplias de manipulación facial.
«La generación de vídeo es un campo inmenso y es imposible destacar sólo un aspecto», afirmó Rezanov. «En la empresa, me ocupo principalmente de tareas relacionadas con la manipulación facial, lo que se alinea estrechamente con mi experiencia anterior».
Su enfoque actual incluye optimizar las técnicas de intercambio de caras y garantizar la coherencia de los personajes en el contenido generado. Este trabajo traspasa los límites de la manipulación de vídeo impulsada por IA, abriendo nuevas posibilidades para la expresión creativa y la innovación tecnológica.
A medida que evoluciona la tecnología de sincronización de labios con IA, podemos esperar experiencias aún más realistas e inmersivas en películas, animación, juegos y más. El valle inquietante se está reduciendo y un futuro de humanos digitales hiperrealistas está a nuestro alcance.