Bytedance, la empresa matriz de Tiktok, ha recientemente lanzado Omnihuman-1, un sofisticado marco de generación de videos de IA que puede crear videos de alta calidad a partir de una sola imagen junto con un clip de audio. Este modelo combina capacidades de sincronización de labios de video, audio y casi perfectos.
Bytedance lanza Omnihuman-1: un nuevo modelo de generación de videos de IA
Omnihuman-1 es notable por producir no solo videos fotorrealistas sino también dibujos animados antropomórficos, objetos animados y poses complejas. Junto a esto, Bytedance introdujo otro modelo de IA llamado Goku, que logra una calidad similar de texto a video con una arquitectura compacta de 8 mil millones de parámetros, específicamente dirigido al mercado de publicidad.
Estos desarrollos posicionan el bytete entre los mejores jugadores en el campo de la IA junto con gigantes tecnológicos chinos como Alibaba y Tencent. Sus avances interrumpen significativamente el panorama de contenido generado por IA en comparación con otras compañías como Kling AI, dada la extensa biblioteca de videos de video de Bytedance, que es potencialmente la más grande después de Facebook.
Los videos de demostración para Omnihuman-1 muestran resultados impresionantes de varios tipos de entrada, con un alto nivel de detalle y fallas mínimas. A diferencia de las tecnologías tradicionales de Deepfake que a menudo se centran únicamente en las animaciones faciales, Omnihuman-1 abarca animaciones de todo el cuerpo, imitando con precisión los gestos y las expresiones. Además, el modelo AI se adapta bien a diferentes cualidades de imagen, creando un movimiento suave independientemente de la entrada original.
Especificaciones técnicas de Omnihuman-1
Omnihuman-1 aprovecha un modelo de transformador de difusión para generar movimiento al predecir los patrones de movimiento marco por marco, lo que resulta en transiciones realistas y dinámica del cuerpo. Entrenado en un extenso conjunto de datos de 18,700 horas de video humano, el modelo comprende una amplia gama de movimientos y expresiones. En particular, su estrategia de entrenamiento de «omni-condiciones», que integra múltiples señales de entrada, como audio, texto y referencias, mejora la precisión de las predicciones del movimiento.
Probado Cogvideox, otro texto de código abierto a video ai
A pesar de los prometedores avances en la generación de videos de IA, las implicaciones éticas son significativas. La tecnología introduce riesgos como el potencial del mal uso de Deepfake en la generación de medios engañosos, robo de identidad y otras aplicaciones maliciosas. En consecuencia, el bytedance aún no ha publicado Omnihuman-1 para uso público, probablemente debido a estas preocupaciones. Si está disponible públicamente, es probable que sea necesaria las salvaguardas fuertes, incluida la marca de agua digital y el seguimiento de la autenticidad de contenido para mitigar los posibles abusos.
Crédito de la imagen destacada: Claudio Schwarz/Unsplash