Google tiene lanzado una nueva herramienta de generación de imágenes de IA llamada Whisk, que permite a los usuarios crear resultados visuales a partir de imágenes existentes. Anunciado a través de una actualización en Google Labs, Whisk emplea el modelo de lenguaje Gemini para la comprensión de imágenes y el generador de imágenes Imagen 3. Actualmente, está disponible solo en EE. UU.
Google lanza Whisk: herramienta de inteligencia artificial para generación de imágenes creativas
Whisk opera capturando la «esencia» de la imagen proporcionada en lugar de reproducirla directamente. Los usuarios ingresan una imagen junto con estilos predefinidos, que incluyen calcomanías, pines esmaltados y peluches, para recibir un resultado modificado creativamente. Esta herramienta se centra en la lluvia de ideas y las visualizaciones rápidas, en lugar del contenido de producción final. La interfaz simplista ayuda a los usuarios a generar conceptos preliminares.
El modo de edición avanzado, al que se puede acceder a través de la opción «Comenzar desde cero», ofrece opciones para que los usuarios especifiquen detalles en categorías de tema, escena y estilo. Los usuarios también pueden agregar texto para perfeccionarlo. Sin embargo, algunos resultados no se han alineado estrechamente con las expectativas de los usuarios, como se observó durante las pruebas. Google advierte que Whisk variará los atributos de las imágenes de salida, como altura, peso y peinado, con respecto a la entrada original.
Debajo del capó, la funcionalidad de Whisk se basa en la capacidad del modelo Gemini para generar leyendas detalladas sobre la imagen cargada. Estos subtítulos luego son utilizados por el generador de Imagen 3 para crear nuevas imágenes. El proceso destaca el objetivo de Whisk de promover la libertad creativa, permitiendo a los usuarios remezclar elementos en diferentes formatos visuales.
Junto con el lanzamiento de Whisk, Google presentó Veo 2, una nueva versión de su modelo de generación de video. Esta última actualización demuestra capacidades mejoradas de generación de video, produciendo contenido de alta calidad con una comprensión sofisticada de la física y los movimientos humanos del mundo real. En las pruebas, Veo 2 mostró una menor frecuencia de «alucinaciones», que generalmente involucran detalles erróneos o inesperados en el contenido generado.
Los usuarios pueden solicitar estilos o atributos de filmación específicos en sus indicaciones de video, mejorando el nivel de detalle dentro de las salidas generadas, incluida la solicitud de videos con resolución 4K. Los vídeos producidos por Veo 2 ejemplifican los resultados cinematográficos de alta calidad que ahora se pueden obtener, satisfaciendo eficazmente las diversas necesidades de los usuarios.
El modelo Imagen 3 también recibió una actualización, capaz de producir imágenes significativamente más brillantes y mejor compuestas en una amplia gama de estilos. Este modelo mejorado sigue con mayor precisión las indicaciones del usuario y genera texturas intrincadas. A través de pruebas de usuarios con modelos de generación de imágenes de la competencia, Imagen 3 logró resultados de última generación.
Como parte del compromiso de Google con el desarrollo responsable de la IA, los resultados tanto de Whisk como de los modelos más recientes incluyen una marca de agua invisible SynthID, que ayuda a prevenir la desinformación. Este enfoque en la seguridad va acompañado de un cuidadoso proceso de implementación. Los usuarios pueden acceder a estas nuevas capacidades a través de Google Labs, donde pueden registrarse para recibir actualizaciones y mejoras de funciones.
Créditos de imagen: Google