Google tiene anunciado el lanzamiento de dos modelos de IA generativa, Veo e Imagen 3, disponibles para empresas que utilicen Vertex AI, su plataforma en la nube para herramientas de IA. Veo está diseñado para generar videos de alta definición a partir de imágenes e indicaciones de texto, mientras que Imagen 3 se enfoca en producir imágenes realistas a partir de entradas de texto simples.
Google lanza los modelos de IA generativa Veo e Imagen 3 para empresas
Veo, desarrollado por Google DeepMind, genera vídeos con personas y animales de aspecto realista. Los usuarios pueden crear contenido cargando una imagen vinculada a un mensaje de texto o ingresando texto solo. Actualmente, Veo será accesible para empresas seleccionadas a través de una vista previa privada. Produce videoclips de 1080p que duran hasta seis segundos y admiten 24 o 30 fotogramas por segundo. Según Warren Barkley, director senior de gestión de productos de Google Cloud, la respuesta empresarial a la IA generativa ha sido abrumadoramente positiva, con informes que indican un aumento de ingresos del 86% entre las empresas que han integrado estas tecnologías.
Inmediato: Timelapse de la aurora boreal bailando en el cielo ártico, estrellas titilando, paisaje cubierto de nieve
Vídeo: Google
Imagen 3también lanzado recientemente, se promociona como el modelo de generación de imágenes de mayor calidad de Google. Puede crear imágenes fotorrealistas y ofrece capacidades de edición avanzadas, como agregar, eliminar o ampliar elementos dentro de una imagen. A partir de la próxima semana, todos los clientes de Vertex AI tendrán acceso a Imagen 3. Marcas como Cadbury, Oreo y Milka se encuentran entre las primeras en utilizar estos modelos en sus estrategias de marketing.
Ambos modelos incorporan marcas de agua digitales para evitar información errónea y atribuciones erróneas, utilizando la tecnología SynthID de Google DeepMind. Además, incluyen medidas de seguridad integradas para evitar el uso indebido y la generación de contenido dañino. Es importante destacar que ninguno de los modelos se basa en datos de clientes.
Capacidades y limitaciones de Veo
La disponibilidad de Veo en una vista previa privada permitirá a empresas como Quora y Mondelez International explorar aplicaciones creativas, como la generación de contenido de video para sus plataformas. La capacidad de Veo para crear escenas con estilos visuales específicos es una de sus características destacadas. Puede producir contenido dinámico, incluidas fotografías de paisajes y vídeos a intervalos. Sin embargo, el modelo no está exento de defectos. Cuestiones como la desaparición de objetos y la física poco realista, como la marcha atrás de los vehículos, resaltan sus limitaciones actuales.
Inmediato: Un vehículo de vía rápida derribó una calle residencial suburbana bordeada de árboles. De día con un cielo azul claro. Colores saturados, alto contraste.
Vídeo: Google
Veo ha sido capacitado en una amplia gama de imágenes para mejorar sus capacidades. Cuando se le preguntó sobre sus fuentes de capacitación, Barkley mencionó que “puede” incluir contenido de YouTube, de acuerdo con los acuerdos con los creadores de contenido. Enfatizó que Google se enfoca en utilizar datos seleccionados y de alta calidad, cumpliendo con los estándares de seguridad. Al igual que con otros modelos de IA, surgen preocupaciones sobre los derechos de autor y el contenido propietario, especialmente con la posibilidad de que los modelos produzcan copias casi idénticas de trabajos existentes.
Google afirma que ha implementado filtros a nivel de aviso para gestionar resultados potencialmente dañinos. Además, la compañía planea indemnizar la producción de Veo en Vertex AI una vez que esté disponible de forma generalizada, ofreciendo cierta protección a las empresas que utilizan la herramienta.
Google está integrando gradualmente Veo en su conjunto de productos, como lo demuestra su introducción en Google Labs a principios de este año luego de los anuncios iniciales. En septiembre, el modelo se incorporó a YouTube Shorts, lo que permitió a los creadores producir escenas de fondo y breves videoclips fácilmente.
Crédito de la imagen destacada: Google DeepMind