Google Deepmind ha introducido Genie 3, un nuevo modelo de AI World, capaz de generar entornos 3D para la interacción en tiempo real por parte de los usuarios y los agentes de IA. Esta iteración mejora la interacción sostenida del usuario y mejora la memoria de objetos dentro de estos mundos simulados.
Los modelos mundiales son sistemas de IA diseñados para simular entornos para fines que incluyen educación, entretenimiento y capacitación para robots o agentes de IA. Estos sistemas generan espacios interactivos a partir de indicaciones del usuario, que difieren de los activos 3D hechos a mano mediante la creación de entornos completamente a través de IA. Google ha invertido significativamente en esta área, demostrando previamente Genie 2 en diciembre, lo que podría generar mundos interactivos a partir de imágenes. Un equipo dedicado de Models World Models, dirigido por un antiguo liderazgo de la herramienta de generación de video SORA de Operai, lidera estos esfuerzos.
Los modelos anteriores exhibieron limitaciones. Genie 2 Worlds, por ejemplo, fueron jugables por un máximo de un minuto. Las tecnologías de video interactivas anteriores han mostrado entornos que se distorsionan cuando se ven o vuelven a ver.
Genie 3 aborda algunos de estos inconvenientes. Los usuarios pueden generar mundos a través de indicaciones que admiten «unos pocos» minutos de interacción continua, un aumento de los 10-20 segundos ofrecidos por Genie 2, como se indica en un blog por Google. Genie 3 puede mantener espacios en la memoria visual durante aproximadamente un minuto, lo que garantiza elementos como la pintura en una pared o la escritura en una pizarra permanece en su lugar tras la reobservación. Los mundos generados contarán con una resolución de 720p y operarán a 24 cuadros por segundo.
DeepMind está incorporando «eventos mundiales rápidos» en Genie 3. Los usuarios podrán alterar las condiciones climáticas o introducir nuevos personajes dentro de un mundo generado a través de indicaciones.
Genie 3 se ofrece actualmente como «una vista previa de investigación limitada», accesible para «una pequeña cohorte de académicos y creadores». Este lanzamiento controlado tiene como objetivo facilitar la evaluación de riesgos y las estrategias de mitigación de los desarrolladores, según Google. Las restricciones incluyen métodos limitados de interacción del usuario y que el texto legible «a menudo solo se genera cuando se proporciona en la descripción del mundo de entrada». Google ha declarado que está «explorando» una difusión más amplia a «probadores adicionales» en el futuro.