Google desvelado Generative UI el lunes, una tecnología que permite a los modelos de IA generar interfaces interactivas totalmente personalizadas en respuesta a las indicaciones del usuario, impulsada por Gemini 3 Pro e implementada en la aplicación Gemini y el modo AI de Google Search para ofrecer experiencias dinámicas más allá de las respuestas de texto estático. La funcionalidad principal de Generative UI implica la creación de diversos resultados, como páginas web, herramientas interactivas, juegos y simulaciones basadas en cualquier pregunta o instrucción proporcionada por los usuarios. Este enfoque pasa de las interacciones de chatbot convencionales, que normalmente generan solo texto, a la producción de interfaces de usuario completas e interactivas adaptadas a necesidades específicas. El lanzamiento comienza en la aplicación Gemini, donde los usuarios encuentran estos elementos generados directamente, y se extiende al modo AI de la Búsqueda de Google, mejorando los resultados de búsqueda con componentes interactivos. Un trabajo de investigación titulado “UI generativa: los LLM son generadores de UI efectivos«, publicado junto con el anuncio, detalla el proceso de evaluación. Los evaluadores humanos compararon las interfaces generadas por IA con los resultados del modelo de lenguaje grande estándar, excluyendo la velocidad de generación como variable. Los resultados mostraron una fuerte preferencia por las interfaces interactivas, lo que indica su efectividad en la participación y comprensión del usuario. Este documento, escrito por investigadores de Google, incluido el miembro Yaniv Leviathan, proporciona apoyo empírico para la viabilidad de la tecnología. Dentro de la aplicación Gemini, Google prueba dos implementaciones distintas de Generative UI. La vista dinámica aprovecha Gemini 3 para diseñar y codificar interfaces personalizadas para cada mensaje individual. Este proceso implica analizar el contexto del mensaje para adaptar tanto el contenido presentado como las características interactivas incluidas, asegurando la relevancia para la intención del usuario. Por ejemplo, el sistema genera código sobre la marcha para crear elementos como botones, formularios o visualizaciones que responden a las entradas del usuario en tiempo real. Se puede ampliar, modificar o interactuar más. Este formato permite una narración visual combinada con funcionalidades, como elementos arrastrables o simulaciones incrustadas, lo que hace que la información compleja sea más accesible a través de medios gráficos. Google enfatiza la capacidad de la tecnología para personalizar los resultados según la audiencia, «personaliza la experiencia con el entendimiento de que explicar el microbioma a un niño de 5 años requiere un contenido diferente y un conjunto diferente de características que explicárselo a un adulto». Esta adaptación implica ajustar la complejidad del lenguaje, las ayudas visuales y los niveles de interacción para que coincidan con el conocimiento y la edad del destinatario, aprovechando las capacidades de razonamiento contextual del modelo. En la Búsqueda de Google, el acceso a la IU generativa se produce a través del modo AI, limitado a los suscriptores de Google AI Pro y Ultra en los Estados Unidos. Los usuarios lo activan eligiendo «Pensamiento» en el menú desplegable del modelo, que luego procesa consultas para generar simulaciones y herramientas interactivas personalizadas. Esta integración enriquece las experiencias de búsqueda al proporcionar exploraciones prácticas de temas, como calculadoras financieras o modelos científicos, directamente dentro de la interfaz de búsqueda. https://storage.googleapis.com/gweb-research2023-media/media/Dynamic_View_Van_Gogh_1920x1080.mp4
Vídeo: Google
El sistema subyacente combina Gemini 3 Pro con mejoras específicas: el acceso a herramientas permite la generación de imágenes y las integraciones de búsqueda web, lo que permite que la IA incorpore datos y elementos visuales en tiempo real en las interfaces. Las instrucciones del sistema cuidadosamente diseñadas guían el comportamiento del modelo para alinearlo con las expectativas del usuario, mientras que los pasos de posprocesamiento corrigen errores comunes como inconsistencias en el diseño o imprecisiones fácticas. Estos componentes trabajan juntos para perfeccionar los resultados antes de la presentación. Para avanzar en la investigación externa, Google desarrolló el conjunto de datos PAGEN, que comprende sitios web diseñados por expertos en varios dominios. Esta colección sirve como punto de referencia para entrenar y evaluar modelos de generación de UI. El conjunto de datos pronto estará disponible para la comunidad de investigación en general, facilitando estudios sobre la creación y mejora de interfaces impulsadas por IA. https://storage.googleapis.com/gweb-research2023-media/media/AIM-CAPYBARA-RNA-1920×1080-Under20MB.mp4
Vídeo: Google
Las versiones actuales de Generative UI presentan ciertas limitaciones. Los tiempos de generación suelen superar el minuto, dependiendo de la complejidad del mensaje y la interfaz requerida. En ocasiones, los resultados contienen imprecisiones, como representaciones de datos incorrectas o fallos funcionales, que Google identifica como áreas activas de investigación. Los esfuerzos se centran en optimizar la velocidad y la confiabilidad mediante actualizaciones iterativas del modelo y técnicas de procesamiento refinadas. Esta presentación coincide con el lanzamiento de Gemini 3, el modelo de IA más avanzado de Google hasta la fecha. Gemini 3 Pro logró una puntuación de 1501 en la clasificación de LMArena, superando a iteraciones anteriores en métricas de rendimiento general. En el punto de referencia GPQA Diamond, diseñado para tareas de razonamiento a nivel de doctorado, alcanzó una precisión del 91,9 por ciento. Además, sin herramientas externas, obtuvo una puntuación del 37,5 por ciento en el último examen de la humanidad, una prueba integral de conocimientos avanzados en todas las disciplinas.





