¿Qué pasaría si la automatización de un escritorio no se tratara de secuencias de comandos, sino de darle a su sistema operativo un equipo inteligente de agentes? Esa es la idea central detrás UFO2El nuevo sistema de código abierto de Microsoft que empuja más allá de los agentes actuales de uso de la computadora (CUAS) y la automatización de reinventos como una abstracción del sistema operativo de primera clase. Convierte su escritorio en un panel de control inteligente donde las tareas impulsadas por el lenguaje se ejecutan de forma nativa, de manera confiable y con una interrupción mínima en su flujo de trabajo.
Las herramientas de automatización de escritorio tradicionales como los sistemas RPA siempre han tenido problemas con la robustez. Un cambio menor en una interfaz de usuario puede destruir un script completo. Los CUA trataron de abordar esto con modelos de idiomas grandes y análisis de captura de pantalla, pero permanecieron limitados por la integración del sistema poco profundo y las experiencias de los usuarios torpes. UFO2 voltea este modelo construyendo desde el sistema operativo hacia arriba. Presenta una arquitectura multiagente donde un hostagente central coordenadas especializadas Apagios para diferentes aplicaciones. Cada agente habla el idioma nativo de la aplicación a través de API y metadatos de UI, no solo píxeles.

Una de las innovaciones técnicas clave de UFO2 es su modelo de acción híbrida. En lugar de simplemente hacer clic en botones como un humano, cada apagente puede llamar a API reales cuando estén disponibles. Esto significa que las tareas como la exportación de una hoja de cálculo o el texto de formato se reducen de bailes de GUI de varios pasos a una sola llamada de función atómica. El sistema también especula con anticipación, utilizando una sola llamada LLM para planificar múltiples pasos y validar cada uno en vivo con los datos de la interfaz de usuario de Windows. Este ejecución de múltiples acciones especulativas reduce drásticamente la latencia sin arriesgar la corrección.
Aislamiento sin interrupción
Los CUA generalmente secuestran su escritorio, bloqueando el mouse y el teclado durante la ejecución. UFO2 Imagen en imagen (PIP) El modo resuelve esto con una ventana de escritorio virtual que ejecuta tareas de automatización en paralelo. El agente hace lo suyo en un entorno de sandboxed, mientras continúa trabajando en la sesión principal. Es perfecto, seguro y utiliza Windows RDP Loopback para mantener la integridad de la sesión.

UFO2 integra los registros de documentación y ejecución de ayuda en una memoria acuática de recuperación, enriqueciendo sus indicaciones con el conocimiento de procedimiento. Con el tiempo, esto crea un agente de administración personal que mejora en nuevas tareas sin reentrenamiento. Cada Appagent extrae de la documentación, las notas del parche y las ejecuciones anteriores para tomar decisiones más inteligentes. Es un sistema de automatización con memoria, no solo de generación de respuesta.
En puntos de referencia cara a cara contra el operador de OpenAi y otros CUA superiores, UFO2 supera constantemente. En el punto de referencia de OSWorld-W, UFO2 alcanza una tasa de éxito del 32.7% utilizando el modelo O1, más que duplicar el 14.3% del operador. Su planificación especulativa reduce los pasos de acción hasta en un 50%. La detección de control híbrido (que combina las API de UIA y el análisis de la visión) recupera más del 25% de las interacciones previamente fallidas. En pocas palabras, UFO2 no es solo más inteligente, es sistémicamente mejor.
Todo es un agente ahora
La extensibilidad se hornea. UFO2 permite que las herramientas de terceros, incluidas otras CUA como operador, se envuelvan como apagentes. Esto significa que puede integrar copilotos especializados o backends de automatización patentados en el ecosistema UFO2 sin requisito o reescritura en código. También es compatible con una arquitectura de cliente cliente para la implementación empresarial, manteniendo la orquestación centralizada y la luz de los dispositivos de usuario.
El documento describe los objetivos futuros, incluida la compatibilidad multiplataforma con MacOS y Linux a través de API de accesibilidad análoga, respuesta más rápida a través de LLM más pequeños y un razonamiento mejorado de conjuntos de datos de interacción GUI dedicados. Pero incluso en su estado actual, UFO2 representa un nueva línea de base para la automatización de escritorio. Es de código abierto, ya superando los sistemas comerciales, y aporta un nuevo nivel de modularidad, confiabilidad e inteligencia a la interacción humana-computadora.
Para cualquiera que construya la próxima generación de agentes inteligentes, o simplemente cansados de los guiones frágiles,UFO2 está disponible en GitHub junto con su documentación.
Crédito de imagen destacado