Esta IA aprende a hacer clic mejor que tú

La inteligencia artificial finalmente está aprendiendo cómo navegar en la pantalla de su teléfono como un humano, excepto más rápido, más inteligente y con una práctica sorprendentemente pequeña. Un nuevo investigación Proyecto de Vivo AI Lab y MMLab en la Universidad China de Hong Kong presenta un modelo llamado UI-R1que repensa cómo los agentes de IA están entrenados para comprender e interactuar con las interfaces gráficas de usuario (GUI). Y aquí está el giro: no se basa en conjuntos de datos masivos o miles de horas de GPU.

En cambio, UI-R1 hace algo refrescantemente inteligente. Aprende a través de Aprendizaje de refuerzo (RL)—Not, ajuste fino (SFT) supervisado, el método estándar que requiere datos etiquetados manualmente y ciclos de entrenamiento costosos. Eso significa que no hay necesidad de alimentarlo decenas de miles de ejemplos de botones, barras de desplazamiento o cuadros de texto. Solo un lote cuidadosamente seleccionado de 136 tareas móviles fue suficiente para construir un modelo que funcione mejor que muchos modelos más grandes y muy entrenados en tareas de pantalla del mundo real.

Desempaquemos por qué esto importa y cómo funciona.

Entonces, ¿qué hace realmente UI-R1?

Imagine esto: está mirando una captura de pantalla de una pantalla de teléfono y alguien le dice que «toque el botón Atrás». Mira el diseño, descubre dónde está el botón Atrás y toque. Parece fácil para un humano.

Ahora imagine entrenar a una IA para hacer eso. Durante años, esto ha significado capacitar a grandes modelos multimodales (modelos que pueden comprender las imágenes y el texto) para asociar comandos como «Toque hacia atrás» con el lugar correcto en la pantalla. Eso es lo que hacen los agentes de la GUI como Cogagent, Aria-Gui y OS-Atlas: aprenden de grandes conjuntos de datos con ejemplos etiquetados de acciones y elementos.

Pero este proceso es lento, costoso y no se generaliza bien. Cuando mueve la IA de la pantalla de un teléfono a una interfaz de escritorio o un navegador web, su rendimiento a menudo se establece. Es como entrenar a un perro para buscar una pelota, pero solo en una habitación de tu casa, hazla afuera y el perro olvida qué hacer.

UI-R1 cambia esto. En lugar de tratar de «memorizar» miles de diseños de interfaz, aprende cómo razonar sobre ellos usando el aprendizaje de refuerzo y un sistema inteligente de recompensa basado en reglas.

Un sistema de recompensa más inteligente, no un modelo más grande

El modelo detrás de UI-R1 se llama Qwen2.5-vl-3b—Un modelo multimodal de 3 mil millones de parámetros, mucho más pequeño que los gigantes 7B y 18B en el juego. Pero UI-R1 lo ajusta a RL con un sistema de recompensas único que no requiere retroalimentación humana.

Esta función de recompensa juzga el modelo en tres cosas:

¿Eligió el tipo de acción correcto? (Haga clic, desplácese, regrese, abra la aplicación, el texto de entrada)
¿Seleccionó el lugar correcto para hacer clic? (Las coordenadas deben caer dentro del cuadro correcto)
¿Explicó claramente su razonamiento y proporcionó una respuesta final válida? (Usando un formato estructurado)

Este bucle de retroalimentación estructurado ayuda al modelo a aprender a hacer mejores predicciones con el tiempo. Piense en ello como un juego: cada vez que la IA se acerca a la respuesta correcta, obtiene puntos en función de estas reglas y calcula gradualmente cómo ganar con más frecuencia.

Es importante destacar que no es solo aprender a adivinar, es aprender a explicar por qué cree que cierto botón es el correcto para tocar. Esa es la clave para los agentes de construcción en los que puede confiar para operar software, aplicaciones y dispositivos.

AI Masters Language pero Flunks LEGO 101

Pequeños datos, grandes ganancias

Aquí es donde las cosas se vuelven locas. UI-R1 fue entrenado solo 136 ejemplos—Y todavía superó a muchos modelos supervisados entrenados en miles.

En puntos de referencia como Pantallas y Scantspot-proque prueba qué tan bien un modelo puede identificar elementos de interfaz de usuario en todas las plataformas (móviles, escritorio y web), las precisiones de conexión a tierra entregadas con UI-R1 hasta 78.6%Venciendo modelos como Seeclick (¡entrenado en 1 millón de ejemplos!) E incluso coincidiendo con el rendimiento de modelos 7B más grandes.

También acogió otro punto de referencia llamado Control de Androiddonde necesitaba predecir tanto el tipo de acción correcto como dónde aplicarlo. UI-R1 registró con un 88.5% precisión promediosuperan los modelos capacitados en 76,000 ejemplos, un nivel absurdo de eficiencia para solo 136 tareas de capacitación.

Es como enseñarle a alguien al ajedrez mostrándoles solo 10 juegos, y verlo vencer al campeón del club.

¿Por qué funciona tan bien esto?

Algunas cosas aparecen UI-R1:

Recompensas basadas en reglas: No hay necesidad de datos etiquetados o revisores humanos. El modelo se obtiene en base a reglas simples y estructuradas.
Refuerzo sobre la repetición: En lugar de memorizar respuestas (como en la capacitación supervisada), UI-R1 aprende estrategias que se generalizan.
Datos cuidadosamente seleccionados: El equipo no solo lanzó ningún ejemplo de entrenamiento. Eligieron tareas que eran duras, diversas y de alta calidad. Sin relleno.

Y quizás lo más importante, el modelo no solo adivina a ciegas. Gracias a sus «tokens de razonamiento» y formato de salida estructurado ( y etiquetas), UI-R1 aprende a pensar en cada tarea. Eso es lo que lo hace generalizar tan bien a los nuevos entornos, incluso con diseños desconocidos.

¿Qué significa esto para las interfaces de IA?

Este podría ser el comienzo de una nueva ola de agentes de GUI generalistas. En lugar de entrenar modelos a medida para cada aplicación, plataforma o tarea, podríamos crear modelos compactos y adaptables como UI-R1 que pueden razonar a través de cualquier pantalla, cualquier dispositivo, cualquier instrucción.

Para desarrolladoressignifica costos más bajos, menos datos y iteración más rápida.
Para usuariospodría significar asistentes virtuales más inteligentes que realmente entienden lo que desea hacer en su pantalla.
Para investigadoreses una prueba de que el aprendizaje de refuerzo con recompensas basadas en reglas simples no es solo para los juegos y los problemas matemáticos, es una verdadera alternativa a SFT para las tareas de interfaz.

Todavía es temprano

Si bien los resultados de UI-R1 son impresionantes, hay más por hacer. Por ejemplo, todavía requiere formatos de entrada limpios y indicaciones cuidadosamente escritas. También supone que las capturas de pantalla e instrucciones del dispositivo están razonablemente alineadas, una suposición segura en un entorno de referencia, pero más complicado en el mundo real desordenado.

Aún así, es un gran paso adelante.

Y quizás lo más emocionante, muestra que El entrenamiento más inteligente supera a los modelos más grandes— Al menos cuando se trata de comprender qué hay en su pantalla y descubrir cómo actuar.

En un mundo donde estamos rodeados de un software cada vez más complejo, AI como UI-R1 pronto podría ser el único clic, desplazamiento y aprovechando en nuestro nombre, con precisión, razón y apenas entrenamiento.

Crédito de imagen destacado