Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Fara-7B de Microsoft: nuevo LLM agente a partir de capturas de pantalla

byKerem Gülen
25 noviembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

Investigación de Microsoft liberado Fara-7B, un modelo de lenguaje pequeño agente de 7 mil millones de parámetros para uso en computadora, capaz de ejecutar tareas localmente a partir de capturas de pantalla. Fara-7B funciona como un agente de uso informático de peso abierto, prediciendo las acciones del mouse y el teclado directamente a partir de capturas de pantalla. Su tamaño compacto permite la ejecución en el dispositivo de un solo usuario, lo que reduce la latencia y retiene los datos de navegación localmente. A diferencia de los modelos de lenguaje grande (LLM) convencionales que generan texto y están orientados al chat, los agentes de uso informático como Fara-7B controlan las interfaces del navegador o del escritorio para completar tareas como completar formularios, reservar viajes o comparar precios. Interpretan la pantalla, analizan los diseños de las páginas y luego producen acciones de bajo nivel que incluyen clics, desplazamientos, tipos, búsquedas web o visitas a URL. Muchos sistemas actuales utilizan grandes modelos multimodales integrados con andamios complejos que analizan árboles de accesibilidad y coordinan varias herramientas. Esto aumenta la latencia y, a menudo, requiere una implementación del lado del servidor. Fara-7B condensa la funcionalidad de dichos sistemas multiagente en un único modelo de decodificador multimodal, construido sobre Qwen2.5-VL-7B. Procesa capturas de pantalla del navegador y contexto de texto, luego genera texto pensado seguido de una llamada a la herramienta con argumentos fundamentados, como coordenadas, texto o URL. La principal limitación para los agentes de uso informático tiene que ver con los datos, ya que los registros de alta calidad de las interacciones humanas en la web de varios pasos son escasos y costosos de adquirir. El proyecto Fara presenta FaraGen, un motor de datos sintéticos que genera y filtra trayectorias web en sitios activos. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4

Vídeo: Microsoft

FaraGen emplea un proceso de tres etapas. Propuesta de tarea comienza con URL semilla de corpus públicos como ClueWeb22 y Tranco, categorizados en dominios como comercio electrónico, viajes, entretenimiento o foros. Los modelos de lenguaje grandes convierten cada URL en tareas de usuario realistas, por ejemplo, reservar entradas de cine específicas o crear una lista de compras con restricciones de revisión y materiales. Las tareas deben poder realizarse sin iniciar sesión ni pagar, estar completamente especificadas, ser útiles y verificables automáticamente.

Resolución de tareas utiliza un sistema multiagente basado en Magentic-One y Magentic-UI. Un agente de Orchestrator planifica una estrategia de alto nivel y mantiene el estado de la tarea. Un agente de WebSurfer recibe árboles de accesibilidad y capturas de pantalla del conjunto de marcas, luego emite acciones del navegador a través de Playwright, que incluyen hacer clic, escribir, desplazarse, visitar_url o web_search. Un agente UserSimulator proporciona instrucciones de seguimiento para tareas que requieren aclaración.

Verificación de trayectoria utiliza tres verificadores basados ​​en LLM. Un Verificador de Alineación verifica que las acciones y las respuestas finales se alineen con la intención de la tarea. Un verificador de rúbricas genera una rúbrica de submetas y califica su cumplimiento parcial. Un verificador multimodal inspecciona las capturas de pantalla y la respuesta final para detectar alucinaciones y confirmar que la evidencia visible respalda el éxito. Estos verificadores demuestran acuerdo con etiquetas humanas en 83,3 por ciento de casos, con tasas de falsos positivos y falsos negativos reportadas entre el 17 y el 18 por ciento. Después del filtrado, FaraGen produce 145.603 trayectorias con 1.010.797 pasos al otro lado de 70,117 dominios únicos. Las trayectorias varían de 3 a 84 pasos, en promedio 6,9 pasos y aproximadamente 0,5 dominios únicos por trayectoria, lo que indica que las tareas a menudo involucran sitios que no están presentes en otras partes del conjunto de datos. Generar datos con modelos premium como GPT-5 y o3 cuesta aproximadamente $1 por trayectoria verificada. Fara-7B es un modelo de decodificador multimodal que utiliza Qwen2.5-VL-7B como base. Procesa el objetivo de un usuario, capturas de pantalla actuales del navegador y el historial completo de pensamientos y acciones anteriores. La ventana contextual admite 128.000 fichas. En cada paso, el modelo primero genera una cadena de pensamiento que detalla el estado y el plan actual, luego genera una llamada a la herramienta que especifica la siguiente acción y sus argumentos. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4

Vídeo: Microsoft

El espacio de herramientas se alinea con la interfaz de uso de computadora de Magentic-UI, que abarca tecla, tipo, movimiento del mouse, clic izquierdo, desplazamiento, URL de visita, búsqueda web, retroceso del historial, pausa y memorización de hechos, espera y finalización. Las coordenadas se predicen directamente como posiciones de píxeles en la captura de pantalla, lo que permite que el modelo funcione sin acceso al árbol de accesibilidad durante la inferencia. La capacitación implicó un ajuste supervisado durante aproximadamente 1,8 millones de muestrasmezclando múltiples fuentes de datos. Estos incluyen trayectorias de FaraGen divididas en pasos de observar, pensar y actuar, tareas de conexión a tierra y localización de la interfaz de usuario, subtítulos y respuestas a preguntas visuales basadas en capturas de pantalla, y conjuntos de datos de seguridad y rechazo. Microsoft realizó evaluaciones de Fara-7B en cuatro puntos de referencia web en vivo: WebVoyager, Online-Mind2Web, DeepShop y el nuevo WebTailBench. WebTailBench se centra en segmentos subrepresentados, como reservas de restaurantes, solicitudes de empleo, búsqueda de bienes raíces, comparación de precios y tareas de composición en múltiples sitios. En estos puntos de referencia, Fara-7B logró 73,5 por ciento de éxito en WebVoyager, 34,1 por ciento en Online-Mind2Web, 26,2 por ciento en DeepShopy 38,4 por ciento en WebTailBench. Esto supera la línea base UI-TARS-1.5-7B del 7B Computer Use Agent, que obtuvo una puntuación de 66,4, 31,3, 11,6 y 19,5 respectivamente, y se compara favorablemente con sistemas más grandes como la vista previa del uso de la computadora OpenAI y las configuraciones del SoM Agent construidas en GPT-4o. En WebVoyager, Fara-7B utiliza un promedio de 124.000 tokens de entrada y 1100 tokens de salida por tareacon aproximadamente 16.5 acciones. Utilizando los precios de los tokens de mercado, el equipo de investigación estima un costo promedio de $0.025 por tareaen comparación con alrededor de $ 0,30 para los agentes SoM respaldados por modelos de razonamiento patentados como GPT-5 y o3. Fara-7B utiliza una cantidad similar de tokens de entrada, pero aproximadamente una décima parte de los tokens de salida de estos agentes SoM.

  • Fara-7B: Un agente de uso informático de peso abierto y parámetro 7B construido sobre Qwen2.5-VL-7B.
  • Operación: Opera directamente desde capturas de pantalla y texto, genera acciones basadas en árboles de accesibilidad en el momento de la inferencia.
  • Datos de entrenamiento: 145.603 trayectorias de navegador verificadas y 1.010.797 pasos generados por el canal FaraGen en 70.117 dominios.
  • Éxito de referencia (WebVoyager): 73,5 por ciento.
  • Éxito de referencia (Online-Mind2Web): 34,1 por ciento.
  • Éxito de referencia (DeepShop): 26,2 por ciento.
  • Éxito de referencia (WebTailBench): 38,4 por ciento.
  • Costo en WebVoyager: Aproximadamente $0.025 por tareautilizando 124.000 tokens de entrada y 1.100 tokens de salida.
  • Eficiencia del token de salida: Aproximadamente un orden de magnitud más barato en el uso de tokens de salida que los agentes SoM respaldados por modelos de clase GPT-5.

Fara-7B representa un desarrollo hacia agentes de uso informático prácticos capaces de operar hardware local con costos de inferencia reducidos y al mismo tiempo mantener la privacidad. La integración de Qwen2.5-VL-7B, las trayectorias sintéticas de FaraGen y WebTailBench proporciona un camino desde la generación de datos de múltiples agentes hasta un modelo único y compacto que iguala o supera a los sistemas más grandes en puntos de referencia clave, al tiempo que incorpora salvaguardias de punto crítico y rechazo.


Crédito de imagen destacada

Tags: fara-7bMicrosoft

Related Posts

Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025

Recent Posts

  • El anuncio navideño de Porsche 2025 se vuelve viral por no utilizar absolutamente ninguna IA
  • Los juegos en la nube de Xbox llegan a los modelos Amazon Fire TV
  • La violación de datos de Aflac afectó a 22,65 millones de clientes
  • Amazon agrega Angi, Expedia, Square y Yelp a Alexa+
  • La interrupción de AWS afecta a Fortnite y Steam

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.