Un reciente estudiar de la Universidad de Ciencias Aplicadas de Zúrich por Pascal J. Sager, Benjamin Meyer, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. Grewe y Thilo Stadelman revelan que los agentes de AI han oficial superado por su fase de chatbot.
Los agentes de IA están ejecutando el programa, haciendo clic, desplazándose y escribiendo a través de flujos de trabajo con precisión misteriosa. Estos agentes de control de computadora basados en instrucciones (CCA) pueden ejecutar comandos, interactuando con entornos digitales como operadores humanos experimentados. Pero a medida que se acercan a la autonomía completa, una cosa queda clara: cuanto más poder les damos, más difícil será mantenerlos bajo control.
Cómo los agentes de IA están aprendiendo a usar computadoras como usted
Las herramientas de automatización tradicionales son macros glorificadas: repetitivas, rígidas y despistadas fuera de sus caminos con guión. Los CCA, por otro lado, están construidos para improvisar. No solo siguen las instrucciones; Observan, interpretan y actúan en base a lo que «ven» en una pantalla, gracias a los modelos de lenguaje de visión (VLMS) y modelos de idiomas grandes (LLM). Esto les permite:
- Leer pantallas como un humanoidentificación de texto, botones y campos de entrada sin coordenadas predefinidas.
- Ejecutar tareas de múltiples pasoscomo abrir un correo electrónico, copiar datos, pegarlo en una hoja de cálculo y golpear el envío, todo sin supervisión directa.
- Comprender las instrucciones del lenguaje naturalEliminar la necesidad de que los usuarios aprendan scripts de automatización complejos.
- Adaptarse a las interfaces cambianteshaciéndolos significativamente más flexibles que las herramientas de automatización basadas en reglas.
Dígale a un CCA que «encuentre los principales clientes potenciales de ventas de hoy y les envíe un correo electrónico a un seguimiento», y se mueve a través de aplicaciones, extrae datos relevantes, compone un correo electrónico y lo envía, al igual que un asistente humano. A diferencia del RPA de la vieja escuela (automatización de procesos robóticos) que se desmorona cuando cambia una interfaz de usuario, los CCA pueden ajustarse en tiempo real, identificar elementos visuales y tomar decisiones sobre la marcha.
La próxima frontera? Integración con repositorios de conocimiento basados en la nube y toma de decisiones autónomas. Cuanto más aprendan estos agentes, más sofisticadas se vuelven sus capacidades: hacer preguntas sobre cuánta confianza debemos poner en ellos en ellos.
Cómo los modelos de idiomas grandes están transformando la revisión por pares
Los beneficios: productividad, accesibilidad y automatización
No se puede negar que los CCA vienen con serias ventajas:
- Productividad en esteroides: Las tareas tediosas y que requieren mucho tiempo desaparecen, lo que permite a los trabajadores centrarse en las decisiones de mayor valor en lugar de hacer clic en los paneles.
- Revolución de accesibilidad: Las personas con discapacidades pueden interactuar con la tecnología de manera más perfecta a través de la navegación y la automatización de tareas con IA.
- Escalabilidad para toda la empresa: Las empresas pueden automatizar flujos de trabajo completos sin contratar a un ejército de especialistas en TI para construir soluciones personalizadas.
- Integración de todo el sistema: Los CCA funcionan en diferentes plataformas y aplicaciones, asegurando interacciones digitales perfectas.
- Eficiencia siempre sobre: A diferencia de los trabajadores humanos, estos agentes no se cansan, se distraen ni toman pausas para almorzar.
Los riesgos: privacidad, seguridad y confianza
Para cada victoria de productividad, hay una pesadilla de seguridad igual y opuesta al acecho en el fondo. Dar control de IA sobre las interfaces de usuarios no es solo automatización: está otorgando acceso a una máquina sin parpadear a flujos de trabajo confidenciales, transacciones financieras y datos privados. Y ahí es donde las cosas se complican.
Los CCA funcionan «mirando» pantallas y analizando el texto. ¿Quién asegura que la información confidencial no esté mal utilizada o registrada? ¿Quién mantiene bajo control las teclas con AI?
Si un agente de IA puede iniciar sesión en su aplicación bancaria y transferir dinero con un solo comando, ¿qué sucede si está pirateado? Estamos entregando las teclas digitales al reino con pocas salvaguardas. Si un CCA comete un error catastrófico, elimina el archivo incorrecto, envía el correo electrónico incorrecto o aprueba una transacción desastrosa, ¿quién es responsable? Los humanos pueden ser despedidos, multados o entrenados. ¿AI? No tanto.
Y, si un actor malicioso secuestra a un CCA, no solo obtienen acceso, sino que obtienen un cómplice incansable y automatizado capaz de causar estragos a escala. Los legisladores están luchando para mantenerse al día, pero no hay un libro de jugadas para los asistentes digitales impulsados por la IA que toman decisiones de alto riesgo en tiempo real.
¿Qué viene después?
Las empresas se mueven con cautela, tratando de equilibrar las innegables ganancias de eficiencia con los riesgos inminentes. Algunas compañías están aplicando modelos de «humano en el bucle», donde los agentes de IA manejan la ejecución pero requieren la aprobación manual de acciones críticas. Otros están invirtiendo en políticas de gobierno de IA para crear salvaguardas antes de que estos agentes se conviertan en estándar en las operaciones empresariales.
Lo que es seguro es que los CCA no son una tendencia pasajera: son la próxima fase de la evolución de IA, incrustándose silenciosamente en flujos de trabajo e interfaces en todas partes. A medida que se vuelven más capaces, el debate no será sobre si deberíamos usarlos, sino cómo podemos controlarlos.
Imágenes: Kerem Gülen/MidJourney