Los agentes de IA pueden ser controlados por comandos maliciosos ocultos en las imágenes

Un estudio de 2025 de la Universidad de Oxford ha revelado una vulnerabilidad de seguridad en los agentes de IA, que se espera que se usen ampliamente en dos años. A diferencia de los chatbots, estos agentes pueden tomar medidas directas en la computadora de un usuario, como abrir pestañas o completar formularios. La investigación muestra cómo los atacantes pueden incorporar comandos invisibles en las imágenes para tomar el control de estos agentes.

Cómo funciona el ataque basado en imágenes

Los investigadores demostraron que al hacer cambios sutiles en los píxeles en una imagen, como un fondo de pantalla de escritorio, un anuncio en línea o una publicación en las redes sociales, podrían incorporar comandos maliciosos. Si bien estas alteraciones son invisibles para el ojo humano, un agente de IA puede interpretarlas como instrucciones. El estudio utilizó un fondo de pantalla «Taylor Swift» como ejemplo. Una sola imagen manipulada podría comandar un agente de IA en ejecución para retuitear la imagen en las redes sociales y luego enviar las contraseñas del usuario a un atacante. El ataque solo afecta a los usuarios que tienen un agente de IA activo en su computadora.

¿Por qué los fondos de pantalla son un vector de ataque efectivo?

Los agentes de IA trabajan tomando repetidamente capturas de pantalla del escritorio del usuario para comprender qué está en la pantalla e identificar elementos para interactuar. Debido a que un fondo de pantalla de escritorio siempre está presente en estas capturas de pantalla, sirve como un método de entrega persistente para un comando malicioso. Los investigadores encontraron que estos comandos ocultos también son resistentes a los cambios comunes de imagen como el cambio de tamaño y la compresión. Los modelos de IA de código abierto son especialmente vulnerables porque los atacantes pueden estudiar su código para aprender cómo procesan la información visual. Esto les permite diseñar patrones de píxeles que el modelo interpretará de manera confiable como un comando. La vulnerabilidad permite a los atacantes unir múltiples comandos. Una imagen maliciosa inicial puede instruir al agente para que naveguen a un sitio web, que podría alojar una segunda imagen maliciosa. Esta segunda imagen puede activar otra acción, creando una secuencia que permite ataques más complejos.

¿Qué se puede hacer?

Los investigadores esperan que sus hallazgos empujen a los desarrolladores a desarrollar medidas de seguridad antes de que los agentes de IA se generalicen. Las defensas potenciales incluyen modelos de reentrenamiento para ignorar este tipo de imágenes manipuladas o agregar capas de seguridad que eviten que los agentes actúen sobre contenido en pantalla.

La gente se apresura a implementar la tecnología antes de que su seguridad se entienda completamente.

Yarin Gal, profesor de Oxford y coautor del estudio, expresó su preocupación de que el rápido despliegue de la tecnología de agentes supere la investigación de seguridad. Los autores declararon que incluso las empresas con modelos de código cerrado no son inmunes, ya que el ataque explota los comportamientos del modelo fundamental que no pueden protegerse simplemente manteniendo el código privado.

Crédito de imagen destacado