OpenAI tiene lanzado una vista previa de la investigación de Operador, un agente de IA de propósito general capaz de realizar tareas de forma independiente tomando el control de un navegador web. Esta función está disponible por primera vez para los usuarios de EE. UU. en el plan de suscripción Pro de $200 de ChatGPT, con planes de expandirse a niveles de usuarios adicionales en el futuro.
Operador OpenAI
El operador puede automatizar diversas tareas, incluidas la reserva de alojamiento para viajes, la realización de reservas en restaurantes y las compras en línea. Los usuarios pueden seleccionar entre categorías como compras, entregas, cenas y viajes dentro de la interfaz del Operador. Cuando se activa, aparece una ventana del navegador web dedicada que muestra a los usuarios las acciones que realiza el Operador junto con explicaciones. Los usuarios pueden mantener el control de sus pantallas mientras el Operador opera en su propio entorno de navegador.
OpenAI afirma que la superinteligencia está más cerca de lo que cree
El agente de IA funciona con un modelo de agente que utiliza computadora (CUA), que combina las capacidades de visión del modelo GPT-4o con razonamiento avanzado. CUA interactúa con la interfaz de los sitios web sin requerir API centradas en los desarrolladores. Esta funcionalidad le permite usar botones, navegar por menús y completar formularios como lo haría un humano. OpenAI colabora con varias empresas, incluidas DoorDash, eBay, Instacart y Priceline, lo que garantiza que el Operador cumpla con sus acuerdos de términos de servicio.
OpenAI afirma que el modelo CUA está diseñado para solicitar la confirmación del usuario antes de finalizar tareas que tienen efectos externos, como enviar un pedido o enviar un correo electrónico. A pesar de sus capacidades, OpenAI advierte que es posible que CUA no funcione de manera confiable en todos los escenarios y tenga dificultades con tareas complejas como crear presentaciones de diapositivas detalladas, administrar calendarios complejos o navegar por interfaces web no estándar.
Para tareas delicadas, como transacciones bancarias, se requiere supervisión del usuario. El operador no recopila ni captura de pantalla los datos del usuario y exige supervisión directa en sitios particularmente sensibles como el correo electrónico y los servicios financieros, lo que permite a los usuarios solucionar cualquier error con prontitud.
El operador tiene ciertas limitaciones. OpenAI impone límites de velocidad (tanto diarios como dependientes de las tareas) y especifica que ciertas tareas, como enviar correos electrónicos o eliminar eventos del calendario, se rechazarán por razones de seguridad. OpenAI planea revisar estas restricciones en el futuro, aunque no se proporciona un cronograma específico.https://www.youtube.com/watch?v=m0Cjiq8P6iU
El operador también puede encontrar dificultades con interfaces web complejas, campos de contraseña y comprobaciones de CAPTCHA, lo que obliga al usuario a intervenir en ese momento. OpenAI reconoce los riesgos de seguridad asociados con los sistemas de IA que pueden tomar acciones en la web, enfatizando la necesidad de prevenir posibles ataques por parte de actores maliciosos.
OpenAI ha implementado varias medidas de seguridad. El agente solicita información de control del usuario durante transacciones confidenciales y realiza confirmaciones del usuario antes de acciones importantes. El operador rechaza tareas específicas de alto riesgo y requiere supervisión directa en plataformas sensibles. Las medidas de investigación incluyen una navegación cautelosa para evitar inyecciones rápidas, un sistema de monitoreo para pausar las operaciones durante actividades sospechosas y un canal de detección automatizado para salvaguardas actualizadas.
¿Qué es el operador de OpenAI y cómo funciona?
El operador es un agente de inteligencia artificial de uso general que puede realizar tareas de forma autónoma en la web mediante un navegador dedicado. Interactúa con sitios web haciendo clic en botones, navegando por menús y completando formularios.
¿En qué se diferencia Operador de otras herramientas de inteligencia artificial como Siri, Alexa o el Asistente de Google?
A diferencia de los asistentes tradicionales, el Operador no sólo procesa información; puede realizar acciones en la web, como reservar alojamiento o pedir comida, interactuando directamente con los sitios web.
¿Qué tareas puede realizar el Operador de forma autónoma?
Puede manejar tareas repetitivas como reservar viajes, pedir comida, hacer reservas y comprar en línea.
¿Por qué se lanza Operador primero como avance de la investigación?
La vista previa de la investigación permite a OpenAI recopilar comentarios, mejorar la seguridad y perfeccionar la herramienta antes de una implementación más amplia.
¿Qué es el modelo de agente que utiliza computadora (CUA) y cómo permite que el operador interactúe con los sitios web?
CUA combina las capacidades de visión de GPT-4o con razonamiento avanzado, lo que permite al operador ver e interactuar con interfaces gráficas de usuario como botones y formularios.
¿Puede el Operador realizar tareas complejas como crear presentaciones de diapositivas o administrar calendarios?
Aún no. El operador lucha con interfaces complejas y flujos de trabajo especializados.
¿Cuáles son los límites de tarifas o limitaciones de tareas para usar Operador?
El operador tiene límites de uso dinámicos diarios y específicos de tareas, y no puede realizar tareas como enviar correos electrónicos o manejar CAPTCHA.
¿Cómo maneja el Operador tareas delicadas como realizar operaciones bancarias o ingresar detalles de pago?
Requiere supervisión del usuario para acciones sensibles, como ingresar datos de pago o de inicio de sesión, y no almacena dichos datos.
¿Cómo garantiza OpenAI la seguridad y confiabilidad del Operador?
El operador está diseñado con salvaguardas, que incluyen confirmaciones de usuario, modo de adquisición de entradas confidenciales y monitoreo de actividad maliciosa.
¿Qué salvaguardas existen para evitar que el Operador cometa errores o sea utilizado indebidamente?
Solicita la confirmación del usuario antes de completar acciones importantes y emplea sistemas de monitoreo para pausar las tareas si se detecta actividad sospechosa.
¿Cómo maneja el Operador las cuestiones de privacidad? ¿Pueden los usuarios optar por no participar en la recopilación de datos?
Los usuarios pueden optar por no participar en la recopilación de datos, eliminar datos de navegación y controlar la configuración de privacidad a través de la interfaz del Operador.
¿Qué sucede si el Operador encuentra intentos de phishing o sitios web maliciosos?
Está capacitado para detectar e ignorar entradas maliciosas, y un sistema de monitoreo puede pausar tareas si ocurre algo sospechoso.
¿Quién puede utilizar Operador y cuánto cuesta?
Actualmente, Operador está disponible para usuarios de EE. UU. con el plan de suscripción Pro de $200 de ChatGPT.
¿Cuándo estará disponible Operador fuera de EE. UU., especialmente en Europa?
OpenAI planea implementarlo a nivel mundial, pero Europa puede tardar más debido a consideraciones regionales.
¿Se incluirá finalmente el Operador en todos los niveles de suscripción de ChatGPT?
Sí, OpenAI planea ampliar el acceso a los niveles Plus, Team y Enterprise.
¿Podrán los desarrolladores crear herramientas personalizadas utilizando el modelo CUA en el futuro?
Sí, OpenAI planea lanzar el modelo CUA en la API para que los desarrolladores creen sus propios agentes.
¿Con qué empresas colabora OpenAI para Operador y cómo beneficia esto a los usuarios?
OpenAI se está asociando con empresas como DoorDash, Instacart y Uber para optimizar la funcionalidad del Operador respetando los términos de servicio.
Crédito de la imagen destacada: AbiertoAI