Operai ha anunciado un nuevo marco de evaluación, GDPVAL, para medir el rendimiento de la inteligencia artificial en tareas económicamente valiosas. El sistema prueba modelos en 1.320 asignaciones de trabajo del mundo real para cerrar la brecha entre los puntos de referencia académicos y la aplicación práctica. El marco GDPVAL evalúa cómo los modelos AI abordan 1.320 tareas distintas que están asociadas con 44 ocupaciones diferentes. Estos trabajos son principalmente puestos de trabajo de conocimiento dentro de las industrias que contribuyen más del 5% al producto interno bruto (PIB) de los Estados Unidos. Para construir esta lista de profesiones relevantes, OpenAI utilizó datos de la Oficina de Estadísticas Laborales (BLS) de mayo de 2024 y la base de datos NET del Departamento de Trabajo. La selección resultante de ocupaciones incluye profesiones con frecuencia asociadas con la integración de IA, como ingenieros de software, abogados y editores de video. El marco también se extiende a las ocupaciones menos comúnmente discutidas en el contexto de la IA, incluidos los detectives, los farmacéuticos y los trabajadores sociales, proporcionando una evaluación más amplia del impacto económico potencial. Según la compañía, las tareas dentro de la evaluación fueron creadas por profesionales que poseen un promedio de 14 años de experiencia en sus respectivos campos. Esta medida estaba destinada a garantizar que las tareas reflejen con precisión «productos de trabajo reales, como un informe legal, un plan de ingeniería, una conversación de atención al cliente o un plan de atención de enfermería». Openai especificó que el alcance de GDPVAL en numerosas tareas y ocupaciones lo distingue de otras evaluaciones centradas en el valor económico, que puede concentrarse en un dominio único como la ingeniería de software. El diseño de la evaluación renuncia a las indicaciones de texto simples. En cambio, proporciona a los modelos AI con archivos a referencia y requiere la creación de entregables multimodales, como diapositivas de presentación y documentos formateados. Este enfoque está destinado a simular cómo un usuario interactuaría con la tecnología en un entorno de trabajo profesional. Operai declaró: «Este realismo hace que GDPVAL sea una prueba más realista de cómo los modelos podrían apoyar a los profesionales». En su estudio, OpenAI utilizó el marco GDPVAL para calificar los resultados de varios de sus propios modelos, incluidos GPT-4O, GPT-4O-Mini, GPT-3 y el GPT-5 más reciente. La evaluación también incluyó modelos de otras compañías: Claude Opus 4.1 de Anthrope, Gemini 2.5 Pro de Google y Grok 4 de Xai. El núcleo del proceso de clasificación involucró a profesionales experimentados que realizaron evaluaciones ciegas de los resultados de los modelos. Estos calificadores humanos, sin saberlo, compararon el trabajo generado por IA con los resultados producidos por los expertos humanos, proporcionando un punto de referencia de calidad directa sin conocimiento del origen del trabajo. Para complementar este proceso liderado por humanos, OpenAI desarrolló un sistema de IA «Autograder». Este sistema está diseñado para predecir cómo un evaluador humano obtendría un entrega dado. La compañía anunció su intención de lanzar este autograedor como una herramienta de investigación experimental para que otros lo usen. Operai emitió una precaución, sin embargo, afirmando que el autograedor no es tan confiable como los calificadores humanos. Afirmó que la herramienta no está destinada a reemplazar la evaluación humana en el futuro cercano, lo que refleja el juicio matizado requerido para evaluar el trabajo profesional de alta calidad. Los hallazgos iniciales de las pruebas de GDPVAL indican que la IA avanzada actual está llegando a los estándares de calidad de los profesionales humanos. «Descubrimos que los mejores modelos fronterizos de hoy ya se están acercando a la calidad del trabajo producido por los expertos de la industria», escribió Openai. Entre los modelos probados, Claude Opus 4.1 de Anthrope fue identificado como el mejor artista general. Sus fortalezas particulares se observaron en tareas relacionadas con la estética, que abarca elementos como el formato de documentos profesionales y el diseño claro y efectivo de los portaobjetos de presentación. Estas cualidades a menudo son críticas para los materiales orientados al cliente y la comunicación efectiva en un contexto comercial. Mientras que Claude Opus 4.1 se destacó en la presentación, el modelo GPT-5 de OpenAI demostró un rendimiento superior en precisión. Esto fue especialmente evidente en las tareas que requerían encontrar y aplicar correctamente el conocimiento específico del dominio. La investigación también destacó el ritmo rápido de mejora del modelo. Los resultados mostraron que el rendimiento en las tareas de GDPVAL «se duplicó más del GPT-4O (lanzado la primavera 2024) a GPT-5 (lanzado el verano 2025)». Este aumento sustancial en la capacidad durante un período relativamente corto indica una aceleración significativa en el desarrollo de tecnologías de IA subyacentes. La evaluación también incluyó un análisis de eficiencia. «Descubrimos que los modelos fronterizos pueden completar tareas de GDPVAL aproximadamente 100 × más rápido y 100 × más barato que los expertos de la industria», informó OpenAI. La compañía inmediatamente calificó este hallazgo con una advertencia crítica. «Sin embargo, estas cifras reflejan el tiempo de inferencia del modelo puro y las tasas de facturación de API y, por lo tanto, no capturan los pasos de supervisión, iteración e integración humana requeridas en los entornos de trabajo reales para usar nuestros modelos». Este contexto aclara que el cálculo excluye el tiempo y el costo considerables asociados con la gestión, refinación e implementación del trabajo generado por IA en un flujo de trabajo de negocios práctico. Openai reconoció limitaciones significativas en la versión actual del marco GDPVAL, describiéndolo como «un paso temprano que no refleja el matiz completo de muchas tareas económicas». Una restricción importante es su uso de evaluaciones únicas. Esto significa que el marco no puede medir la capacidad de un modelo para manejar el trabajo iterativo, como completar múltiples borradores de un proyecto o su capacidad para absorber el contexto para una tarea continua con el tiempo. Por ejemplo, la prueba actual no puede evaluar si un modelo podría editar con éxito un resumen legal basado en la retroalimentación de los clientes o rehacer un análisis de datos para tener en cuenta una anomalía recientemente descubierta. Una limitación adicional observada por la compañía es que el trabajo profesional no siempre es un proceso directo con archivos organizados y una directiva clara. El marco actual no puede capturar los aspectos más complejos y menos estructurados de muchos trabajos. Esto incluye el «trabajo humano y profundamente contextual de explorar un problema a través de la conversación y lidiar con la ambigüedad o las circunstancias cambiantes». Estos elementos a menudo son centrales para los roles profesionales, pero son difíciles de replicar en un entorno de prueba estandarizado. «La mayoría de los trabajos son más que una simple colección de tareas que se pueden escribir», agregó Openii. La compañía declaró su intención de abordar estas limitaciones en futuras iteraciones del marco. Los planes incluyen expandir su alcance para abarcar más industrias e incorporar tareas más difíciles de automatizar. Específicamente, OpenAI intentará desarrollar evaluaciones para tareas que involucren flujos de trabajo interactivos, donde un modelo debe participar en un proceso de ida y vuelta, o aquellos que requieren una comprensión de un contexto previo extenso, lo que sigue siendo un desafío para muchos sistemas de IA. Como parte de esta expansión, Openai lanzará un subconjunto de las tareas de GDPVAL para que los investigadores los usen en su propio trabajo. A partir de estos resultados, la conclusión declarada de OpenAI es que la IA inevitablemente continuará interrumpiendo el mercado laboral. La compañía postula que la IA puede asumir el «trabajo ocupado» de rutina, liberando así a los trabajadores humanos para concentrarse en tareas más complejas y estratégicas. Esta perspectiva enmarca la IA como una herramienta para aumentar la productividad humana en lugar de simplemente para el reemplazo. «Especialmente en el subconjunto de tareas donde los modelos son particularmente fuertes, esperamos que dar una tarea a un modelo antes de probarla con un humano ahorraría tiempo y dinero», escribió Openii. Al concurrir con estos hallazgos, la compañía reiteró su compromiso declarado con su misión más amplia. Esto incluye planes para democratizar el acceso a las herramientas de IA, un esfuerzo para mantener «apoyando a los trabajadores a través del cambio y construir sistemas que recompensen una amplia contribución». «Nuestro objetivo es mantener a todos en el ‘ascensor’ de la IA», concluyó la compañía.