Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Adele de Microsoft quiere darle a su IA un perfil cognitivo

byKerem Gülen
14 mayo 2025
in Research
Home Research

Los modelos modernos de IA avanzan a velocidad vertiginosa, pero la forma en que los evaluamos apenas ha mantenido el ritmo. Los puntos de referencia tradicionales nos dicen si un modelo aprobó o falló una prueba, pero rara vez ofrece información sobre por qué funcionó de la manera en que lo hizo o cómo podría ir en desafíos desconocidos. Un nuevo esfuerzo de investigación de Microsoft y sus colaboradores propone un marco riguroso que reinventa la forma en que evaluamos los sistemas de IA.

Evaluar la IA por lo que necesita saber

La innovación central introducido En este estudio hay un marco llamado Adele, abreviatura de anotados niveles de demanda. En lugar de probar modelos de forma aislada, Adele obtiene tanto el modelo como la tarea en el mismo conjunto de escalas cognitivas y basadas en el conocimiento. El resultado es un perfil integral que captura cuán exigente es una tarea y si un sistema de IA específico tiene las capacidades necesarias para manejarla.

Adele opera a través de 18 escalas generalescada uno que refleje un aspecto clave del conocimiento cognitivo o de dominio, como el razonamiento, la atención o la experiencia formal de la materia. Las tareas se clasifican de 0 a 5 en cada dimensión, lo que indica cuánto contribuye esa capacidad a la finalización exitosa de la tarea. Esta anotación de doble lado crea una especie de puntaje de compatibilidad entre modelos y tareas, lo que permite predecir los resultados y explicar las fallas antes de que ocurran.

Microsoft Adele quiere darle a su IA un perfil CCognitivo C
Imagen: Microsoft

Lo que distingue a Adele es su base en psicometría, un campo relacionado con la medición de habilidades humanas. Al adaptar estas herramientas de evaluación humana para la IA, los investigadores crearon un marco que puede ser utilizado de manera confiable por sistemas automatizados. Adele se aplicó a 63 tareas de 20 puntos de referencia de IA establecidos, cubriendo más de 16,000 ejemplos. Luego, los investigadores utilizaron este conjunto de datos para evaluar 15 modelos de idiomas grandes, incluidos líderes de la industria como GPT-4, LLAMA-3.1-405B y Deepseek-R1-Dist-Qwen-32b.

El proceso generó perfiles de habilidad para cada modelo. Estos perfiles ilustran cómo las tasas de éxito varían con la complejidad de la tarea en diferentes habilidades, ofreciendo una comprensión granular de las capacidades del modelo. Los gráficos de radar visualizan estos perfiles a través de las 18 dimensiones de habilidad, revelando patrones matizados que los puntajes de referencia en bruto por sí solos no pueden.

Esta extensa evaluación surgió varios hallazgos que desafían los supuestos actuales sobre el rendimiento y el progreso de la IA.

  1. Primero, Los puntos de referencia de IA existentes a menudo no pueden probar lo que reclaman. Por ejemplo, un punto de referencia diseñado para un razonamiento lógico también podría requerir conocimiento de dominio de nicho o altos niveles de metacognición, diluyendo su enfoque previsto.
  2. Segundo, El equipo descubrió patrones de habilidad distintos en modelos de idiomas grandes. Los modelos centrados en el razonamiento superaron consistentemente a otros en tareas que involucran lógica, abstracción y comprensión del contexto social. Sin embargo, el tamaño en bruto por sí solo no garantizó la superioridad. Más allá de cierto punto, la ampliación de los modelos produjo rendimientos decrecientes en muchas áreas de habilidad. Las técnicas de entrenamiento y el diseño del modelo parecían desempeñar un papel más importante en la refinación del rendimiento en dominios cognitivos específicos.
  3. Tercero, Y quizás lo más significativo, Adele permitió predicciones precisas del éxito del modelo en tareas desconocidas. Al comparar las demandas de las tareas con las habilidades del modelo, los investigadores lograron precisiones de predicción de hasta el 88 por ciento. Esto representa un salto sustancial sobre los enfoques de caja negra que se basan en incrustaciones o puntajes ajustados sin ninguna comprensión de la dificultad de la tarea o la cognición del modelo.
Microsoft Adele quiere darle a su IA un perfil CCognitivo C
Imagen: Microsoft

Utilizando el enfoque de coincidencia de demanda por habilidad, el equipo desarrolló un sistema capaz de pronosticar el comportamiento de la IA en una amplia gama de escenarios. Ya sea que se aplique a nuevos puntos de referencia o desafíos del mundo real, este sistema proporciona un método estructurado e interpretable para anticipar fallas e identificar modelos adecuados para casos de uso específicos. Esta capacidad predictiva es particularmente relevante en entornos de alto riesgo donde la confiabilidad y la responsabilidad no son negociables.

En lugar de implementar la IA basada en la reputación general o los puntajes limitados de las tareas, los desarrolladores y los tomadores de decisiones ahora pueden usar evaluaciones de nivel de demanda para que coincidan con los sistemas con tareas con mucha mayor confianza. Esto respalda no solo una implementación más confiable, sino también una mejor gobernanza, ya que las partes interesadas pueden rastrear el comportamiento del modelo con habilidades y limitaciones medibles.


¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?


Las implicaciones de Adele se extienden más allá de los laboratorios de investigación. Este método de evaluación ofrece una base para evaluaciones estandarizadas e interpretables que pueden respaldar todo, desde la investigación de IA y el desarrollo de productos hasta la supervisión regulatoria y la confianza pública. A medida que la IA de uso general se integra en sectores como la educación, la salud y la ley, comprender cómo se comportarán los modelos fuera de su contexto de capacitación se vuelve no solo útil sino esencial.

El diseño modular de Adele permite adaptarse a sistemas multimodales y encarnados, ampliando aún más su relevancia. Se alinea con la posición más amplia de Microsoft sobre la importancia de la psicometría en las llamadas de IA y Echoes en documentos blancos recientes para herramientas de evaluación de IA más transparentes, transferibles y confiables.

Hacia los estándares de evaluación más inteligentes

A pesar de todo el optimismo en torno a los modelos de base, uno de los riesgos inminentes ha sido la falta de prácticas de evaluación significativas. Los puntos de referencia han impulsado el progreso, pero también han limitado nuestra visibilidad de lo que los modelos realmente entienden o cómo podrían comportarse en situaciones inesperadas. Con Adele, ahora tenemos un camino para cambiar eso.

Este trabajo replantea la evaluación no como una lista de verificación de puntajes sino como una interacción dinámica entre sistemas y tareas. Al tratar el rendimiento en función del ajuste de la capacidad de demanda, sienta las bases para una comprensión más científica, confiable y matizada de las capacidades de IA. Esa base es fundamental no solo para el progreso técnico sino también para la adopción responsable de IA en contextos humanos complejos.


Crédito de imagen destacado

Tags: AIMicrosoftPresentado

Recent Posts

  • ¿Listo para un chatgpt que realmente te conozca?
  • Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven
  • ¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?
  • Adele de Microsoft quiere darle a su IA un perfil cognitivo
  • El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.