Los modelos de idiomas grandes (LLM) se están volviendo más inteligentes, pero hay un gran problema: no saben cómo aprender de manera eficiente. Magellan es un nuevo marco de IA que imita el aprendizaje humano al predecir su propio progreso, lo que lo permite navegar por espacios masivos de goles sin quedarse atascado en lo que es demasiado fácil o demasiado difícil.
Desarrollado por investigadores de Inria y MIT, incluidos Loris Gaven, Thomas Carta, Clément Romac, Cédric Colas, Sylvain Lamprier, Olivier Sigaud y Pierre-Yves Oudeyer, el estudio «Magellan: Predicciones metacognitivas de la Guía de progreso de aprendizaje Agentes Autotélico LLM en grandes espacios de objetivos«Introduce un marco que le da a IA una capacidad metacognitiva, esencialmente, la habilidad para predecir cuánto mejorará al practicar una tarea. Esto permite que la IA priorice los objetivos de aprendizaje de una manera abierta, al igual que los humanos al abordar nuevas habilidades.
AI no prioriza bien el aprendizaje
Los métodos tradicionales de aprendizaje de IA luchan en vastos espacios de objetivos. Ellos o:
- Perder el tiempo en las tareas que ya han dominadohaciendo un progreso lento.
- Intente metas que son demasiado difícileslo que lleva a fallas repetidas.
- Requerir categorías de objetivos definidos por humanosque es ineficiente y no escala.
Los humanos, por otro lado, instintivamente Busque desafíos que estire sus habilidades sin ser imposible. Magellan trae este enfoque humano para el entrenamiento de LLM.
Cómo funciona Magellan: predecir el progreso, no solo el rendimiento
La mayoría de los sistemas de capacitación de IA:
- Medir el rendimiento pasado (lo que no ayuda con los nuevos objetivos).
- Use calificaciones de dificultad fijas (que no se adaptan a las habilidades cambiantes).
Magellan toma una ruta más inteligente. Estima dinámicamente cuánto mejorará una IA en un objetivo si lo practica. Esto permite que los modelos de IA seleccionen tareas de aprendizaje que maximicen el progreso en lugar de simplemente intentar las cosas al azar.
El método funciona a través de un proceso llamado Progreso de aprendizaje absoluto (ALP)—Pasando cuánto mejora una IA en una tarea determinada con el tiempo. Usando ALP, Magellan agrupa los objetivos en categorías significativas sin intervención humana, Dejar que la IA se generalice a través de las habilidades relacionadas.
Los puntajes de rendimiento de LLM están inflados: un nuevo método muestra la verdad
Enseñando a la IA a aprender como un humano
Para probar Magellan, los investigadores utilizaron un entorno de IA interactivo llamado Zoológicodonde un agente de LLM tuvo que aprender varias tareas, como reconocer objetos, cultivar plantas e incluso interactuar con los animales.
Los resultados fueron claros:
- La IA entrenada con Magellan superó a todos los demás métodos, dominando más tareas más rápido.
- Se generalizó mejorlo que significa que podría abordar nuevos desafíos invisibles de manera más efectiva.
- No requirió categorías de objetivos marcados con humanosdemostrando su escalabilidad.
Por el contrario, el aprendizaje tradicional se acerca a las mesas temprano o requerida Agrupaciones de objetivos definidos por expertoshaciéndolos rígidos e ineficientes.
Por qué esto importa
El mayor avance de Magellan es el aprendizaje autodirigido. En lugar de confiar en los ingenieros humanos para seleccionar objetivos, la IA puede determinar de forma autónoma qué aprender a continuación en función de su propio progreso. Esto cambia de IA de ser entrenado pasivamente para mejorar activamente a sí misma, por lo que es un enfoque transformador en múltiples campos.
Los asistentes de IA pueden enseñarse nuevas habilidades identificando áreas donde luchan, mejorando su capacidad para adaptarse sin intervención humana. En robótica, las máquinas pueden refinar sus habilidades centrándose en las tareas con el mayor potencial de aprendizaje, lo que lleva a sistemas autónomos más eficientes y capaces. En educación, los tutores de IA pueden ajustar las lecciones en tiempo real, no solo en función del rendimiento pasado sino en la mejora prevista, ofreciendo una experiencia de aprendizaje más personalizada.
Magellan demuestra que AI puede Piense en su propio aprendizajehaciéndolo mucho más eficiente en entornos abiertos. El siguiente paso podría ser Xpand este método más allá de los objetivos basados en texto en campos como robótica, descubrimiento científico e incluso educación humana.
Crédito de la imagen destacada: Kerem Gülen/ideograma