Los modelos de lenguajes grandes como ChatGPT tienen un problema fundamental: son estáticos. Se entrenan con una montaña de datos y luego se congelan en el tiempo, como un libro de texto impreso en 2023 que no sabe nada sobre 2024. Ahora, los investigadores de El improbable laboratorio de inteligencia artificial del MIT tener de código abierto un nuevo marco que podría cambiar eso. Su artículo, presentado en la reciente Conferencia NeurIPS 2025presenta un sistema llamado Modelos de lenguaje autoadaptativos (SEAL). La idea central es simple, pero las implicaciones son enormes: la IA aprende a enseñarse a sí mismo. En lugar de simplemente retener información pasivamente, SEAL permite que un modelo genere sus propios datos de entrenamiento de alta calidad y luego los use para actualizar permanentemente sus propios pesos. Esto es importante porque es el primer paso real para alejarse de los robots estáticos «sabelotodo» y hacia modelos de IA que realmente pueden evolucionar, adaptarse e incorporar nueva información con el tiempo.
Por qué los modelos de IA son malos estudiantes
En este momento, si desea que un LLM aprenda un hecho nuevo, tiene dos malas opciones. Puede «meter» la información en su ventana contextual (el mensaje), pero olvidará ese hecho en el momento en que se reinicie la conversación. O bien, puede realizar un reentrenamiento masivo y costoso, que es como reimprimir una enciclopedia completa sólo para agregar una nueva entrada. Ninguno de estos métodos es un verdadero aprendizaje. El equipo del MIT, que incluía a Adam Zweiger, Jyothish Pari y Pulkit Agrawal, analizó cómo aprenden los humanos. Cuando un estudiante se prepara para un examen, no se limita a releer el libro de texto 50 veces. un buen estudiante reescribe la información, hacer tarjetas didácticas, resumir capítulos y crear sus propias notas. Este proceso de reformatear y asimilar información es lo que la consolida en su cerebro. SEAL está diseñado para ser ese buen estudiante. Aprende a tomar el «libro de texto en bruto» de nueva información y generar sus propias «notas de estudio», que el artículo llama «autoediciones»—en cualquier formato que sea más eficaz para su propio aprendizaje.
Entonces, ¿cómo aprende a “estudiar”?
Aprende mediante prueba y error, mediante un proceso llamado aprendizaje por refuerzo. Piense en ello como una IA que lleva a cabo sus propias sesiones de estudio.
- Recibe la lección: La IA recibe una nueva información (como un pasaje de texto).
- Escribe las notas: Genera una «autoedición»: sus propias notas sintéticas sobre esa información. Podría ser una lista de implicaciones clave, un conjunto de pares de preguntas y respuestas o simplemente un simple resumen.
- Responda el cuestionario: La IA se ajusta brevemente en su notas propias y luego inmediatamente se le hizo una prueba sorpresa sobre la nueva información.
- Obtener la calificación: Si pasa la prueba, recibe una «recompensa». Esta retroalimentación positiva le enseña al modelo que las notas de «autoedición» que acaba de escribir fueron efectivas y de alta calidad.
- Estudie de forma más inteligente: Si falla, se entera de que sus notas eran malas y prueba con un formato diferente la próxima vez. A lo largo de miles de estos bucles, la IA no sólo aprende los nuevos hechos; él aprende a aprender nuevos hechos de manera más eficiente.
¿Y los resultados?
Los investigadores probaron SEAL en dos áreas clave y los resultados son sorprendentes. Primero, probaron su capacidad para incorporar nuevos conocimientos. Le dieron al modelo pasajes de texto y le interrogaron sobre su contenido. Después de entrenarse con SEAL, la precisión de la IA saltó a 47,0%. Aquí está el truco: ese puntaje. superó los datos sintéticos generados por el GPT-4.1, mucho más grande y potenteque sólo obtuvo un 46,3%. El modelo más pequeño literalmente aprendió a ser «más inteligente» que su enorme competidor en esta tarea específica. En segundo lugar, probaron su capacidad para aprender una nueva habilidad a partir de unos pocos ejemplos. Este es un punto de referencia de razonamiento abstracto notoriamente difícil llamado ARC. El trabajo de SEAL no era sólo resolver el rompecabezas, sino generar la mejor estrategia de aprendizaje por sí mismo (por ejemplo, «usar estos aumentos de datos», «establecer esta tasa de aprendizaje»). La IA autoadaptable encontró una estrategia exitosa 72,5% del tiempo. El modelo de referencia, sin este autoaprendizaje, fracasó y tuvo éxito sólo el 20% de las veces.
¿Cuál es el truco?
Todo esto suena genial, pero un pragmático haría bien en preguntar acerca de las desventajas. Los investigadores son transparentes sobre las limitaciones.
- Olvido catastrófico: El modelo todavía sufre el clásico problema de la IA del «olvido catastrófico». Mientras se prepara para nuevos exámenes, comienza a olvidar lo que aprendió en los exámenes parciales. Aprender un hecho nuevo aún puede sobrescribir los antiguos.
- Es dolorosamente lento: Este proceso no es rápido. Los investigadores señalan que la sobrecarga computacional es «sustancial». Se necesita 30-45 segundos sólo para calificar un soltero autoeditar durante el ciclo de entrenamiento.
- Necesita una clave de respuestas: El sistema actual se basa en tener un «cuestionario» con respuestas correctas para proporcionar esa señal de recompensa tan importante.
A pesar de estos obstáculos, el equipo mira hacia el futuro. Los expertos proyectan que para 2028 nos quedaremos sin texto generado por humanos de alta calidad para entrenar la IA. Cuando lleguemos a ese «muro de datos», el progreso dependerá de la capacidad de un modelo para generar sus propios datos de entrenamiento de alta utilidad. Esta investigación es una hoja de ruta crucial sobre cómo podría funcionar, allanando el camino para futuros «agentes» de IA que no solo respondan sus preguntas, sino que aprendan activamente de sus interacciones con el mundo y se vuelvan más inteligentes cada día.





