¿Alguna vez se preguntó cómo puede navegar por un nuevo vecindario con bastante facilidad, o descubrir un proyecto complejo en casa? Probablemente lo maneje sin sudar mucho, encontrar su camino o alinear los pasos sin mapear cada opción. Ahora, piense en la inteligencia artificial. Si bien la IA puede aplastar juegos específicos o números crujientes, construir una IA que navega por el mundo real desordenado y parcialmente conocido como nosotros sigue siendo un gran desafío. ¿Por qué somos tan buenos en esta compleja planificación, a menudo encontrando soluciones que parecen imposiblemente difíciles para las computadoras? ¿Y por qué las pruebas de laboratorio a veces nos muestran tomando caminos que técnicamente no son el «mejor» absoluto?
Este rompecabezas es clave para comprender la inteligencia, tanto el nuestro como el tipo artificial. La IA estándar a menudo considera que la planificación explora un árbol ramificador gigante de elecciones y resultados. Cuanto más grande sea el árbol, más duro es el problema. Pero los humanos claramente no operan de esa manera. Parece que no llevamos un plan perfecto y detallado del mundo. Un equipo de investigadores de la Universidad de Dalhousie, la Universidad de Waterloo, el MIT y la Universidad de Cornell tiene una idea alternativa fascinante. ¿Qué pasa si nuestros mapas mentales no son como imágenes estáticas, sino más bien como programas de computadora flexibles?
Marta Kryven, Cole Wyeth, Aidan Curtis y Kevin Ellis sugieren que nuestra habilidad para la planificación proviene de una creencia central: El mundo generalmente sigue patrones predecibles. En lugar de memorizar hasta el último detalle, tal vez construimos modelos mentales utilizando programas compactos que capturan la repetición, la simetría y los fragmentos reutilizables. Piense en reconocer el diseño estándar de los pisos de oficina o la forma en que las calles a menudo forman redes. Esta idea de «conceptos como programas» representa que nuestros cerebros buscan constantemente el código subyacente del mundo para navegar de manera eficiente. Vamos a sumergirnos en su estudiar.
¿Por qué los planos y la fuerza bruta se quedan cortas?
¿Por qué pensar en los mapas como programas potencialmente un cambio de juego? Mire cómo la IA típica maneja la planificación, especialmente cuando no tiene toda la información. Esta situación a menudo se modela como un POMDP, o un proceso de decisión de Markov parcialmente observable. Encontrar la mejor solución generalmente implica calcular las probabilidades para cada escenario y planificación posibles en toda esa incertidumbre. Este enfoque rápidamente se vuelve abrumadoramente complejo, incluso para entornos bastante simples. Simplemente no se siente como la forma fluida de los humanos.
Además, está esa extraña desconexión. Manejamos muy bien la complejidad estructurada de la vida real. Piense en las redes de la ciudad, muebles modulares, senderos en un parque. Pero coloque a las personas en tareas de laboratorio simplificadas diseñadas sin una estructura clara, y a menudo no siguen la ruta matemáticamente ‘óptima’. Los investigadores solían atribuir esto a los límites mentales, como solo pensar en unos pocos pasos por delante. Pero Kryven y sus colegas piensan que eso podría perder el punto. Tal vez no somos planificadores defectuosos. Tal vez solo somos planificadores increíblemente buenos específicamente para el tipo de mundo estructurado en el que realmente vivimos. Buscamos patrones y los usamos.
Los investigadores de IA han tratado de abordar la complejidad con estrategias como la planificación jerárquica (romper grandes problemas en pequeños) o reconocer estados de juego similares. Pero aprender automáticamente y usar el tipo de conocimiento estructural de «sentido común» que tenemos sigue siendo un gran obstáculo.
Conocer GMP: Planificación como un codificador
Para poner a prueba su idea, los investigadores construyeron un modelo de computadora llamado planificación modular generativa o GMP. Este modelo funciona en el principio de los mapas cognitivos como programas. No almacena una imagen exacta de un lugar. En cambio, descubra un programa simple que captura su estructura básica.
GMP tiene dos partes principales:
- El generador de mapas (GMM): Esta parte mira un mapa, como un laberinto en su experimento, e intenta escribir el programa más simple que puede reconstruirlo. Aquí hay un giro realmente interesante. Los investigadores utilizaron un modelo de lenguaje grande, GPT-4, para este trabajo. No para planificar, sino para escribir código. Impulsaron el LLM a detectar patrones visuales repetidos en el laberinto. Luego, el LLM escribió el código de Python definiendo estos trozos y explicando cómo combinarlos (moverse, rotar, voltear) para recrear el mapa. El sistema prefiere programas simples que reutilizan los fragmentos de manera eficiente. Sigue un principio que favorece la explicación más comprimida, esencialmente buscando el código más ordenado que describe la estructura del mapa.
- El planificador modular (FP): Una vez que el GMM crea un mapa de programa hecho de trozos reutilizables, el módulo FP descubre cómo moverse. En lugar de calcular una ruta enorme y compleja para todo el mapa, planea una ruta eficiente dentro de cada tipo de fragmento solo una vez. Luego, cada vez que se encuentra con ese mismo tipo de trozo nuevamente, simplemente retira y reutiliza el plan que ya hizo. Esto ahorra una tonelada de potencia informática y memoria. Para llegar de un trozo a otro, se dirige hacia el trozo inexplorado más cercano, asumiendo para empezar que el objetivo (como la salida del laberinto) podría estar en cualquier lugar.
Esta forma de planificación es inteligente dentro de cada módulo. Encuentra el mejor camino dentro de esa pieza reconocida. Pero conectar estas rutas locales inteligentes podría conducir a una ruta global que es un poco más larga que si un planificador mirara perfectamente todo el mapa. Esta posibilidad de rutas inteligentes, eficientes y tal vez ligeramente indirectas era exactamente el tipo de comportamiento humano que los investigadores estaban observando.
Entonces, ¿las personas realmente planean como el modelo GMP? El equipo usó una tarea de búsqueda de laberinto para averiguarlo. Treinta participantes navegaron 20 laberintos diferentes en una computadora, viendo el mundo desde una vista en primera persona. Partes del laberinto se ocultaron hasta que se acercaron lo suficiente. Su objetivo: encontrar la salida oculta, marcada por un mosaico rojo.
Estos no eran ningún laberinto. Fueron diseñados específicamente con estructuras claras y repetidas. Tenían diseños modulares hechos de piezas distintas, como ciertas formas de habitaciones o secciones de pasillos. Esta configuración fue perfecta para ver si las personas explorarían naturalmente el módulo por módulo, o si tomarían atajos cortando módulos si eso parecía matemáticamente más corto, como podrían predecir los planificadores óptimos tradicionales.
El equipo comparó los caminos de las personas con tres modelos diferentes:
- GMP: El nuevo modelo, apostando por la búsqueda modular en función de esos mapas similares al programa.
- Utilidad esperada: El planificador ‘óptimo’ estándar, calculando la ruta más corta absoluta dada la incertidumbre.
- Utilidad con descuento: Un modelo que imita la planificación con una capacidad de atención limitada (solo mirando unos pocos pasos por delante), que había explicado bien el comportamiento humano en no estructurado laberintos antes.
Los laberintos fueron diseñados para que los modelos tradicionales generalmente sugieran rutas no modulares, lo que facilita ver qué estrategia preferían las personas.
Somos planificadores modulares
Los hallazgos fueron bastante claros. La gente usó abrumadoramente estrategias modulares. Exploraron los laberintos estructurados por fragmento, moviéndose sistemáticamente de una sección reconocida a la siguiente más cercana. Esto no fue solo una casualidad; Era el patrón consistente en diferentes diseños de laberintos y la mayoría de los participantes.
Los investigadores analizaron de cerca las «decisiones discriminatorias». Estos fueron puntos en el laberinto donde el modelo GMP sugirió un movimiento diferente a los modelos tradicionales. En estos momentos clave, GMP hizo un trabajo significativamente mejor prediciendo lo que la gente realmente haría. La gente no solo era ineficiente al azar; estaban siendo sistemáticamente modular. Su comportamiento se alineó maravillosamente con la estrategia que esperarías si estuvieran usando mapas mentales similares al programa.
Una de las partes realmente ordenadas de este estudio es cómo utilizaron el LLM. No estaba tomando decisiones. Estaba actuando como un sustituto de humano percepción estructural. Debido a que los LLM están entrenados en montañas de escritura y código humano, parecen absorber las formas comunes en que los humanos estructuran las cosas, incluidos los espacios. Cuando se le pidió que escribiera un programa para el laberinto, a GPT-4 se les ocurrió desgloses estructurales, los trozos y las reglas, eso coincidía con la forma en que la gente luego navegaba.
Esto sugiere que LLM podría ser útil para algo más que generar texto. Potencialmente podrían ayudarnos a comprender los supuestos incorporados y los atajos mentales, los «sesgos inductivos», que los humanos usamos para dar sentido a todo. Aquí, ayudó a traducir un laberinto visual en una estructura útil y similar a un código perfecto para una planificación eficiente.
Investigación: una tabla periódica para el aprendizaje automático
Cambiar cómo pensamos en los mapas mentales y la IA
Esta investigación desafía la vieja idea de los mapas cognitivos como imágenes simples y estáticas en nuestras cabezas. Pensar en ellos como programas activos y generativos tiene sentido computacional. Explica cómo manejamos el mundo real complejo e incierto con la capacidad intelectual limitada. Explica nuestra eficiencia en lugares estructurados, y tal vez incluso por qué a veces tomamos caminos que no son matemáticamente perfectos, pero son mucho más fáciles de descubrir y recordar.
Para la inteligencia artificial, esto ofrece un camino práctico hacia adelante. El modelo GMP muestra el poder de encontrar la estructura primero, luego planificar modularmente. Los agentes de IA construidos de esta manera podrían navegar potencialmente entornos complejos y parcialmente conocidos de manera mucho más eficiente, lo que necesita mucha menos memoria y potencia de procesamiento. Señala a la IA que planea más como nosotros, al detectar patrones en lugar de simplemente hacer posibilidades.
Claro, todavía hay preguntas. El modelo GMP actual hace suposiciones simples sobre moverse entre trozos. La investigación futura debe explorar cómo podríamos priorizar ciertas áreas en función de la experiencia pasada o los objetivos actuales. ¿Cómo ajustamos nuestros programas mentales cuando el mundo no coincide con nuestras expectativas? ¿Cuánto influyen en nuestros objetivos en las estructuras que percibimos? Incluso con estas preguntas abiertas, este estudio nos ofrece una nueva forma poderosa de pensar en cómo encontramos nuestro camino.
Al final, sugiere algo profundo en nosotros. Nuestra asombrosa capacidad para navegar y actuar de manera efectiva en nuestro mundo complejo podría reducirse a que nuestros cerebros sean de expertos en los analgésicos, viendo constantemente el código subyacente de la realidad estructurada que nos rodea y representándola no solo como una escena, sino como un programa listo para funcionar.