Escuchamos constantemente sobre las increíbles hazañas de IA como GPT-4O y Géminis: escritura de código, creación de poesía, exámenes de acing. Puede pensar que estos poderosos modelos de lenguaje multimodal (MLLMS), que entienden tanto el texto como las imágenes, están en camino de dominar todo. Pero, ¿qué sucede cuando les pides que hagan algo aparentemente simple, como seguir las instrucciones de LEGO?
Según un nuevo estudiar De los investigadores del Laboratorio de AI de Shanghai y la Universidad de Tongji, la respuesta es: fallan en gran medida. Resulta que estos magos de IA son sorprendentemente torpes cuando se trata de comprender y razonar sobre los objetos en el espacio en múltiples pasos, una habilidad crucial para interactuar con el mundo real.
¿Por qué probar la IA con Legos?
Los investigadores diseñaron un punto de referencia inteligente llamado Lego-hazzles Precisamente porque la construcción de Legos refleja cómo los humanos desarrollan «inteligencia espacial». Seguir esos pequeños diagramas requiere comprender las formas 3D, cómo encajan, su orientación y la secuencia correcta de acciones. Si una IA no puede manejar eso, ¿cómo podemos esperar que guíe un brazo de robot que ensambla un producto o navegue por un automóvil autónomo a través de una zona de construcción compleja?
El punto de referencia de Lego-Puzzles no es el juego del niño. Incluye más de 1,100 preguntas visuales que abarcan 11 tareas diferentes. Estos van desde verificaciones básicas («¿Es esta pieza más alta que esa?», «¿Están tocando estos dos bloques?») Hasta secuencias complejas («Pon estos pasos de ensamblaje en el orden correcto», «¿Qué imagen muestra la imagen de la imagen? equivocado ¿paso?»).
El sorprendente cuadro de mando: ai vs humanos
Entonces, ¿cómo les fue a los principales modelos de IA de hoy en estos desafíos de LEGO? Los resultados fueron sorprendentes y, francamente, un poco vergonzosos para la IA.
- Brecha masiva: Incluso los mejores modelos, como GPT-4O de OpenAi y Gemini-2.0-Flash de Google, solo respondieron sobre 50-58% de las preguntas correctamente.
- Triunfo humano: Los participantes humanos, por el contrario, pasaron a través de los rompecabezas con Más del 90% exactitud.
- Luchas de código abierto: Muchos MLLM de código abierto funcionaban solo un poco mejor que las conjeturas aleatorias. Algunas tareas específicas completamente fallidas, como ordenar los pasos de ensamblaje, a veces solo generando la misma letra incorrecta para casi todas las preguntas.
La IA luchó particularmente con las tareas que involucran:
- Percepción de altura: A menudo confundiendo una proyección de imagen 2D con realidad 3D (piense en ilusiones ópticas).
- Rotación: Comprender cómo los objetos cuidan después de ser girados.
- Razonamiento de múltiples pasos: Cuantos más pasos involucrados en una secuencia, peor realizó la IA, resaltando una falla en el seguimiento de los cambios con el tiempo.
Kaist cultivó cerebros para la IA que puede aprender los dispositivos de inmediato
¿Puede IA incluso mostrarnos el siguiente paso?
Quizás aún más revelador fue la prueba de generación de imágenes. Los investigadores le pidieron a MLLMS que generara una imagen que muestra el resultado de un paso de ensamblaje de LEGO específico.
El resultado? Una falla casi total. La mayoría de los modelos ignoraron las instrucciones, simplemente copiaron la imagen de entrada o generaron algo completamente no relacionado. Solo Gemini-2.0-Flash y GPT-4O mostraron una «habilidad limitada»: Gemini fue mejor para editar la imagen existente con precisión, mientras que GPT-4O parecía regenerar la escena conceptualmente, a menudo perdiendo la consistencia visual. Los modelos de código abierto se perdieron irremediablemente.
Esta investigación expone una debilidad crítica en el desarrollo actual de la IA. Mientras que los modelos se destacan en la coincidencia de patrones en el lenguaje y las imágenes estáticas, carecen de una comprensión robusta de razonamiento espacial de varios pasos – La comprensión dinámica de cómo funcionan las cosas en el espacio físico y el tiempo.
El estudio encontró que incluso provocando técnicas como «cadena de pensamiento» (pidiendo a la IA que «piense paso a paso»), que a menudo ayudan con problemas de texto, proporcionan un beneficio mínimo y, a veces, incluso aturdido rendimiento en estas tareas espaciales, especialmente las complejas.
Parece que comprender verdaderamente nuestro mundo 3D y cómo se desarrollan las acciones dentro de él requiere más que solo procesar cantidades masivas de texto e imágenes. Los MLLM necesitan mejores formas de representar el espacio, rastrear los cambios secuencialmente y tal vez desarrollar una forma de «memoria visual».
Crédito de imagen destacado: Kerem Gülen/Imagen 3