Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

AI Masters Language pero Flunks LEGO 101

byKerem Gülen
27 marzo 2025
in Research
Home Research
Share on FacebookShare on Twitter

Escuchamos constantemente sobre las increíbles hazañas de IA como GPT-4O y Géminis: escritura de código, creación de poesía, exámenes de acing. Puede pensar que estos poderosos modelos de lenguaje multimodal (MLLMS), que entienden tanto el texto como las imágenes, están en camino de dominar todo. Pero, ¿qué sucede cuando les pides que hagan algo aparentemente simple, como seguir las instrucciones de LEGO?

Según un nuevo estudiar De los investigadores del Laboratorio de AI de Shanghai y la Universidad de Tongji, la respuesta es: fallan en gran medida. Resulta que estos magos de IA son sorprendentemente torpes cuando se trata de comprender y razonar sobre los objetos en el espacio en múltiples pasos, una habilidad crucial para interactuar con el mundo real.

¿Por qué probar la IA con Legos?

Los investigadores diseñaron un punto de referencia inteligente llamado Lego-hazzles Precisamente porque la construcción de Legos refleja cómo los humanos desarrollan «inteligencia espacial». Seguir esos pequeños diagramas requiere comprender las formas 3D, cómo encajan, su orientación y la secuencia correcta de acciones. Si una IA no puede manejar eso, ¿cómo podemos esperar que guíe un brazo de robot que ensambla un producto o navegue por un automóvil autónomo a través de una zona de construcción compleja?

El punto de referencia de Lego-Puzzles no es el juego del niño. Incluye más de 1,100 preguntas visuales que abarcan 11 tareas diferentes. Estos van desde verificaciones básicas («¿Es esta pieza más alta que esa?», «¿Están tocando estos dos bloques?») Hasta secuencias complejas («Pon estos pasos de ensamblaje en el orden correcto», «¿Qué imagen muestra la imagen de la imagen? equivocado ¿paso?»).

El sorprendente cuadro de mando: ai vs humanos

Entonces, ¿cómo les fue a los principales modelos de IA de hoy en estos desafíos de LEGO? Los resultados fueron sorprendentes y, francamente, un poco vergonzosos para la IA.

  • Brecha masiva: Incluso los mejores modelos, como GPT-4O de OpenAi y Gemini-2.0-Flash de Google, solo respondieron sobre 50-58% de las preguntas correctamente.
  • Triunfo humano: Los participantes humanos, por el contrario, pasaron a través de los rompecabezas con Más del 90% exactitud.
  • Luchas de código abierto: Muchos MLLM de código abierto funcionaban solo un poco mejor que las conjeturas aleatorias. Algunas tareas específicas completamente fallidas, como ordenar los pasos de ensamblaje, a veces solo generando la misma letra incorrecta para casi todas las preguntas.

La IA luchó particularmente con las tareas que involucran:

  • Percepción de altura: A menudo confundiendo una proyección de imagen 2D con realidad 3D (piense en ilusiones ópticas).
  • Rotación: Comprender cómo los objetos cuidan después de ser girados.
  • Razonamiento de múltiples pasos: Cuantos más pasos involucrados en una secuencia, peor realizó la IA, resaltando una falla en el seguimiento de los cambios con el tiempo.

Kaist cultivó cerebros para la IA que puede aprender los dispositivos de inmediato


¿Puede IA incluso mostrarnos el siguiente paso?

Quizás aún más revelador fue la prueba de generación de imágenes. Los investigadores le pidieron a MLLMS que generara una imagen que muestra el resultado de un paso de ensamblaje de LEGO específico.

El resultado? Una falla casi total. La mayoría de los modelos ignoraron las instrucciones, simplemente copiaron la imagen de entrada o generaron algo completamente no relacionado. Solo Gemini-2.0-Flash y GPT-4O mostraron una «habilidad limitada»: Gemini fue mejor para editar la imagen existente con precisión, mientras que GPT-4O parecía regenerar la escena conceptualmente, a menudo perdiendo la consistencia visual. Los modelos de código abierto se perdieron irremediablemente.

Esta investigación expone una debilidad crítica en el desarrollo actual de la IA. Mientras que los modelos se destacan en la coincidencia de patrones en el lenguaje y las imágenes estáticas, carecen de una comprensión robusta de razonamiento espacial de varios pasos – La comprensión dinámica de cómo funcionan las cosas en el espacio físico y el tiempo.

El estudio encontró que incluso provocando técnicas como «cadena de pensamiento» (pidiendo a la IA que «piense paso a paso»), que a menudo ayudan con problemas de texto, proporcionan un beneficio mínimo y, a veces, incluso aturdido rendimiento en estas tareas espaciales, especialmente las complejas.

Parece que comprender verdaderamente nuestro mundo 3D y cómo se desarrollan las acciones dentro de él requiere más que solo procesar cantidades masivas de texto e imágenes. Los MLLM necesitan mejores formas de representar el espacio, rastrear los cambios secuencialmente y tal vez desarrollar una forma de «memoria visual».


Crédito de imagen destacado: Kerem Gülen/Imagen 3

Tags: AILego

Related Posts

Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.