El reciente avance de Google DeepMind con SIMA (agente multimodal de autoinstrucciones) destaca el rápido progreso en hacer realidad los agentes de IA generalistas, diseñados específicamente para entornos virtuales 3D.
Este progreso conlleva un potencial transformador, no sólo para la industria del juego, sino también para la forma en que interactuamos con los espacios virtuales en un amplio espectro de aplicaciones.
Con capacidades mejoradas para comprender instrucciones, adaptarse a nuevas tareas y razonar dentro de las limitaciones de los mundos virtuales, los agentes similares a SIMA ofrecen el potencial de remodelar varias áreas clave.
El gran éxito de SIMA
La última innovación de DeepMind es SIMA, que significa Scalable Instructable Multiworld Agent. A diferencia de la IA anterior centrada en dominar un solo juego, SIMA es una IA generalista.
SIMA no se limita a los píxeles de la pantalla. Puede procesar tanto información visual (lo que ve en el juego) e instrucciones en lenguaje natural (lo que un humano le dice que haga). Este aprendizaje multimodal permite una comprensión más matizada del mundo del juego.
SIMA no se entrena en un solo juego. DeepMind colaboró con varios desarrolladores de juegos, exponiendo a SIMA a una variedad de títulos como No Man’s Sky y Teardown. Esta diversidad fortalece su capacidad de adaptarse a nuevos entornos.
SIMA no necesita que se le apliquen todas las reglas con cuchara. Si sigue las instrucciones, puede aprender nuevas habilidades dentro de un juego, como navegar en una nueva área, crear un elemento o usar los menús del juego. Esto lo hace mucho más versátil que los agentes de IA tradicionales.
No se deje engañar por la falta de concentración en lograr las máximas puntuaciones. Si bien es impresionante, ese no es el objetivo principal.
El verdadero éxito de SIMA radica en su capacidad para comprender y actuar según instrucciones humanas dentro de un entorno de juego. Esta investigación significa una Se ha dado un GRAN paso para crear una IA que pueda sernos útil en el mundo real.
Algunos de los juegos en los que Google DeepMind ejecuta este innovador modelo de IA son:
- Simulador de cabra 3
- hidronero
- El cielo de nadie
- Satisfactorio
- Demoler
- Valheim
- Vida tambaleante
Además de todos estos juegos, el equipo de Google DeepMind también probó las capacidades de SIMA en simulaciones realistas creadas por ellos llamadas: “Entornos de investigación“. Estos entornos, que consisten en Construction Lab, Playhouse, ProcTHOR y WorldLab, simulan muchas áreas donde Se considera que la inteligencia artificial se integrará en un futuro próximo.
La magia detrás de SIMA
Procesamiento de entrada multimodal
SIMA utiliza modelos de lenguaje grandes (LLM), probablemente basado en la arquitectura Transformer, para procesar y comprender instrucciones en lenguaje natural dadas por un usuario. Los LLM se destacan en el manejo de datos secuenciales como texto, lo que los hace muy adecuados para esta tarea. Para dar sentido a su entorno, SIMA emplea redes neuronales convolucionales (CNN) para procesar información visual del entorno 3D.
Las CNN son excepcionalmente buenas para extraer características y patrones espaciales de imágenes o transmisiones de video. Es probable que SIMA utilice múltiples CNN para crear diferentes niveles de representación dentro de la entrada visual para una comprensión integral.
Autoinstrucción
Una de las innovaciones clave que subyacen a SIMA es su capacidad para dividir instrucciones complejas en una secuencia de subtareas más simples. Esto probablemente se logre a través de una combinación de procesamiento del lenguaje natural (analizar las instrucciones) y Aprendizaje por refuerzo jerárquico (RL).
RL jerárquico permite a los agentes aprender comportamientos complejos basándose en secuencias de acciones de nivel inferior.
Además, SIMA puede generar sus propios datos y objetivos de entrenamiento observando sus acciones dentro del entorno y los cambios resultantes. Esta técnica de autosupervisión es crucial para permitir el aprendizaje y la adaptación continuos en nuevos entornos, dándole flexibilidad.
![SIMA tiene el potencial de salvar a la humanidad... ¿Jugar videojuegos? 1 IA generalista de Google DeepMind SIMA](https://dataconomy.com/wp-content/uploads/2024/03/Google-DeepMind-SIMA-generalist-AI.jpg)
Generalización de tiro cero
La impresionante capacidad de SIMA para realizar nuevas tareas sin una formación explícita probablemente se deba a una amplia formación previa en un conjunto de datos masivo de diversos entornos 3D e instrucciones asociadas. Este entrenamiento previo permite que el modelo construya una rica representación interna de mundos virtuales e instrucciones comunes, lo que le permite generalizar el conocimiento.
Es probable que se utilice un enfoque de metaaprendizaje durante la capacitación previa, lo que alentará a SIMA a desarrollar una estrategia para «aprendiendo a aprender“.
Esto permite al agente adquirir nuevas habilidades rápidamente en entornos invisibles.
Puede obtener más información sobre el trabajo de Google DeepMind en la capacitación generalista de agentes de IA utilizando juegos de su trabajo de investigación.
Aprende de los juegos para brillar en el mundo real
Lo creas o no, SIMA marca un punto de inflexión en el desarrollo de la IA.
Los videojuegos ofrecen la campo de entrenamiento ideal para la IA porque son mundos dinámicos y autónomos con objetivos, reglas y mecanismos de retroalimentación claros.
Dentro de estos espacios virtuales, los agentes de IA pueden experimentar, cometer erroresy aprender de sus éxitos y fracasos, todo ello sin la riesgos o limitaciones del mundo real. A medida que SIMA explora mundos de juego más complejos y sus modelos subyacentes se vuelven más poderosos, desarrolla la capacidad de adaptarse, comprender instrucciones y elaborar estrategias para lograr objetivos.
Estas habilidades, perfeccionadas en el entorno seguro de un juego, se traducen en una IA versátil y capaz que potencialmente puede navegar por las complejidades de nuestro mundo real.
Esto es solo el principio de lo que es posible cuando la IA aprende jugando.
En realidad, el potencial de la IA para abordar los desafíos del mundo real queda claro cuando analizamos examinar las indicaciones utilizadas por Google DeepMind en varios juegos.
![SIMA tiene el potencial de salvar a la humanidad... ¿Jugar videojuegos? 2 IA generalista de Google DeepMind SIMA](https://dataconomy.com/wp-content/uploads/2024/03/Google-DeepMind-SIMA-generalist-AI_1-e1710345847819.jpg)
Por poner algunos ejemplos:
El «recoger mineral de hierro«mensaje en Satisfactorio insinúa el potencial de la IA para mejorar la seguridad en industrias peligrosas como la minería. La Oficina de Estadísticas Laborales informa un preocupante aumento de las lesiones mortales en minas, con un Aumento del 21,8% de 2020 a 2021. Imagine las vidas que podrían salvarse si robots impulsados por IA, menos propensos a errores humanos o fatiga, se encargaran de tareas mineras peligrosas.
En el juego de supervivencia Valheimel «encontrar aguaEl mensaje destaca el poder de la IA para abordar cuestiones vitales como la escasez de agua. El Banco Mundial informa eso Alrededor de 226 millones de personas en África oriental y meridional no tenían acceso a servicios básicos de agua.y 381 millones de personas carecían de acceso a servicios básicos de saneamiento.
Otro robot que pueda realizar investigaciones sobre el agua en la fuente natural de agua de la región sin interrupción puede afectar la vida de miles de millones de personas.
Aunque hoy en día la inteligencia artificial parece identificarse con la generación de imágenes y los incesantes chatbots, créanos, es mucho más que eso, y estudios como estos tienen un inmenso potencial para una mejor futuro para todos.
Crédito de imagen destacada: Freepik.