De agentes a modelos mundiales: lo que San Francisco reveló sobre la próxima fase de la IA

La próxima fase de la IA no estará definida únicamente por mejores respuestas.

Estará definido por sistemas que puedan actuar con contexto, percibir con profundidad y modelar el mundo que se les pide que cambien.

La próxima pregunta de la IA no es solo qué saben los modelos

La conversación sobre IA está empezando a ir más allá de la interfaz del chatbot.

Durante los últimos años, la forma más visible de IA ha sido la lingüística. La gente escribía preguntas, los modelos producían respuestas y la industria medía el progreso mediante el razonamiento, la codificación, la escritura, el resumen y la búsqueda. Esa fase no ha terminado. La inteligencia lingüística sigue siendo cada vez más útil, más integrada y más comercial.

Pero esa ya no es toda la historia.

La pregunta más importante ahora es qué sucederá cuando los sistemas de IA no solo generen respuestas, sino que comiencen a utilizar herramientas, gestionar flujos de trabajo, comprender el espacio y razonar sobre el mundo físico. Ahí es donde la industria está empezando a girar: del lenguaje a la acción, del texto a las interfaces, de las respuestas estáticas a los entornos dinámicos.

Esa transformación solo se ha vuelto más clara desde HumanX. El gasto global en IA ahora está siendo impulsado por la infraestructura y las herramientas agentes. La cuestión no es simplemente que haya otro modelo disponible. Es que los agentes se están convirtiendo en parte del conjunto empresarial.

Esta es la razón por la que las conversaciones de HumanX en San Francisco siguen siendo importantes. El evento ya pasó, pero capturó una transición que se está volviendo más visible ahora: la IA está pasando de sistemas que hablan a sistemas que actúan, y de modelos que procesan el lenguaje a modelos que necesitan cierta comprensión del mundo.

«La IA pasó de poder responder preguntas a poder hacer cosas».

-Jensen Huang

La tercera ola de IA

Jensen Huang enmarcó la evolución directamente. La IA, argumentó, es mucho más amplia que los grandes modelos lingüísticos. El lenguaje es una forma de información codificada, pero la información también está codificada en genes, proteínas, sustancias químicas, física, herramientas, software y entornos. Dondequiera que haya una estructura, la IA puede aprender a representarla.

Ese marco es importante porque aleja a la IA de ser entendida como una categoría única. Los chatbots son importantes, pero son sólo una expresión de una tecnología mucho más amplia. El cambio más profundo es que la IA se está convirtiendo en una forma de representar, predecir y actuar en todos los dominios.

Huang describió el momento actual como el comienzo de una tercera ola. La primera ola de IA moderna fue generativa: modelos que podían traducir una forma de información en otra. La segunda ola fue el razonamiento, donde los modelos se volvieron más fundamentados y útiles. La tercera ola, en su opinión, es agente.

«Lo que está sucediendo ahora es que la IA pasó de ser capaz de responder preguntas a ser capaz de hacer cosas», dijo.

Ésta es una forma concisa de describir el nuevo centro de gravedad. El mensaje ya no es sólo una pregunta. Cada vez más, es una solicitud de acción: construir algo, analizar algo, usar estas herramientas, acceder a estos archivos, iterar hasta que el trabajo esté terminado.

La frase más útil de Huang puede haber sido incluso más simple: «La IA es software que utiliza software».

Esa idea cambia el significado de la capa de aplicación. La industria del software se construyó en torno a herramientas utilizadas por humanos. Procesadores de texto, hojas de cálculo, suites de diseño, sistemas empresariales, herramientas de desarrollo, CRM, ERP y plataformas de análisis se diseñaron para personas sentadas frente a pantallas. Si los agentes de IA se convierten en usuarios de herramientas, la cantidad de usuarios de software se expande dramáticamente.

El resultado no es sólo una mayor automatización. Es una reinvención de cómo se consume el software en sí.

Codificación para gestionar agentes

La conversación OpenAI/Codex en HumanX hizo visible la misma transición desde el interior de la ingeniería de software.

Srinivas Narayanan describió que las herramientas de codificación han pasado de la asistencia a la agencia. Los ingenieros ya no utilizan la IA solo para autocompletar funciones o explicar el código. Son sistemas de guía que generan software, revisan software y corrigen errores. En sus palabras, el trabajo se ha convertido «principalmente no en escribir software, sino en gestionar agentes».

Esa línea se conecta directamente con lo que está sucediendo en el trabajo del conocimiento. La codificación es el primer dominio donde este patrón agente se ha vuelto muy visible porque el software es inusualmente verificable. Las pruebas se pueden escribir. Los repositorios están limitados. Los errores se pueden reproducir. Se pueden comprobar las salidas.

Pero la afirmación más profunda es que la codificación puede ser un anticipo de otras formas de trabajo. Narayanan describió el Codex y los modelos de codificación como un instrumento subyacente para muchos tipos de trabajo de conocimiento, desde flujos de trabajo legales y financieros hasta la automatización de procesos comerciales.

Ahí es donde los agentes se convierten en algo más que herramientas de desarrollo. Se convierten en una interfaz de trabajo general. Si pueden manipular archivos, acceder a sistemas, utilizar aplicaciones y operar dentro de las barreras de seguridad, las mismas primitivas que los hacen útiles para el código pueden hacerlos útiles para otros flujos de trabajo.

La limitación no es la imaginación. Es contexto, seguridad y acceso. ¿Conoce el agente los sistemas de la empresa? ¿Entiende el flujo de trabajo? ¿Tiene los permisos adecuados? ¿Se puede monitorear? ¿Se puede confiar en él cuando los agentes comienzan a interactuar con otros agentes?

Esas preguntas explican por qué el futuro agente no es sólo una carrera modelo. Es un problema de infraestructura, gobernanza e interfaz.

El paso de las palabras a los mundos

Si Jensen y OpenAI mostraron el paso de responder a actuar, Fei-Fei Li empujó la conversación hacia otra frontera: la inteligencia espacial.

Su argumento no fue que la inteligencia del lenguaje esté terminada. De hecho, dejó claro que los modelos lingüísticos seguirán siendo fundamentales. Pero la inteligencia humana no es sólo lingüística. Entendemos el mundo a través del espacio, el movimiento, los objetos, los cuerpos, la geometría, la interacción y el tiempo. Para que las máquinas sean más útiles en entornos físicos y virtuales, necesitan alguna versión de esa comprensión espacial.

Li describió la ausencia de esta conciencia como inteligencia en la oscuridad. En el momento en que los animales tomaron conciencia de sus cuerpos y de su relación con el mundo, dijo, la inteligencia evolucionó rápidamente. Para la IA, la implicación es que ver y razonar sobre el mundo no es un accesorio de la inteligencia. Es fundamental para ello.

Su definición de modelo mundial era precisa: un sistema que puede comprender el espacio, razonar sobre geometría, interactividad, física y dinámica y, eventualmente, generar espacio 3D y 4D tal como las computadoras actuales generan palabras.

Esa es una ambición diferente a la de crear un mejor chatbot. Apunta hacia sistemas que pueden crear entornos de entrenamiento para robots, ayudar a diseñar experiencias, respaldar imágenes de atención médica, impulsar mundos virtuales y modelar el próximo estado de un entorno físico.

Marble de World Labs, del que Li habló en el escenario, es una expresión temprana de esa dirección: un modelo generativo para verdaderos mundos 3D consistentes. La cuestión no es sólo que tales mundos puedan generarse. Es que pueden convertirse en entornos para que otros sistemas aprendan, prueben, simulen y actúen.

La siguiente fase es la acción más la comprensión del mundo

En conjunto, las conversaciones de HumanX sugirieron que la próxima fase de la IA no estará definida por una interfaz.

Los agentes necesitan herramientas. Las empresas necesitan barreras de seguridad. El software necesita contexto. La robótica necesita datos espaciales. Los modelos de vídeo necesitan comprensión temporal. Los modelos mundiales necesitan computación, nuevas arquitecturas y entornos de capacitación que aún no existen a escala de Internet.

El hilo común es que la IA se está acercando al trabajo y al mundo. Ya no basta con que los modelos produzcan un lenguaje plausible. Necesitan tomar medidas, operar software, comprender entornos y generar resultados que puedan verificarse, utilizarse y ser confiables.

Ésta es también la razón por la que San Francisco sigue siendo un objetivo tan útil. HumanX no fue sólo una reunión de ejecutivos y fundadores de IA. Fue una instantánea del siguiente argumento de la industria: la frontera se está moviendo de las palabras a los flujos de trabajo, y de los flujos de trabajo a los mundos.

Eso no hace que el lenguaje sea menos importante. Lo hace parte de un sistema más grande.

La primera experiencia de IA en el mercado masivo fue la conversación. El próximo puede ser la delegación. Después de eso, puede ser simulación: agentes que trabajan dentro de entornos que pueden comprender, modelar y cambiar.

Ese es el verdadero significado del momento capturado por HumanX. La próxima fase de la IA no consiste solo en respuestas más inteligentes. Son los sistemas los que pueden actuar con contexto, percibir con profundidad y, finalmente, razonar sobre el mundo que se les pide que cambien.

Crédito de imagen destacada