Google ha abierto su última suite de modelos de IA, Gemini 2.0, al público, marcando un paso significativo en su impulso hacia agentes avanzados de IA. La suite incluye Gemini 2.0 Pro Experimental, diseñada para codificación y tareas complejas, y Gemini 2.0 Flash Thinking, ahora disponible en la aplicación Gemini.
La familia Gemini 2.0 ahora está abierta a todos
Gemini 2.0 Pro Experimental se describe como el modelo más capaz de Google hasta el momento, sobresaliendo en la codificación y manejo de indicaciones complejas. Cuenta con una ventana de contexto de 2 millones de tokens, lo que le permite procesar aproximadamente 1,5 millones de palabras a la vez. El modelo puede llamar a herramientas como Google Search y ejecutar código en nombre de los usuarios. Inicialmente provocado en el ChangeLog de la aplicación Gemini la semana pasada, ahora se puede acceder a través de las plataformas de desarrollo de IA de Google, Vertex AI y Google AI Studio, así como para los suscriptores avanzados de Gemini en la aplicación Gemini.
Gemini 2.0 Flash, introducido en diciembre, ahora está generalmente disponible. Se anuncia como un «modelo de caballo de batalla», está optimizado para tareas de alta volumen, alta frecuencia y cuesta a los desarrolladores 10 centavos por millón de tokens para entradas de texto, imagen y video. Además, Google presentó Gemini 2.0 Flash-Lite, su modelo más rentable, que coincide con el rendimiento de su predecesor, Gemini 1.5 Flash, al mismo precio y velocidad. Flash-Lite cuesta 0.75 centavos por millón de tokens.
Centrarse en los agentes de IA
El liberar Se alinea con la estrategia más amplia de Google de avanzar en la IA agente, modelos capaces de realizar tareas complejas de varios pasos de forma autónoma de forma autónoma. En una publicación de blog de diciembre, Google enfatizó su enfoque en desarrollar modelos que «entiendan más sobre el mundo que te rodea, piensa en múltiples pasos por delante y tome medidas en tu nombre». Gemini 2.0 presenta nuevas capacidades multimodales, incluidas la salida de imagen y audio nativas, así como el uso de herramientas, acercando a Google a su visión de un asistente universal.
Esto empuja a Google en competencia directa con otros gigantes tecnológicos y nuevas empresas como Meta, Amazon, Microsoft, OpenAi y Anthrope, todos los cuales están invirtiendo fuertemente en AI agente. Los agentes de IA de Anthrope, por ejemplo, pueden navegar por las computadoras de manera similar a los humanos, completando tareas con decenas o cientos de pasos. Operai lanzó recientemente Operator, un agente capaz de automatizar tareas como la planificación de vacaciones y el pedido de comestibles, mientras que Deep Research compila informes complejos para los usuarios.
Google también lanzó su propia herramienta de investigación profunda en diciembre, que funciona como un asistente de investigación que explora temas y compila informes detallados. El CEO Sundar Pichai enfatizó la importancia de la ejecución sobre ser la primera, afirmando en una reunión de estrategia de diciembre: «Creo que de eso se trata 2025».
Competencia con Deepseek
Los lanzamientos de Google se presentan en medio de la creciente atención a Deepseek, la startup de IA china cuyas modelos rivalizan o superan a las de las principales empresas estadounidenses. Modelo R1 de Deepseek obtuvo una tracción significativa debido a su asequibilidad y rendimiento. Para contrarrestar esto, Google está haciendo que su modelo de pensamiento flash Gemini 2.0 sea más accesible a través de la aplicación Gemini, potencialmente con el objetivo de llamar mayor atención a sus ofertas.