Google está aprovechando los modelos generativos de IA y múltiples bases para introducir Razonamiento geoespacial, una iniciativa de investigación diseñada para acelerar la resolución de problemas geoespaciales. Este esfuerzo integra modelos de lenguaje grandes como Gemini y modelos de basura de teledetección para mejorar el análisis de datos en varios sectores.
Durante años, Google ha compilado los datos geoespaciales, que están vinculados a ubicaciones geográficas específicas, para mejorar sus productos. Estos datos son cruciales para abordar los desafíos empresariales, como los de salud pública, desarrollo urbano y resiliencia climática.
Los nuevos modelos de base remota se basan en arquitecturas como autoencoders enmascarados, Siglip, Mammut y Owl-Vit, y se entrenan utilizando imágenes satelitales y aéreas de alta resolución con descripciones de texto y anotaciones de cajas limitadas. Estos modelos generan integridades detalladas para imágenes y objetos, y pueden personalizarse para tareas como la infraestructura de mapeo, evaluar el daño por desastres y la ubicación de características específicas.
Estos modelos admiten interfaces de lenguaje natural, permitiendo a los usuarios realizar tareas como encontrar imágenes de estructuras específicas o identificar caminos intransitables. Las evaluaciones han demostrado un rendimiento de vanguardia en varios puntos de referencia de detección remota.
El razonamiento geoespacial tiene como objetivo integrar los modelos de base avanzados de Google con modelos y conjuntos de datos específicos del usuario, basándose en el piloto existente de Géminis Capacidades en Google Earth. Este marco permite a los desarrolladores construir flujos de trabajo personalizados en Google Cloud Platform para administrar consultas geoespaciales complejas utilizando Gemini, que orquesta el análisis en varias fuentes de datos.
La aplicación de demostración muestra cómo un administrador de crisis puede usar el razonamiento geoespacial después de un huracán:
- Visualización del contexto previo al desastre: Usando las imágenes satelitales de código abierto de Earth Engine.
- Visualizar la situación posterior al desastre: Importación de imágenes aéreas de alta resolución.
- Identificación de áreas dañadas: Uso de modelos de base de teledetección para analizar imágenes aéreas.
- Predecir un mayor riesgo: Utilizando el pronóstico meteorológico de Weathernext AI.
- Hacer preguntas a Géminis: Estimación de fracciones de daño, valor de daños a la propiedad y sugerir priorización de alivio.
La aplicación de demostración incluye:
- Una aplicación frontal de Python empaquetada: Eso integra componentes de mapeo y gráfico con una ventana de chat.
- Un back-end de agente: Eso implementa un agente de Langgraph implementado usando Vertex AI Agent Engine.
- Herramientas accesibles de LLM: Para acceder a Earth Engine, BigQuery, Google Maps Platform y Google Cloud Storage, realizar operaciones geoespaciales y utilizar puntos finales de inferencia de modelos de base de detección remota implementados en Vertex AI.
La aplicación utiliza imágenes aéreas de alta resolución de la Patrulla Aérea Civil, preprocesada con IA de Bellwether, X Moonshot para la adaptación climática, además de los edificios abiertos de Google Research y los modelos SKAI. También se incorporan índices de vulnerabilidad social, datos de precios de la vivienda y Google Weathernext Insights.
La coreografía de WPP integrará PDFM con sus datos de rendimiento de los medios para mejorar la inteligencia de audiencia impulsada por la IA. Airbus, Maxar y Planet Labs serán los probadores iniciales de los modelos de Fundación de detección remota.
Específicamente:
- Aerobús: Planea usar los modelos de Fundación de detección remota de Google para permitir a los usuarios extraer información de miles de millones de imágenes satelitales.
- Maxar: Tiene la intención de utilizar los modelos para ayudar a los clientes a interactuar con su «globo vivo» y extraer respuestas críticas de misión más rápido.
- Planet Labs: Utilizará los modelos de Fundación de detección remota para simplificar y acelerar las ideas para sus clientes.