Uno pensaría que predecir las tasas de mortalidad de demencia o el mapeo de ruido de la ciudad requerirían equipos de expertos, encuestas de tierra y empresas de imágenes satelitales. Pero un nuevo modelo de IA, desarrollado por investigadores en la Universidad de Beijing Jiaotong y la Universidad de Montreal, reclamos, puede hacer todo eso a la vez, solo mirando mapas, tweets e imágenes. Se llama al sistema Omnigeoy si la investigación está a la altura de su promesa, podría redefinir cómo leemos ciudades, desastres y entornos humanos en tiempo real.
Por qué decodificar los datos geoespaciales es tan difícil
Geoai, el bisagro para la inteligencia artificial geoespacial, siempre ha sido un juego complicado. Piénselo de esta manera: es como tratar de comprender una ciudad leyendo cinco idiomas a la vez. Tienes imágenes satelitales, fotos a nivel de calle, estadísticas de salud pública, tweets llenos de jerga y hashtags, y datos de ubicación de miles de lugares fijados. Cada uno de estos tipos de datos habla un dialecto diferente, y la mayoría de los sistemas de IA hoy solo son fluidos en uno o dos.
Los modelos existentes pueden ser buenos para clasificar imágenes de teledetección o etiquetas de etiquetado en texto, pero cuando arroja todas estas tareas a una sola olla, las cosas se desmoronan. Ahí es donde interviene Omnigeo: es un solo sistema de IA entrenado para manejarlos a todos.
El equipo detrás de Omnigeo diseñó un Modelo de lenguaje grande multimodal (MLLM)—Un tipo de IA que puede interpretar imágenes satelitales, metadatos geoespaciales y lenguaje natural a la vez. Se basa en modelos de código abierto como Llava y Qwen2, pero está ajustado para cinco dominios principales: geografía de salud, geografía urbana, teledetección, percepción urbana y semántica geoespacial.
En lugar de construir un modelo para cada tarea, Omnigeo los maneja todos simultáneamente. El secreto? El aprendizaje basado en la instrucción se combina con lo que los investigadores llaman «ajuste multimodal». En términos simples, aprende de pares de información de imágenes, datos de series de tiempo, vectores espaciales y más, todo alineado en las mismas ubicaciones.
Hablemos de aplicaciones del mundo real
Aquí es donde las cosas se ponen interesantes. Omnigeo ha sido entrenado para:
- Pronóstico Tasas de mortalidad relacionadas con la demencia a nivel del condado utilizando datos históricos e imágenes satelitales.
- Detectar la función principal de los vecindarios urbanos, como si un área está dominada por escuelas o oficinas comerciales, basada en datos a nivel de la calle y los recuentos de POI (punto de interés).
- Evalúe cuán «ruidoso» o «animado» es una calle, basada exclusivamente en imágenes y subtítulos asociados.
- Descripciones de ubicación de análisis en tweets durante desastres naturales, como extraer «21719 Grand Hollow Lane, Katy, TX» de una solicitud de rescate de inundaciones.
Ese último caso de uso solo es suficiente para insinuar el potencial de este modelo en la respuesta de emergencia y la gestión de la ciudad inteligente.
Cómo Omnigeo ve el mundo
Técnicamente hablando, Omnigeo trabaja al convertir datos geográficos en narraciones legibles. Por ejemplo, las imágenes satelitales se convierten en subtítulos de lenguaje natural («áreas verdes con zonas industriales dispersas»), luego alineadas con datos estructurados como tasas de mortalidad o distribuciones de POI. Todo esto está envuelto en un conjunto de datos de instrucciones, lo que permite que el modelo aprenda en contexto, como lo haría un humano.
No es solo teórico. Omnigeo superó a GPT-4O y otros modelos principales en tareas geoespaciales clave, incluidas clasificación de escenas, reconocimiento de ubicacióny Predicción de la función urbana. En algunos casos, redujo las tasas de error en más de la mitad. Incluso en áreas subjetivas como la percepción urbana, cómo parece una calle una calle «hermosa» o «deprimente», resultó impresionantemente preciso.
¿Por qué ahora?
Las ciudades se están volviendo más difíciles de manejar y más fáciles de vigilar. Con eventos climáticos, auges de la población y crisis de salud pública que golpean a la vez, los responsables políticos necesitan herramientas más rápidas para interpretar el caos geoespacial. Omnigeo llega en un momento en que AI finalmente es capaz de absorber datos de alta dimensión entre formatos.
La diferencia? La mayoría de los modelos grandes hoy solo hablan. Omnigeo ve, escucha y entiende el espacio.
Omnigeo es un plan para cómo podría verse futura IA geoespacial: un sistema entrenado en modalidades, alineado con las entradas del mundo real y listo para generalizar.
Si chatgpt es su asistente de idioma, Omnigeo podría ser el próximo cerebro de emergencia de su ciudad—Translando el caos visual y el desorden de ubicación en información en tiempo real y procesable.
Y lo hace todo sin salir.
Crédito de imagen destacado: Kerem Gülen/MidJourney