El cambio urbano generalmente nos decide. Un nuevo café aquí. Un paso elevado pintado allí. Pero, ¿qué pasaría si pudiera ver una década completa de la transformación visual de una ciudad, capturada automáticamente, ordenada y explicada por AI?
Eso es exactamente lo que llamó un nuevo proyecto de investigación Crónicas visuales empezar a hacer. Desarrollado por investigadores Desde Stanford y Google Deepmind, este sistema utilizó modelos de idiomas grandes (MLLM) multimodales para analizar más de 40 millones de imágenes de Google Street View de la ciudad de Nueva York y San Francisco. Vio las tendencias de las tendencias que los humanos no notarían fácilmente.
El problema imposible de la escala
Seguimiento de pequeños cambios a lo largo del tiempo no es nada nuevo en la visión por computadora. Pero la mayoría del trabajo anterior necesitaba etiquetas o centrados en cosas específicas como automóviles o caras. Este proyecto fue diferente. El objetivo fue abierto: ¿qué cambió con mayor frecuencia en estas ciudades, durante una década?
Pregunta simple. Brutalmente duro en la práctica.
Los modelos de idiomas grandes son buenos para razonar sobre imágenes, pero luchan cuando el conjunto de datos crece más allá de unos pocos miles de imágenes. Visual Chronicles estaba lidiando con millones. Entonces, los investigadores diseñaron una estrategia ascendente. Primero, detecte pequeños cambios locales como un nuevo letrero o un árbol eliminado. Luego, agrupe en tendencias más amplias en toda la ciudad.
El trabajo de detective de AI en las calles
Así es como funcionó en acción:
- Paso 1: Compare imágenes de la misma ubicación con el tiempo.
- Paso 2: Pídale a la IA que describa qué cambió, con evidencia de las imágenes.
- Paso 3: Group Cambios similares encontrados en toda la ciudad.
- Paso 4: Verifique esas tendencias con más controles de IA.
Este enfoque híbrido permite que el sistema detecte cambios sutiles. Configuraciones de comidas al aire libre después de Covid-19. Nuevos paneles solares en los tejados. Todos vistos sin ahogarse en datos o generar respuestas abstractas como «crecimiento económico».
Entonces, ¿qué encontró?
En la ciudad de Nueva York, la IA vio un ascenso dramático en:
- Cámaras de seguridad: 745 nuevas instalaciones en los vecindarios.
- Cercas alrededor de los estacionamientos: 509 nuevas adiciones.
- Actualizaciones de la acera: 519 nuevas almohadillas de advertencia de ADA roja.
En San Francisco, las tendencias exclusivas de la década se veían diferentes:
- Paneles solares: 1504 nuevas instalaciones en la azotea, especialmente visibles desde las carreteras elevadas.
- Carriles de autobuses dedicados: 751 nuevas conversiones de carril para el transporte público.
- Pasteles de bicicletas: 1799 nuevos bastidores, en su mayoría cerca del centro.
Los años covid dejaron huellas digitales visuales en todas partes
Los investigadores también se centraron en el período de la pandemia, capturando cómo las calles de la ciudad se adaptaron después de 2020. El comedor al aire libre explotó en San Francisco, con 1482 nuevas configuraciones registradas solo entre 2020 y 2022.
Y luego estaba el paso elevado azul. Una sección de autopistas en San Francisco fue pintada ‘Coronado Blue’, un detalle visto 481 veces en las imágenes de Street View después de 2020.
En Nueva York, el sistema también se utilizó para rastrear los cambios en las tiendas minoristas. Reveló dos tendencias opuestas:
- Aperturas de panaderías y tiendas de jugo en áreas gentrificantes.
- Cierres de tiendas de comestibles y sucursales bancarias en zonas minoristas más antiguas.
Porque por qué no. Los investigadores realizaron un experimento final, pidiéndole a la IA que mirara imágenes aleatorias y encuentre «cosas inusuales».
El ganador? Esculturas abstractas gigantes dispersas por la ciudad de Nueva York. Más de 200 casos de instalaciones de arte público, todos agrupados por el modelo.
¿Los modelos de IA confían en sus reguladores?
Por qué esto importa mucho más allá de Street View
Visual Chronicles muestra cómo las futuras herramientas de IA podrían permitir que las empresas, gobiernos o investigadores rastreen los cambios en cualquier conjunto de datos visual grande. Imágenes satelitales. Pisos de fábrica. Cualquier lugar que cambie con el tiempo.
También es una advertencia. AI no solo «ver» imágenes. Los explica de nuevo de manera que dan forma a lo que creemos que está sucediendo. Cuanto más confiemos en estos informes de tendencias automatizadas, más necesitamos sistemas que equilibren la velocidad de IA con precaución humana.
Visual Chronicles es un ejemplo temprano de ese tipo de sistema. Es lo suficientemente preciso como para encontrar patrones reales, lo suficientemente escalables como para manejar millones de imágenes y lo suficientemente fundamentada como para dejar la narración respaldada por la evidencia.