Investigadores de Apple publicó un estudio detalla cómo los modelos de lenguaje grandes (LLM) pueden interpretar datos de audio y movimiento para identificar las actividades del usuario, centrándose en la fusión tardía de sensores multimodales para el reconocimiento de actividades. El artículo, titulado «Uso de LLM para la fusión tardía de sensores multimodales para el reconocimiento de actividades», de Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren y Jaya Narain, fue aceptado en el taller Learning from Time Series for Health en NeurIPS 2025. Esta investigación explora la integración del análisis LLM con datos de sensores tradicionales para mejorar la clasificación de actividades. Los investigadores afirman: «Los flujos de datos de sensores proporcionan información valiosa sobre las actividades y el contexto para aplicaciones posteriores, aunque integrar información complementaria puede ser un desafío. Mostramos que los modelos de lenguaje grande (LLM) se pueden usar para la fusión tardía para la clasificación de actividades a partir de datos de series de tiempo de audio y movimiento». Seleccionaron un subconjunto de datos para el reconocimiento de diversas actividades del conjunto de datos Ego4D, que abarca actividades domésticas y deportes. Los LLM evaluados lograron puntuaciones F1 de clasificación de un solo disparo y cero de 12 clases significativamente por encima del azar, sin capacitación específica para la tarea. La clasificación de disparo cero a través de la fusión basada en LLM de modelos de modalidad específica permite aplicaciones temporales multimodales con datos de entrenamiento alineados limitados para un espacio de incrustación compartido. La fusión basada en LLM permite la implementación de modelos sin requerir memoria ni cálculo adicionales para modelos multimodales específicos de aplicaciones específicas. El estudio destaca la capacidad de los LLM para inferir las actividades del usuario a partir de señales básicas de audio y movimiento, mostrando una precisión mejorada con un solo ejemplo. Fundamentalmente, el LLM no recibió directamente audio sin procesar. En cambio, recibió breves descripciones de texto generadas por modelos de audio y un modelo de movimiento basado en IMU, que rastrea el movimiento a través de datos de acelerómetro y giroscopio. Para el estudio, los investigadores utilizaron Ego4D, un conjunto de datos que presenta miles de horas de medios en perspectiva en primera persona. Seleccionaron un conjunto de datos de actividades diarias de Ego4D mediante la búsqueda de descripciones narrativas. El conjunto de datos seleccionado incluye muestras de 20 segundos de doce actividades de alto nivel: estas actividades se eligieron para cubrir tareas domésticas y de acondicionamiento físico y en función de su prevalencia en el conjunto de datos más grande de Ego4D. Los datos de audio y movimiento se procesaron a través de modelos más pequeños para generar subtítulos de texto y predicciones de clases. Estos resultados luego se introdujeron en diferentes LLM, específicamente Gemini-2.5-pro y Qwen-32B, para evaluar la precisión de la identificación de actividades. Apple comparó el rendimiento del modelo en dos escenarios: una prueba cerrada en la que los modelos eligieron entre 12 actividades predefinidas y una prueba abierta sin opciones proporcionadas. Para cada prueba se utilizaron varias combinaciones de subtítulos de audio, etiquetas de audio, datos de predicción de actividad de IMU y contexto adicional. Los investigadores señalaron que los resultados ofrecen información sobre la combinación de múltiples modelos para datos de actividad y salud. Este enfoque es particularmente beneficioso cuando los datos sin procesar de los sensores por sí solos no son suficientes para proporcionar una imagen clara de la actividad del usuario. Apple también publicó materiales complementarios, incluidos ID de segmentos de Ego4D, marcas de tiempo, indicaciones y ejemplos únicos, para facilitar la reproducibilidad a otros investigadores.





