Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Un nuevo artículo de Apple revela cómo la IA puede realizar un seguimiento de tus tareas diarias

byKerem Gülen
23 noviembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

Investigadores de Apple publicó un estudio detalla cómo los modelos de lenguaje grandes (LLM) pueden interpretar datos de audio y movimiento para identificar las actividades del usuario, centrándose en la fusión tardía de sensores multimodales para el reconocimiento de actividades. El artículo, titulado «Uso de LLM para la fusión tardía de sensores multimodales para el reconocimiento de actividades», de Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren y Jaya Narain, fue aceptado en el taller Learning from Time Series for Health en NeurIPS 2025. Esta investigación explora la integración del análisis LLM con datos de sensores tradicionales para mejorar la clasificación de actividades. Los investigadores afirman: «Los flujos de datos de sensores proporcionan información valiosa sobre las actividades y el contexto para aplicaciones posteriores, aunque integrar información complementaria puede ser un desafío. Mostramos que los modelos de lenguaje grande (LLM) se pueden usar para la fusión tardía para la clasificación de actividades a partir de datos de series de tiempo de audio y movimiento». Seleccionaron un subconjunto de datos para el reconocimiento de diversas actividades del conjunto de datos Ego4D, que abarca actividades domésticas y deportes. Los LLM evaluados lograron puntuaciones F1 de clasificación de un solo disparo y cero de 12 clases significativamente por encima del azar, sin capacitación específica para la tarea. La clasificación de disparo cero a través de la fusión basada en LLM de modelos de modalidad específica permite aplicaciones temporales multimodales con datos de entrenamiento alineados limitados para un espacio de incrustación compartido. La fusión basada en LLM permite la implementación de modelos sin requerir memoria ni cálculo adicionales para modelos multimodales específicos de aplicaciones específicas. El estudio destaca la capacidad de los LLM para inferir las actividades del usuario a partir de señales básicas de audio y movimiento, mostrando una precisión mejorada con un solo ejemplo. Fundamentalmente, el LLM no recibió directamente audio sin procesar. En cambio, recibió breves descripciones de texto generadas por modelos de audio y un modelo de movimiento basado en IMU, que rastrea el movimiento a través de datos de acelerómetro y giroscopio. Para el estudio, los investigadores utilizaron Ego4D, un conjunto de datos que presenta miles de horas de medios en perspectiva en primera persona. Seleccionaron un conjunto de datos de actividades diarias de Ego4D mediante la búsqueda de descripciones narrativas. El conjunto de datos seleccionado incluye muestras de 20 segundos de doce actividades de alto nivel: estas actividades se eligieron para cubrir tareas domésticas y de acondicionamiento físico y en función de su prevalencia en el conjunto de datos más grande de Ego4D. Los datos de audio y movimiento se procesaron a través de modelos más pequeños para generar subtítulos de texto y predicciones de clases. Estos resultados luego se introdujeron en diferentes LLM, específicamente Gemini-2.5-pro y Qwen-32B, para evaluar la precisión de la identificación de actividades. Apple comparó el rendimiento del modelo en dos escenarios: una prueba cerrada en la que los modelos eligieron entre 12 actividades predefinidas y una prueba abierta sin opciones proporcionadas. Para cada prueba se utilizaron varias combinaciones de subtítulos de audio, etiquetas de audio, datos de predicción de actividad de IMU y contexto adicional. Los investigadores señalaron que los resultados ofrecen información sobre la combinación de múltiples modelos para datos de actividad y salud. Este enfoque es particularmente beneficioso cuando los datos sin procesar de los sensores por sí solos no son suficientes para proporcionar una imagen clara de la actividad del usuario. Apple también publicó materiales complementarios, incluidos ID de segmentos de Ego4D, marcas de tiempo, indicaciones y ejemplos únicos, para facilitar la reproducibilidad a otros investigadores.


Crédito de imagen destacada

Tags: AIego4dManzana

Related Posts

Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.