El surgimiento de incrustado Ml está transformando cómo los dispositivos interactúan con el mundo, empujando los límites de lo que es posible con recursos limitados. Estas aplicaciones, desde wearables inteligentes hasta sensores industriales, exigen un equilibrio delicado entre rendimiento, consumo de energía y privacidad.
Vladislav Agafonov, un experto en aprendizaje automático en Meta Reality Labs UK (anteriormente Oculus VR), entiende íntimamente estos desafíos.
«El aprendizaje automático integrado es fascinante y desafiante porque estamos ejecutando modelos de aprendizaje profundo en dispositivos con memoria y poder de procesador muy limitados», dijo Agafonov.
Uno de los desafíos más persistentes, según Agafonov, es la optimización de modelos para dispositivos con potencia computacional y memoria restringidas.
«El desafío más persistente es equilibrar la precisión del modelo con memoria limitada en chip y potencia de procesamiento restringida», dijo Agafonov.
Para abordar esto, las técnicas como la cuantización y la poda son cruciales. La cuantización reduce el número de bits utilizados para almacenar pesos del modelo, a menudo de 32 bits a 8 o menos, reduciendo significativamente el uso de la memoria. La poda, por otro lado, elimina las conexiones innecesarias en la red, reduciendo el tamaño del modelo y acelerando la inferencia.
«También presto atención a la Operación Fusión, lo que significa fusionar múltiples pasos en el cálculo para evitar almacenar grandes resultados intermedios en la memoria», dijo Agafonov. «Del mismo modo, el uso de acceso de memoria directa (DMA) puede permitir que los datos del sensor fluyan directamente al motor de cálculo sin copias adicionales, ayudando a reducir la latencia».
Al perfilar meticulosamente cada paso, medir los ciclos, la huella de la memoria y el consumo de energía, los ingenieros pueden optimizar dónde es más importante, ajustando modelos sofisticados en solo unos pocos cientos de kilobytes de memoria.
Aceleración de hardware y optimización de software
La aceleración de hardware es otro componente crítico de ML integrado. Los chips especializados como las unidades de procesamiento neuronal (NPUS) y las unidades de procesamiento de tensor (TPU) manejan el procesamiento paralelo, acelerando drásticamente la inferencia de la red neuronal al tiempo que minimiza el uso de energía.
«La aceleración de hardware es absolutamente clave para ejecutar modelos ML sofisticados en dispositivos integrados», dijo Agafonov. «Pero a medida que estos chips evolucionan, la optimización del software sigue siendo igual de importante».
Frameworks como Ejecutorch apuntan a simplificar el proceso de desarrollo manejando detalles de bajo nivel, como mapear cargas de trabajo a diferentes aceleradores y administrar la memoria de manera eficiente.
«En lugar de pasar horas tratando de optimizar cada parte de su código para cada nuevo chip, puede confiar en el marco para hacer el trabajo pesado», dijo Agafonov.
Esto permite a los desarrolladores centrarse en los modelos de aprendizaje automático en sí, en lugar de las complejidades de la optimización de hardware.
Privacidad y aprendizaje federado
La privacidad es una preocupación creciente, y ML integrado ofrece la ventaja del procesamiento de datos locales.
«Una de las grandes razones por las que ML integrado es tan valioso es que los datos se pueden procesar directamente en el dispositivo, lo que reduce o incluso elimina la necesidad de enviar información confidencial a través de una red», dijo Agafonov.
El aprendizaje federado lleva este concepto más allá, permitiendo que los dispositivos entrenen modelos localmente y compartan solo actualizaciones agregadas con un servidor central.
«En lugar de recopilar los datos de todos en una base de datos central, cada dispositivo entrena el modelo de forma independiente utilizando su propia información local», dijo Agafonov. «Entonces, solo envía una ‘actualización’ o un resumen de lo que aprendió, no los datos sin procesar en sí».
Este enfoque mejora la privacidad al prevenir la transmisión de datos de usuario en bruto, particularmente importante en aplicaciones confidenciales como la salud y los wearables personales.
El surgimiento de Tinyml
TinyML, la aplicación del aprendizaje automático en dispositivos extremadamente limitados por recursos como los microcontroladores, está ganando impulso.
«Piense en un pequeño chip con solo unos pocos cientos de kilobytes de memoria que aún necesita manejar tareas como clasificación o detección sin drenar una batería en el proceso», dijo Agafonov.
Las aplicaciones como el monitoreo ambiental y el mantenimiento predictivo industrial son ejemplos principales.
«Los sensores pequeños con batería pueden detectar sonidos o cambios de animales específicos en la calidad del aire, luego transmitir alertas significativas sin desperdiciar energía en la transmisión de datos constante», dijo Agafonov. «En la industria, los microcontroladores pueden detectar signos tempranos de falla de maquinaria al monitorear vibraciones o picos de temperatura, ayudando a prevenir descomposiciones costosas».
El crecimiento de TinyML está impulsado por los avances en hardware y software. Los microcontroladores ahora incluyen bloques de procesamiento especializados y marcos ML livianos simplifican la optimización y la implementación del modelo.
Experiencias inmersivas y tendencias futuras
En Meta Reality Labs, se está utilizando ML integrado para mejorar las experiencias inmersivas.
«Estamos aprovechando ML integrado para hacer que las experiencias inmersivas sean más naturales y receptivas: piense en un reconocimiento rápido de gestos en una pulsera que le permite controlar las interfaces AR o VR sin controladores voluminosos», dijo Agafonov.
Sin embargo, los problemas técnicos permanecen. «Un obstáculo significativo es equilibrar el consumo de energía con la necesidad de una inferencia casi instantánea», dijo Agafonov. «Otro es garantizar que los modelos sigan siendo precisos en cualquier condición».
Mirando hacia el futuro, Agafonov ve varias tendencias clave que dan forma al futuro de ML incrustado. La creciente adopción de microcontroladores habilitados para TinyML y ML, la expansión de la aceleración de hardware con chips ML especializados y el uso creciente del aprendizaje federado para el procesamiento de datos de preservación de la privacidad están preparados para impulsar la innovación en este campo.
A medida que el ML integrado continúa evolucionando, la capacidad de equilibrar la potencia, la privacidad y el rendimiento será crucial para desbloquear su máximo potencial.