Durante años, la promesa de una IA conversacional verdaderamente inteligente se ha sentido fuera de nuestro alcance. Nos hemos maravillado con las capacidades de ChatGPT, Géminisy otros modelos de lenguajes grandes (LLM, por sus siglas en inglés) (componer poemas, escribir códigos, traducir idiomas), pero estas hazañas siempre se han basado en la enorme potencia de procesamiento de las GPU en la nube. Ahora se está gestando una revolución silenciosa cuyo objetivo es llevar estas increíbles capacidades directamente al dispositivo que lleva en el bolsillo: un LLM en su teléfono inteligente.
Este cambio no se trata sólo de conveniencia; se trata de privacidad, eficiencia y desbloquear un nuevo mundo de experiencias de IA personalizadas.
Sin embargo, reducir estos enormes LLM para que quepan en un dispositivo con memoria y duración de batería limitadas presenta un conjunto único de desafíos. Para comprender este complejo paisaje, hablé con Alexéi Naumovingeniero jefe de investigación de IA en Terra Cuánticauna figura destacada en el campo de la compresión LLM.
De hecho, Naumov publicó recientemente un artículo sobre este tema que se anuncia como una innovación extraordinaria y significativa en la compresión de redes neuronales: ‘TQCompressor: mejora de los métodos de descomposición de tensores en redes neuronales mediante permutaciones‘ – en la Conferencia Internacional IEEE sobre Procesamiento y Recuperación de Información Multimedia (IEEE MIPR 2024), una conferencia donde investigadores, científicos y profesionales de la industria se reúnen para presentar y discutir los últimos avances en tecnología multimedia.
«El principal desafío es, por supuesto, la limitada memoria principal (DRAM) disponible en los teléfonos inteligentes», dijo Naumov. «La mayoría de los modelos no caben en la memoria de un teléfono inteligente, lo que hace imposible ejecutarlos».
Señala el modelo Llama 3.2-8B de Meta como un excelente ejemplo.
«Requiere aproximadamente 15 GB de memoria», dijo Naumov. “Sin embargo, el iPhone 16 sólo tiene 8 GB de DRAM y el Google Pixel 9 Pro ofrece 16 GB. Además, para operar estos modelos de manera eficiente, en realidad se necesita aún más memoria: alrededor de 24 GB, que ofrecen dispositivos como la GPU NVIDIA RTX 4090, a partir de $1800”.
Esta limitación de memoria no se trata sólo de almacenamiento; Afecta directamente la duración de la batería de un teléfono.
«Cuanta más memoria requiere un modelo, más rápido agota la batería», dijo Naumov. “Un LLM de 8 mil millones de parámetros consume alrededor de 0,8 julios por token. Un iPhone completamente cargado, con aproximadamente 50 kJ de energía, sólo podría sostener este modelo durante aproximadamente dos horas a una velocidad de 10 tokens por segundo, y cada 64 tokens consume alrededor del 0,2% de la batería”.
Entonces, ¿cómo superamos estos obstáculos? Naumov destaca la importancia de las técnicas de compresión de modelos.
«Para solucionar este problema, necesitamos reducir el tamaño de los modelos», afirmó Naumov. «Hay dos enfoques principales: reducir la cantidad de parámetros o disminuir la memoria que requiere cada parámetro».
Describe estrategias como destilación, poda y descomposición de matrices para reducir la cantidad de parámetros y cuantificación para disminuir la huella de memoria de cada parámetro.
«Al almacenar los parámetros del modelo en INT8 en lugar de FP16, podemos reducir el consumo de memoria en aproximadamente un 50%», dijo Naumov.
Si bien los dispositivos Pixel de Google, con sus TPU optimizados para TensorFlow, parecen una plataforma ideal para ejecutar LLM, Naumov advierte que no resuelven el problema fundamental de las limitaciones de memoria.
“Si bien las Unidades de Procesamiento Tensoriales (TPU) utilizadas en los dispositivos Google Pixel ofrecen un rendimiento mejorado cuando se ejecutan modelos de IA, lo que puede conducir a velocidades de procesamiento más rápidas o un menor consumo de batería, no resuelven el problema fundamental de los requisitos de memoria de los LLM modernos. , que normalmente superan la capacidad de memoria de los teléfonos inteligentes”, dijo Naumov.
El impulso para llevar los LLM a los teléfonos inteligentes va más allá de la mera ambición técnica. Se trata de reinventar nuestra relación con la IA y abordar las limitaciones de las soluciones basadas en la nube.
«Los modelos líderes como ChatGPT-4 tienen más de un billón de parámetros», dijo Naumov. “Si imaginamos un futuro en el que las personas dependan en gran medida de los LLM para tareas como interfaces conversacionales o sistemas de recomendación, podría significar que alrededor del 5% del tiempo diario de los usuarios se dedica a interactuar con estos modelos. En este escenario, ejecutar GPT-4 requeriría implementar aproximadamente 100 millones de GPU H100. La escala computacional por sí sola, sin tener en cuenta los gastos generales de comunicación y transmisión de datos, equivaldría a operar alrededor de 160 empresas del tamaño de Meta. Este nivel de consumo de energía y las emisiones de carbono asociadas plantearían importantes desafíos medioambientales”.
La visión es clara: un futuro en el que la IA se integre perfectamente en nuestra vida cotidiana, brindando asistencia personalizada sin comprometer la privacidad ni agotar la batería de nuestros teléfonos.
«Preveo que muchas aplicaciones LLM que actualmente dependen de la computación en la nube pasarán al procesamiento local en los dispositivos de los usuarios», dijo Naumov. «Este cambio será impulsado por una mayor reducción del tamaño de los modelos y mejoras en la eficiencia y los recursos computacionales de los teléfonos inteligentes».
Pinta un panorama de un futuro en el que las capacidades de los LLM podrían volverse tan comunes e intuitivas como lo es hoy la autocorrección. Esta transición podría desbloquear muchas posibilidades interesantes. Gracias a los LLM locales, imagine una privacidad mejorada donde sus datos confidenciales nunca salen de su dispositivo.
Imagine una IA ubicua con capacidades LLM integradas en prácticamente todas las aplicaciones, desde mensajería y correo electrónico hasta herramientas de productividad. Piense en la conveniencia de la funcionalidad fuera de línea, que le permite acceder a asistencia de IA incluso sin una conexión a Internet. Imagine experiencias personalizadas en las que los LLM aprendan sus preferencias y hábitos para brindar un soporte verdaderamente personalizado.
Para los desarrolladores deseosos de explorar esta frontera, Naumov ofrece algunos consejos prácticos.
«En primer lugar, recomiendo seleccionar el modelo que mejor se adapte a la aplicación prevista», afirmó Naumov. “Hugging Face es un recurso excelente para esto. Busque modelos recientes con entre 1.000 y 3.000 millones de parámetros, ya que son los únicos actualmente viables para teléfonos inteligentes. Además, intente encontrar versiones cuantificadas de estos modelos en Hugging Face. La comunidad de IA suele publicar allí versiones cuantificadas de modelos populares”.
También sugiere explorar herramientas como llama.cpp y bits y bytes para cuantificación e inferencia de modelos.
El camino para llevar los LLM a los teléfonos inteligentes aún se encuentra en sus primeras etapas, pero el potencial es innegable. A medida que investigadores como Aleksei Naumov continúan superando los límites de lo posible, estamos en la cúspide de una nueva era en la IA móvil, una en la que nuestros teléfonos inteligentes se convierten en compañeros verdaderamente inteligentes, capaces de comprender y responder a nuestras necesidades de la manera que hemos conocido. Apenas comencé a imaginar.