Meta ha anunciado el lanzamiento de producción de Llama 3.2, una colección sin precedentes de modelos de inteligencia artificial gratuitos y de código abierto destinados a dar forma al futuro de la inteligencia de las máquinas con flexibilidad y eficiencia.
Dado que las empresas están en la búsqueda de soluciones de IA apocalípticas que puedan funcionar en el hardware más común o en aquellos que son populares para desarrollar soluciones para grandes empresas e independientes, Llama 3.2 ofrece nuevos modelos.
Llama 3.2 se centra en los dispositivos móviles y de borde
El énfasis en el borde y la movilidad es algo bastante evidente en Meta.
En cuanto a las novedades de esta versión, los desarrolladores han añadido las versiones de texto pequeño y mediano LLM: 11B y 90B, y también han introducido alternativas de texto puro, 1B y 3B.
En particular, los nuevos modelos que se presentan aquí están orientados al funcionamiento de dispositivos de borde, lo que hace que la tecnología de IA esté disponible para más clientes. Los modelos livianos de solo texto, especialmente aquellos sin datos visuales, están diseñados para tareas más simples, como el resumen y el seguimiento de instrucciones, debido a la baja potencia computacional.
Debido al procesamiento central de datos en dispositivos móviles, con ejecución local, ninguno de los datos se carga en la nube, como afirma Meta,
“La ejecución local en dispositivos móviles garantiza que los datos permanezcan en el dispositivo, lo que mejora la privacidad del usuario al evitar el procesamiento basado en la nube”.
Esta capacidad es especialmente útil para aplicaciones que procesan datos confidenciales, ya que permite que la aplicación realice tareas importantes manteniendo la confidencialidad de los datos. Por ejemplo, los usuarios pueden responder mensajes personales y resumirlos, u obtener elementos de la lista de tareas pendientes de las reuniones sin retransmitir mensajes a servidores externos.
Avances en la arquitectura de modelos
El cambio más significativo en Llama 3.2 son varias mejoras arquitectónicas. Los nuevos modelos utilizan una arquitectura basada en adaptadores que puede combinar codificadores de imágenes con modelos de texto entrenados previamente sin modificaciones. Esta integración genera mejoras en la capacidad de razonar tanto en áreas de texto como de imágenes y amplía enormemente la gama de aplicaciones para estos modelos.
Los modelos pre-entrenados resultantes pasaron por rigurosos ejercicios de ajuste que implicaron la utilización de enormes datos de pares de imágenes y textos ruidosos.
Llama 3.2 11B y 90B incluyen compatibilidad con una variedad de tareas de visión multimodal. Estas capacidades permiten escenarios como subtitular imágenes para facilitar la accesibilidad, brindar información en lenguaje natural basada en visualizaciones de datos y más. imagen.twitter.com/8kwTopytaf
— IA en Meta (@AIatMeta) 25 de septiembre de 2024
Hay una adición importante a la longitud del contexto del token, y aumentó a un valor muy impresionante. 128K Para los modelos livianos 1B y 3B. Facilita el transporte de datos más amplio, lo que resulta particularmente valioso para documentos extensos y pensamientos elaborados.
Esta capacidad de acomodar tamaños de entrada tan grandes coloca a Llama 3.2 en ventaja con respecto a los competidores en el dinámico mercado de IA dominado por Modelos GPT de OpenAI.
¿Qué pasa con las métricas de rendimiento?
Los modelos de Llama 3.2 han demostrado métricas de rendimiento excepcionales, lo que consolida aún más su ventaja competitiva en el mercado. El modelo 1B logró una puntuación de 49,3 en el punto de referencia MMLU, mientras que el modelo 3B obtuvo una puntuación de 63,4. En el ámbito de la visión, los modelos 11B y 90B demostraron sus capacidades con puntuaciones de 50,7 y 60,3, respectivamente, en tareas de razonamiento visual.
Al evaluar el desempeño en evaluaciones humanas exhaustivas y puntos de referencia, los resultados sugieren que los modelos de visión de Llama 3.2 son competitivos con los modelos cerrados líderes en reconocimiento de imágenes + una variedad de tareas de comprensión visual. imagen.twitter.com/QtOzExBcrd
— IA en Meta (@AIatMeta) 25 de septiembre de 2024
Estas métricas indican que los modelos Llama 3.2 no solo cumplen sino que a menudo superan el rendimiento de ofertas similares de otras empresas, como Haiku de Claude 3 y GPT4o-mini.
La integración de la tecnología UnslothAI también aumenta la eficiencia de estos modelos, lo que permite velocidades de inferencia y ajuste fino dos veces más rápidas y, al mismo tiempo, reduce el uso de VRAM en un 70 %. Esta mejora es crucial para los desarrolladores que buscan implementar soluciones de IA en tiempo real sin enfrentar limitaciones de hardware.
Colaboración y apoyo a los ecosistemas
Uno de los factores clave que definen la preparación de Llama 3.2 para su lanzamiento al mercado es su ecosistema bien desarrollado. Las asociaciones con otros líderes de la industria móvil como Qualcomm, MediaTek y AWS permiten a los desarrolladores implementar estos modelos en diferentes configuraciones, entornos de nube y dispositivos locales.
El Pila de llamas Distribuciones como Llama Stack para instalaciones en dispositivos y Llama Stack para instalaciones de un solo nodo ofrecen soluciones que los desarrolladores pueden aprovechar e incorporar estos modelos en sus proyectos sin complicaciones adicionales.
Los modelos livianos Llama 3.2 que se envían hoy incluyen soporte para @Brazo, @MediaTek & @Qualcomm Permitir que la comunidad de desarrolladores comience a crear aplicaciones móviles impactantes desde el primer día. imagen.twitter.com/DhhNcUviW7
— IA en Meta (@AIatMeta) 25 de septiembre de 2024
¿Cómo utilizar Meta Llama 3.2?
La última versión del modelo de IA de código abierto, Llama 3.2, ya está disponible en Sitio web de Meta Llamaofreciendo capacidades mejoradas de personalización, ajuste e implementación en varias plataformas.
Los desarrolladores pueden elegir entre cuatro tamaños de modelo: 1B, 3B, 11B y 90B, o continuar utilizando el anterior. Llama 3.1.
Meta no solo está lanzando estos modelos al mercado, sino que también está interesado en garantizar que los desarrolladores tengan todo lo que necesitan para aprovechar Llama 3.2 de manera efectiva. Este compromiso incluye compartir herramientas y recursos valiosos para ayudar a los desarrolladores a desarrollar de manera responsable. Al actualizar continuamente sus mejores prácticas e interactuar con la comunidad de código abierto, Meta espera inspirar la innovación y, al mismo tiempo, promover la innovación. IA ética uso.
“Estamos entusiasmados por continuar las conversaciones que estamos teniendo con nuestros socios y la comunidad de código abierto y, como siempre, estamos ansiosos por ver lo que la comunidad construye usando Llama 3.2 y Llama Stack”.
Meta afirmó.
Este enfoque colaborativo no solo mejora las capacidades de Llama 3.2, sino que también fomenta un ecosistema dinámico. Ya sea para soluciones de borde livianas o tareas multimodales más complejas, Meta espera que los nuevos modelos brinden la flexibilidad necesaria para satisfacer las diversas demandas de los usuarios.
Créditos de la imagen: Meta