Al llevar la actualización de Meta AI a todas las plataformas, Meta también publicó el punto de referencia Llama 3 para entusiastas de la tecnología.
El punto de referencia ofrece a investigadores y desarrolladores independientes un conjunto de pruebas estandarizadas para evaluar el desempeño de Llama 3 en diversas tareas.
Esta transparencia permite a los usuarios comparar las fortalezas y debilidades de Llama 3 con otros LLM utilizando el mismo punto de referencia, fomentando una comprensión más objetiva de sus capacidades.
¿Qué muestra el benchmark Llama 3?
Meta AI estableció el punto de referencia Llama 3, un conjunto integral de evaluaciones diseñadas para evaluar el desempeño de LLM en diversas tareas. Estas tareas incluyen responder preguntas, resumir, seguir instrucciones y aprender en pocas ocasiones. El punto de referencia sirve como una herramienta crucial para evaluar las fortalezas y debilidades de Llama 3 frente a otros LLM.
Si bien una comparación directa entre el punto de referencia de Llama 3 y los utilizados por los competidores es un desafío debido a las diferentes metodologías de evaluación, Meta afirma que los modelos de Llama 3 entrenados en su conjunto de datos lograron un rendimiento excepcional en todas las tareas evaluadas. Esto indica que Meta AI está a la par de los mejores en el campo LLM.
Aquí hay una mirada más profunda a cómo se comparan los puntos de referencia de Llama 3:
- Escala de parámetros: Meta se jacta de que sus modelos Llama 3 con parámetros 8B y 70B superan a Llama 2 y establecen un nuevo estado del arte para LLM de escala similar.
- Evaluación humana: Meta realizó evaluaciones humanas en un conjunto de datos completo que abarca 12 casos de uso clave. Esta evaluación posiciona favorablemente el modelo Llama 3 que sigue instrucciones 70B frente a rivales de tamaño comparable en escenarios del mundo real.
Estas son evaluaciones del propio Meta y podrían ser necesarios puntos de referencia independientes para una comparación más definitiva.
Pesos abiertos versus código abierto
Es crucial diferenciar entre «pesos abiertos» y «código abierto». Si bien Llama 3 ofrece modelos y pesos que se pueden descargar gratuitamente, no entra dentro de la definición estricta de código abierto debido a limitaciones en el acceso y los datos de entrenamiento (a diferencia del software verdaderamente de código abierto).
Llama 3 viene en dos tamaños: 8 mil millones (8B) y 70 mil millones (70 mil millones) parámetros. Ambos son disponible para descarga gratuita en el sitio web de Meta después de un simple proceso de registro.
Una inmersión técnica profunda en Meta AI
Llama 3 ofrece dos versiones:
- Pre-entrenado: Este es el modelo en bruto centrado en la predicción del próximo token.
- Instrucción ajustada: Esta versión está ajustada para seguir instrucciones específicas del usuario.
Ambas versiones tienen un límite de contexto de 8192 tokens.
Detalles del entrenamiento
- Equipo de entrenamiento: Meta empleó dos clústeres personalizados, cada uno con la asombrosa cantidad de 24.000 GPU, para entrenar Llama 3.
- Datos de entrenamiento: Mark Zuckerberg, director ejecutivo de Meta, reveló en una entrevista en un podcast que el modelo 70B se entrenó en un conjunto de datos masivo de alrededor de 15 billones de tokens. Curiosamente, el modelo nunca alcanzó un punto de saturación (rendimiento máximo) durante el entrenamiento, lo que sugiere que podría haber margen de mejora con conjuntos de datos aún más grandes.
- Planes futuros: Actualmente, Meta está entrenando una colosal versión de parámetros 400B de Llama 3, lo que podría ponerlo en la misma liga de rendimiento que rivales como GPT-4 Turbo y Géminis Ultra en puntos de referencia como MMLU, GPQA, HumanEval y MATH.
Los desafíos en el benchmark Llama 3
Necesitamos reconocer las limitaciones de los puntos de referencia actuales de LLM debido a factores como la contaminación de los datos de capacitación y la selección de resultados por parte de los proveedores.
A pesar de estas limitaciones, Meta proporcionó algunos puntos de referencia que muestran el rendimiento de Llama 3 en tareas como MMLU (conocimientos generales), GSM-8K (matemáticas), HumanEval (codificación), GPQA (preguntas avanzadas) y MATH (problemas escritos).
Estos puntos de referencia posicionan favorablemente al modelo 8B frente a competidores de peso abierto como Gemma 7B de Google y Mistral 7B Instruir. El modelo 70B también se mantiene firme frente a nombres establecidos como Géminis Pro 1.5 y Soneto de Claudio 3.
Accesibilidad de Llama 3
Meta planea hacer que los modelos Llama 3 estén disponibles en las principales plataformas en la nube como AWS, Databricks, Google Cloud y otras, garantizando una amplia accesibilidad para los desarrolladores.
Llama 3 forma la base del asistente virtual de Meta, que será destacado presentado en funciones de búsqueda en Facebook, Instagram, WhatsApp, Messengery un sitio web dedicado similar a la interfaz de ChatGPT (incluida la generación de imágenes).
Además, Meta se ha asociado con Google para integrar resultados de búsqueda en tiempo real en el asistente, aprovechando su asociación existente con Bing de Microsoft.
Crédito de imagen destacada: Meta