Apple afirma que el M5 ejecuta modelos de IA casi un 30% más rápido que el M4

manzana es posicionamiento la nueva MacBook Pro con tecnología M5 como una máquina mucho más capaz para ejecutar y experimentar con modelos de lenguajes grandes, gracias a las actualizaciones tanto de su marco MLX como de los aceleradores neuronales GPU integrados en el chip. Para los investigadores y desarrolladores que prefieren cada vez más trabajar directamente en el hardware de silicio de Apple, la compañía presenta la línea M5 como un importante paso adelante en el rendimiento de inferencia en el dispositivo, especialmente para LLM y otras cargas de trabajo dominadas por operaciones matriciales. En el centro de este esfuerzo se encuentra MLX, el marco de matriz de código abierto de Apple diseñado específicamente para su arquitectura de memoria unificada. MLX proporciona una interfaz similar a NumPy para computación numérica, admite entrenamiento e inferencia para redes neuronales y permite a los desarrolladores moverse sin problemas entre la ejecución de CPU y GPU sin tener que transferir datos entre diferentes grupos de memoria. Funciona en todos los sistemas de silicio de Apple, pero la última versión beta de macOS desbloquea una nueva capa de aceleración al aprovechar las unidades de multiplicación de matriz dedicadas dentro de la GPU del M5. Estos aceleradores neuronales están expuestos a través de TensorOps en Metal 4 y le dan a MLX acceso al rendimiento que, según Apple, es crucial para cargas de trabajo dominadas por grandes multiplicaciones de tensor. Además de MLX se encuentra MLX LM, un paquete para generación y ajuste de texto que admite la mayoría de los modelos de lenguaje alojados en Hugging Face. Los usuarios pueden instalarlo mediante pip, iniciar sesiones de chat desde la terminal y cuantificar modelos directamente en el dispositivo. La cuantización es una característica fundamental: convertir un modelo Mistral de parámetros 7B a 4 bits lleva sólo unos segundos, lo que reduce drásticamente los requisitos de memoria y al mismo tiempo preserva la usabilidad en las máquinas de consumo.

Imagen: manzana

Para mostrar las ganancias del M5, Apple comparó varios modelos, incluidos Qwen 1.7B y 8B (BF16), Qwen 8B y 14B cuantificados de 4 bits, y dos arquitecturas mixtas de expertos: Qwen 30B (3B activo) y GPT-OSS 20B (MXFP4). Los resultados se centran en el tiempo hasta el primer token (TTFT) y la velocidad de generación al producir 128 tokens adicionales a partir de un mensaje de 4096 tokens. Los aceleradores neuronales del M5 mejoran notablemente el TTFT, reduciendo la espera a menos de 10 segundos para un modelo 14B denso y a menos de 3 segundos para un MoE de 30B. Apple informa aceleraciones TTFT de entre 3,3x y 4x en comparación con la generación M4 anterior. La generación de tokens posterior, que está limitada por el ancho de banda de la memoria en lugar del cómputo, obtiene ganancias más pequeñas pero consistentes de aproximadamente entre el 19% y el 27%, en línea con el aumento del 28% en el ancho de banda del M5 (153 GB/s frente a 120 GB/s en el M4). Las pruebas también resaltan cuánta capacidad del modelo cabe cómodamente en la memoria unificada. Una MacBook Pro de 24 GB puede albergar un modelo de 8 B en BF16 o un MoE de 30 B a 4 bits con espacio libre, manteniendo el uso total por debajo de 18 GB en ambos casos. Apple dice que las mismas ventajas del acelerador se extienden más allá de los modelos de lenguaje. Por ejemplo, generar una imagen de 1024×1024 con FLUX-dev-4bit (parámetros 12B) se ejecuta más de 3,8 veces más rápido en un M5 que en un M4. A medida que MLX continúa agregando funciones y ampliando el soporte de modelos, la compañía apuesta a que una mayor parte de la comunidad de investigación de ML tratará el silicio de Apple no solo como un entorno de desarrollo sino como una plataforma viable de inferencia y experimentación.

Crédito de imagen destacada