Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

¿Pueden los parámetros de 256 m superar a 80b? Modelos SMOLVLM de abrazo de Face dice que sí

byKerem Gülen
24 enero 2025
in Artificial Intelligence, News
Home Artificial Intelligence

La cara abrazada tiene liberado Dos nuevos modelos de IA, SMOLVLM-256M y SMOLVLM-500M, alegando que son los más pequeños de su tipo capaces de analizar imágenes, videos y texto en dispositivos con RAM limitada, como computadoras portátiles.

Abrazo de la cara lanza modelos de IA compactos para el análisis de imágenes y texto

A Modelo de lenguaje pequeño (SLM) es una red neuronal diseñada para producir texto de lenguaje natural. El descriptor «pequeño» se aplica no solo a las dimensiones físicas del modelo sino también a su recuento de parámetros, estructura neuronal y el volumen de datos utilizado durante el entrenamiento.

SMOLVLM-256M y SMOLVLM-500M consisten en 256 millones de parámetros y 500 millones de parámetros, respectivamente. Estos modelos pueden realizar diversas tareas, incluida la descripción de imágenes y videoclips, así como responder preguntas sobre PDF y sus contenidos, como textos y gráficos escaneados.


Sam Altman para brevemente funcionarios en Super AI ‘a nivel de doctorado’


Para entrenar estos modelos, abrazando la cara utilizó el Cauldron, una colección curada de 50 conjuntos de datos de imágenes y texto de alta calidad, junto con DocMatix, un conjunto de datos que comprende escaneos de archivos con subtítulos detallados. Ambos conjuntos de datos fueron creados por el equipo M4 de Face, centrado en tecnologías de IA multimodales.

¿Pueden los parámetros de 256 m superar a 80b? Modelos SMOLVLM de abrazo de Face dice que sí
SMOLVLM-256M y SMOLVLM-500M consisten en 256 millones de parámetros y 500 millones de parámetros (créditos de imagen: SMOLVLM)

El equipo afirma que SMOLVLM-256M y SMOLVLM-500M superan a un modelo significativamente más grande, IDEFICS 80B, en puntos de referencia como AI2D, que evalúa las habilidades de los modelos para analizar diagramas de ciencias de niveles de escuelas de la escuela. Los nuevos modelos están disponibles para el acceso web y la descarga bajo una licencia Apache 2.0, que permite un uso sin restricciones.

A pesar de su versatilidad y rentabilidad, los modelos más pequeños como SMOLVLM-256M y SMOLVLM-500M pueden exhibir limitaciones no observadas en modelos más grandes. Un estudio de Google Deepmind, Microsoft Research y el Mila Research Institute destacaron que los modelos más pequeños a menudo funcionan subóptimamente en tareas de razonamiento complejas, potencialmente debido a su tendencia a reconocer los patrones a nivel de superficie en lugar de aplicar conocimiento en contextos novedosos.

El modelo SMOLVLM-256M de Hugging Face funciona con menos de un gigabyte de memoria de GPU y supera el modelo IDEFICS 80B, un sistema 300 veces más grande, logrando esta reducción y mejora en 17 meses. Andrés Marafioti, un ingeniero de investigación de aprendizaje automático de Hugging Face, señaló que este logro refleja un avance significativo en los modelos en idioma de visión.

¿Pueden los parámetros de 256 m superar a 80b? Modelos SMOLVLM de abrazo de Face dice que sí
El modelo SMOLVLM-256M de Hugging Face funciona con menos de un gigabyte de memoria de GPU y supera el modelo IDEFICS 80B (Créditos de imagen: SMOLVLM)

La introducción de estos modelos es oportuna para las empresas que enfrentan altos costos informáticos asociados con las implementaciones de IA. Los modelos SMOLVLM son capaces de procesar imágenes y comprender el contenido visual a velocidades sin precedentes para modelos de su tamaño. La versión de 256 m puede procesar 16 ejemplos por segundo mientras consume solo 15 GB de RAM con un tamaño de lote de 64, lo que lleva a un ahorro de costos considerable para las empresas que manejan grandes volúmenes de datos visuales.

IBM ha formado una asociación con Hugging Face para incorporar el modelo de 256M en su software de procesamiento de documentos, Docling. Como explicó Marafioti, incluso las organizaciones con recursos informáticos sustanciales pueden beneficiarse del uso de modelos más pequeños para procesar eficientemente millones de documentos a costos reducidos.

Abrazando las reducciones de tamaño alcanzadas de la cara mientras se mantiene el rendimiento a través de los avances en el procesamiento de la visión y los componentes del lenguaje, incluido un cambio de un codificador de visión de parámetros de 400 m a una versión de parámetros de 93 m y el uso de técnicas agresivas de compresión de token. Esta eficiencia abre nuevas posibilidades para las nuevas empresas y las empresas más pequeñas, lo que les permite desarrollar productos sofisticados de visión por computadora más rápidamente y reducir sus costos de infraestructura.¿Pueden los parámetros de 256 m superar a 80b? Modelos SMOLVLM de abrazo de Face dice que sí

Los modelos SMOLVLM mejoran las capacidades más allá del ahorro de costos, facilitando nuevas aplicaciones como la búsqueda de documentos avanzados a través de un algoritmo llamado Colipali, que crea bases de datos de búsqueda de archivos de documentos. Según Marafioti, estos modelos casi coinciden con el rendimiento de los modelos 10 veces su tamaño, al tiempo que aumenta significativamente la velocidad de la creación y búsqueda de bases de datos, lo que hace que la búsqueda visual de toda la empresa sea factible para varios negocios.

Los modelos SMOLVLM desafían la creencia convencional de que los modelos más grandes son necesarios para tareas avanzadas en idioma de visión, con la versión de parámetros de 500m que alcanza el 90% del rendimiento de una contraparte de parámetros 2.2B en puntos de referencia clave. Marafioti destacó que este desarrollo demuestra la utilidad de modelos más pequeños, lo que sugiere que pueden desempeñar un papel crucial para las empresas.


Crédito de imagen destacado: Cara abrazada

Tags: AIcara abrazadaModelos de lenguaje pequeñoPresentado

Recent Posts

  • Safari puede obtener opciones de búsqueda de AI de AI de AI perplejidad
  • Stripe se sumerge en stablecoins lanza las principales herramientas de IA
  • LLM Red Teaming
  • Rastreo de llm
  • Desarrollo de productos LLM

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.