El Instituto Allen de IA (Ai2) ha presentado Molmo, un innovador conjunto de modelos multimodales de código abierto que cuestionan la influencia rectora de los sistemas de IA patentados. Con puntos fuertes en el reconocimiento de imágenes superior y conocimientos prácticos, Molmo está listo para ayudar a desarrolladores, investigadores y empresas emergentes al ofrecer una herramienta de desarrollo de aplicaciones de IA avanzada pero fácil de usar. El lanzamiento llama la atención sobre un cambio importante en el panorama de la IA, uniendo modelos de código abierto y patentados y mejorando el acceso de todos a la tecnología de IA líder.
Molmo ofrece funciones que proporcionan un grado excepcional de comprensión de imágenes, lo que le permite leer correctamente una amplia variedad de datos visuales, desde elementos mundanos hasta gráficos y menús complejos. En lugar de ser como la mayoría Modelos de IAMolmo supera la percepción al permitir a los usuarios interactuar con entornos virtuales y reales mediante el uso de punteros y una variedad de acciones espaciales. Esta capacidad supone un gran avance, ya que permite la introducción de agentes complejos de IA, robótica y muchas otras aplicaciones que dependen de una comprensión granular de datos visuales y contextuales.
La eficiencia y la accesibilidad son aspectos importantes de la estrategia de desarrollo de Molmo. Las habilidades avanzadas de Molmo provienen de un conjunto de datos de menos de un millón de imágenes, en marcado contraste con los miles de millones de imágenes procesadas por otros modelos como GPT-4V y Google. GéminisEl enfoque implementado ha contribuido a que Molmo no solo sea altamente eficiente en el uso de recursos computacionales, sino que también ha creado un modelo que es igualmente poderoso que los sistemas propietarios más efectivos y presenta menos alucinaciones y tasas de entrenamiento más rápidas.
Hacer que Molmo sea completamente de código abierto es parte de un esfuerzo estratégico más amplio de Ai2 para democratizar el desarrollo de la IA. Ai2 permite que una amplia gama de usuarios (desde empresas emergentes hasta laboratorios académicos) innoven y avancen en la tecnología de IA sin los altos costos de inversión o la enorme potencia informática. Les da acceso a los datos de entrenamiento de visión y lenguaje de Molmo, los pesos de los modelos y el código fuente.
Matt Deitke, investigador del Instituto Allen de IA, dijo: «Molmo es un increíble modelo de IA con una comprensión visual excepcional, que amplía las fronteras del desarrollo de la IA al introducir un paradigma para que la IA interactúe con el mundo mediante el uso de punteros. El rendimiento del modelo está impulsado por un conjunto de datos seleccionados de una calidad notablemente alta para enseñar a la IA a comprender imágenes a través del texto. El entrenamiento es mucho más rápido, más barato y más simple que lo que se hace hoy en día, de modo que la publicación abierta de cómo se construye permitirá a toda la comunidad de IA, desde las empresas emergentes hasta los laboratorios académicos, trabajar en la frontera del desarrollo de la IA”.
Según evaluaciones internas, el modelo más grande de Molmo, con 72 mil millones de parámetros, superó al GPT-4V de OpenAI y a otros competidores líderes en varios puntos de referencia. El modelo más pequeño de Molmo, que incluye solo mil millones de parámetros, es lo suficientemente grande como para funcionar en un dispositivo móvil y supera a los modelos con diez veces esa cantidad de parámetros. Aquí Puedes ver los modelos y pruébalo tú mismo.