Microsoft está mejorando su juego en el mundo de la IA con la nueva serie Phi-3.5, que ofrece tres modelos de vanguardia diseñados para diferentes tareas. Estos modelos no solo son potentes, sino que también son versátiles, lo que facilita a los desarrolladores abordar todo, desde la codificación básica hasta la resolución de problemas complejos e incluso tareas visuales. Ya sea que trabaje con recursos limitados o necesite inteligencia artificial capacidades, los modelos Phi-3.5 tienen algo que ofrecer, y aquí hay un vistazo rápido de ellos.
Análisis de los modelos Phi-3.5 de Microsoft
La última versión de Microsoft, la serie Phi 3.5, presenta tres modelos de IA avanzados: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct y Phi-3.5-vision-instruct. Cada modelo está diseñado para abordar necesidades específicas, desde razonamiento básico hasta tareas multimodales avanzadas.
Los tres modelos Microsoft Phi-3.5 están disponibles bajo la licencia MIT, que permite a los desarrolladores utilizar, modificar y distribuir los modelos con mínimas restricciones. Este enfoque de código abierto favorece la adopción generalizada y fomenta la innovación en diversas aplicaciones y dominios de investigación.
Phi-3.5 Mini Instruct: eficiente y compacto
El Miniinstrucciones de Microsoft Phi-3.5 El modelo está diseñado para funcionar excepcionalmente bien en entornos con recursos computacionales limitados. Con 3.8 mil millones de parámetros, está diseñado para tareas que requieren capacidades de razonamiento sólidas pero que no exigen una gran potencia computacional. Se entrenó con 3,4 billones de tokens utilizando 512 GPU H100-80G durante 10 días.
Características principales:
- Parámetros: 3.8 mil millones
- Longitud del contexto: 128k tokens
- Casos de uso principales: Generación de código, resolución de problemas matemáticos, razonamiento basado en la lógica.
- Actuación: A pesar de su menor tamaño, demuestra un rendimiento competitivo en tareas conversacionales multilingües y de múltiples turnos. Se destaca en puntos de referencia como RepoQA, que mide la comprensión de código de contexto largo, superando a otros modelos de tamaño similar como Llama-3.1-8B-instruct.
El diseño eficiente de Phi-3.5 Mini Instruct le permite ofrecer un rendimiento sólido sin dejar de tener en cuenta las limitaciones de recursos. Esto lo hace adecuado para su implementación en situaciones en las que los recursos computacionales son limitados pero aún se requiere un alto rendimiento.
Phi-3.5 MoE: Arquitectura de mezcla de expertos
El Microsoft Phi-3.5 MoE (combinación de expertos) El modelo representa un enfoque sofisticado de la arquitectura de IA al combinar múltiples modelos especializados en uno solo. Presenta un diseño único en el que se activan diferentes «expertos» según la tarea, lo que optimiza el rendimiento en varios dominios. Se entrenó con 4,9 billones de tokens con 512 GPU H100-80G durante 23 días.
Características principales:
- Parámetros: 42 mil millones (activos), con 6,6 mil millones utilizados activamente durante la operación
- Longitud del contexto: 128k tokens
- Casos de uso principales: Tareas de razonamiento complejo, comprensión de códigos, comprensión de lenguaje multilingüe.
- Actuación: El modelo MoE tiene un rendimiento excepcional en tareas de código y matemáticas y muestra una sólida comprensión multilingüe. Con frecuencia supera a modelos más grandes en pruebas comparativas específicas, incluida una notable ventaja sobre GPT-4o mini en la prueba MMLU (comprensión masiva del lenguaje multitarea) de 5 disparos.
La arquitectura Phi-3.5 MoE mejora la escalabilidad y la eficiencia al activar solo un subconjunto de parámetros relevantes para una tarea determinada. Esto permite que el modelo maneje una amplia gama de aplicaciones y mantenga un alto rendimiento en diferentes idiomas y materias.
Phi-3.5 Vision Instruct: Capacidades multimodales avanzadas
El Instrucción de Microsoft Phi-3.5 Vision El modelo está diseñado para manejar datos de texto e imágenes, lo que lo convierte en una herramienta poderosa para tareas de IA multimodal. Integra procesamiento avanzado de imágenes con comprensión textual, lo que admite una variedad de tareas complejas de análisis visual y textual. Entrenado en 500 mil millones de tokens utilizando 256 GPU A100-80G durante 6 días.
Características principales:
- Parámetros: 4.15 mil millones
- Longitud del contexto: 128k tokens
- Casos de uso principales: Comprensión de imágenes, reconocimiento óptico de caracteres (OCR), comprensión de gráficos y tablas, resumen de videos
- Actuación: Entrenado en una combinación de conjuntos de datos sintéticos y filtrados disponibles públicamente, el modelo Vision Instruct se destaca en el manejo de tareas visuales complejas de múltiples cuadros y proporciona un análisis integral de información visual y textual.
La capacidad de Phi-3.5 Vision Instruct para procesar e integrar texto e imágenes lo hace sumamente versátil para aplicaciones que requieren un análisis visual detallado. Esta capacidad es particularmente valiosa para tareas que involucran diversos tipos y formatos de datos.
El modelo Phi-3.5 Vision Instruct también es accesible a través de Estudio de inteligencia artificial de Azure.