MAI-Image-1 marca el debut de Microsoft como creador de imágenes de IA independiente

microsoft anunciado MAI-Image-1, su primer modelo de generación de imágenes desarrollado íntegramente internamente. El modelo estará disponible en Copilot y Bing Image Creator “muy pronto” y actualmente se puede probar en el LMArena plataforma, donde inicialmente se comparó. Al desarrollar MAI-Image-1, Microsoft declaró que su equipo se centró en evitar resultados repetitivos o estilizados genéricamente. «Por ejemplo, priorizamos una selección de datos rigurosa y una evaluación matizada centrada en tareas que reflejan fielmente los casos de uso creativo del mundo real», explica un comunicado de la empresa. Este proceso de desarrollo también incorporó comentarios directos de profesionales que trabajan en industrias creativas para informar las capacidades y el refinamiento general del modelo. LMArena, la plataforma utilizada para las pruebas, funciona haciendo que los usuarios realicen consultas a dos chatbots anónimos y luego voten por la respuesta superior hasta que se determine un ganador. Se informa que el modelo sobresale en la generación de paisajes e imágenes fotorrealistas. Sus puntos fuertes específicos incluyen la captura precisa de detalles intrincados relacionados con la iluminación, las sombras y los reflejos dentro de una escena generada. Microsoft señaló que este alto nivel de rendimiento es particularmente evidente «cuando se compara con muchos modelos más grandes y más lentos», lo que indica un énfasis en la eficiencia computacional en su diseño. Esta capacidad lo posiciona como una herramienta para crear contenido visual detallado y realista. En la tabla de clasificación de texto a imagen de LMArena, MAI-Image-1 alcanzó el puesto número 9 con una puntuación de 1096 puntos. A modo de comparación, Gemini-2.5-Flash de Google, también conocido como Nano-Banana, obtuvo el puesto número 2 con 1.154 puntos, mientras que el modelo de OpenAI se posicionó en el puesto 7 con 1.123 puntos. La clasificación está actualmente liderada por Hunyuan-image-3.0, un modelo de inteligencia artificial desarrollado por la empresa de tecnología china Hunyuan. La creación de MAI-Image-1 es parte de una iniciativa interna de IA más amplia en Microsoft. La compañía también ha desarrollado otros modelos patentados, incluido MAI-Voice-1 para la generación natural del habla y la serie Phi de modelos de lenguaje pequeño, que están diseñados para un desempeño eficiente en tareas de razonamiento. Este desarrollo interno ocurre junto con el apoyo continuo de la compañía a OpenAI, que incluye brindar respaldo financiero e infraestructura esencial para sus esfuerzos de desarrollo de modelos separados. El Generación de imágenes de IA El campo está experimentando un período de intensa actividad. El modelo de OpenAI anteriormente ganó atención viral por su sorprendente imitación del estilo artístico de Studio Ghibli, mientras que Nano-Banana de Google estableció un nuevo punto de referencia con sus poderosas capacidades de edición de IA. Utilizando LMArena, AIM realizó una comparación directa de MAI-Image-1 de Microsoft, Gemini-2.5-Flash de Google y GPT-image-1 de OpenAI. Los modelos fueron probados con un mensaje que representaba «dos personas en un café junto a una ventana al final de la tarde». Esta prueba específica fue diseñada para evaluar qué tan bien maneja cada modelo la iluminación, los reflejos y el realismo de las sombras combinados. Los usuarios pueden enviar indicaciones similares en la plataforma LMArena para probar estos modelos ellos mismos.

Crédito de imagen destacada

No Result