OpenAI acaba de integrar su generador de imágenes más avanzado en GPT-4O, lo que hace que la generación de imágenes sea una «capacidad primaria» de sus modelos de idiomas. Esto permite la creación de imágenes fotorrealistas precisas útiles para diversas tareas, desde diagramas hasta comunicación visual.
Los humanos siempre han confiado en las imágenes visuales para algo más que la decoración: piense que las pinturas de cuevas evolucionan hacia las infografías modernas. Si bien los modelos generativos actuales se destacan en la creación de imágenes impresionantes, a menudo se quedan cortos en la producción de imágenes prácticas. Los logotipos y los diagramas, por ejemplo, requieren una combinación de significado preciso y contexto compartido, algo que GPT-4O tiene como objetivo entregar.
GPT-4O puede representar con precisión el texto, seguir de cerca y aprovechar su base de conocimiento incorporada, incluida la transformación de imágenes cargadas. Estas características ayudan a que la creación de imágenes sea una herramienta más práctica, mejorando la comunicación visual con precisión.
La capacitación implicó exponer los modelos a una combinación de imágenes y texto en línea, enseñándoles no solo cómo las imágenes se relacionan con el lenguaje, sino cómo se interconectan. El post-entrenamiento intensivo mejora aún más la fluidez visual del modelo, lo que resulta en una generación de imágenes consistente y consciente del contexto.
Las capacidades de generación de imágenes GPT-4O incluyen:
- Renderización de texto: Integra símbolos precisos con imágenes.
- Generación de múltiples vueltas: Refina las imágenes a través de una conversación continua.
- Aprendizaje en contexto: Analiza y aprende de las imágenes suprasadas por los usuarios.
- Conocimiento mundial: Enlaza el conocimiento entre texto e imágenes.
- Fotorrealismo y estilo: Crea o transforma imágenes en estilos variados.
A pesar de estos avances, el modelo no es perfecto. Openai reconoce limitaciones como problemas de cultivo, alucinaciones y desafíos en gráficos precisos y representación de textos multilingües, todo lo cual planean abordar el post-lanzamiento.
La seguridad sigue siendo una prioridad. Operai tiene como objetivo equilibrar la libertad creativa con estándares de seguridad sólidos, implementando medidas como la procedencia C2PA y los mecanismos de búsqueda internos para evitar el mal uso.
La nueva función de generación de imágenes en GPT-4O se está implementando en Plus, Pro, Team y Usuarios gratuitos de ChatGPT. Pronto estará disponible para los usuarios de Enterprise y EDU también. Los desarrolladores pueden esperar el acceso a la API en las próximas semanas. Los usuarios pueden crear imágenes simplemente describiendo sus necesidades en el chat, especificando detalles como la relación de aspecto o los colores.
Debido a la naturaleza detallada de sus imágenes, podrían tomar hasta un minuto para renderizar.