OpenAI incorpora generación de imágenes en ChatGPT con mejoras significativas

26 marzo, 2025

OpenAI ha lanzado una nueva función de generación de imágenes en ChatGPT que promete resultados más precisos y menos restricciones en el contenido.

OpenAI ha dado un paso importante al integrar capacidades de generación de imágenes directamente en ChatGPT, reemplazando su anterior sistema DALL-E (ya era hora). Este nuevo enfoque busca ofrecer resultados más consistentes y con menos limitaciones en el contenido, lo que representa una evolución significativa para los usuarios de la plataforma.

Desde su introducción en mayo de 2024 junto a GPT-4o, la función de generación de imágenes se está implementando para todos los usuarios de ChatGPT, desde aquellos que utilizan la versión gratuita hasta los clientes empresariales. Además, se espera que el acceso a la API para desarrolladores esté disponible en las próximas semanas, mientras que DALL-E seguirá existiendo como una opción independiente a través de un GPT dedicado.

Precisión mejorada gracias al procesamiento multimodal

La nueva funcionalidad permite el procesamiento conjunto de texto e imágenes, lo que se traduce en resultados más precisos. OpenAI afirma que el sistema puede manejar hasta 20 objetos distintos al mismo tiempo, manteniendo las relaciones correctas entre ellos. Esta capacidad es particularmente útil para la generación de texto dentro de las imágenes, como infografías o logotipos.

Un caballo montando a un astronauta.

Una de las fortalezas del modelo radica en su habilidad para abordar conceptos poco convencionales. Por ejemplo, al solicitar un «caballo montando a un astronauta», los modelos anteriores solían generar la imagen opuesta. Sin embargo, GPT-4o logra captar esta disposición inusual, sugiriendo que posee una comprensión más profunda de las relaciones espaciales en lugar de simplemente replicar patrones comunes de su entrenamiento.

El modelo también es capaz de realizar «aprendizaje en contexto«, lo que le permite analizar imágenes subidas y utilizar sus detalles para nuevas creaciones. Los usuarios pueden perfeccionar sus resultados a través de una conversación natural, manteniendo el contexto a lo largo de múltiples intercambios, lo que facilita la mejora iterativa de una imagen mediante el diálogo.

Aunque las primeras pruebas indican que el sistema produce imágenes más consistentes que DALL-E 3, aún no es perfecto. Los usuarios podrían notar pequeñas inconsistencias entre las generaciones, como cambios sutiles en el peinado o detalles de la vestimenta de un personaje.

OpenAI reconoce las limitaciones actuales del sistema; por ejemplo, a veces recorta las imágenes de manera incorrecta, genera alucinaciones similares a las de los modelos de texto y tiene dificultades con escenas que contienen muchos conceptos distintos.

Menos restricciones en el contenido

En una notable desviación de la moderación estricta de DALL-E 3, Sam Altman, CEO de OpenAI, anunció que el nuevo sistema brinda mayor libertad creativa, permitiendo contenido potencialmente ofensivo «dentro de lo razonable». Sin embargo, la plataforma aún bloquea solicitudes relacionadas con deepfakes, violencia y representaciones no autorizadas de personas reales.

Este lanzamiento se produce poco después de que Google presentara una función similar para su modelo Gemini, que también destaca beneficios como la consistencia entre imágenes, la edición conversacional y la precisión en la representación de texto.

Aunque generadores de imágenes dedicados como Midjourney o Ideogram ofrecen interfaces diseñadas específicamente para la creación de imágenes, es posible que no alcancen la precisión que brindan modelos multimodales integrados de manera nativa, como la nueva función de ChatGPT, un aspecto crítico en tareas de creación de imágenes.

Deja el primer comentario