OpenAI ha puesto a disposición su modelo de generación de imágenes multimodal, conocido como GPT-Image-1, a través de su API para desarrolladores. Esta herramienta, que anteriormente solo estaba disponible en ChatGPT, ahora se está integrando en plataformas como Adobe y Figma, ampliando su alcance y capacidades.
En su primera semana, GPT-Image-1 sorprendió al generar más de 700 millones de imágenes para más de 130 millones de usuarios. Con esta nueva disponibilidad, es probable que estas cifras sigan en aumento, lo que abre un abanico de posibilidades para las empresas que buscan incorporar imágenes generadas por IA en sus proyectos.
Costos accesibles y flexibilidad en el uso
El procesamiento de imágenes utilizando GPT-Image-1 se basa en un sistema de tokens. La estructura de precios de la API distingue entre tokens de texto, de entrada de imagen y de salida de imagen. Por ejemplo, los tokens de texto se cobran a $5 por millón, mientras que los tokens de entrada de imagen tienen un costo de $10 por millón y los de salida de imagen de $40 por millón. Dependiendo de la calidad de imagen seleccionada, los costos oscilan entre $0.02 y $0.19 por imagen.
Para los modelos como GPT-4.1 y GPT-4o, el uso de tokens varía en función del tamaño y nivel de detalle de la imagen. Por ejemplo, se cobra una tarifa plana de 85 tokens para imágenes de «detalle: bajo». En cambio, las imágenes de «detalle: alto» se dividen en tiles de 512 píxeles, lo que incrementa el costo. Para una imagen de 1024×1024 píxeles en alta calidad, se necesitarían 765 tokens.
El uso de imágenes puede realizarse mediante URLs directas o datos codificados en Base64, y la API acepta formatos como PNG, JPEG y WEBP, con un límite de tamaño de 20 MB. En alta calidad, las imágenes se escalan a una resolución máxima de 768×2000 píxeles.
Este modelo también es capaz de interpretar contenido visual, como objetos y colores, aunque presenta limitaciones con textos pequeños, fuentes no latinas o diagramas complejos. Además, no se recomienda para imágenes médicas o tareas que requieran alta precisión espacial. Las imágenes que contengan marcas de agua, texto o contenido NSFW no son aceptadas, y el nivel de análisis se controla a través de un parámetro de «detalle».
Aspecto | Descripción |
---|---|
Costos y flexibilidad de uso | Sistema basado en tokens (texto, entrada imagen, salida imagen) y cobro por imagen según calidad, con rangos de $0.02 a $0.19 por imagen. |
Precio por tokens | • Texto: $5 / 1 M tokens• Entrada de imagen: $10 / 1 M tokens• Salida de imagen: $40 / 1 M tokens |
Costos según calidad de imagen | • Calidad baja: desde $0.02 por imagen• Calidad alta: hasta $0.19 por imagen |
Tokens en GPT-4.1 y GPT-4o | • Imágenes “detalle: bajo”: tarifa plana de 85 tokens• Imágenes “detalle: alto”: tiles de 512 px; p. ej. para 1024×1024 a alta calidad → 765 tokens |
Métodos de uso y formatos aceptados | • Envío por URL o Base64• Formatos: PNG, JPEG, WEBP• Tamaño máximo por archivo: 20 MB |
Resolución máxima en alta calidad | Hasta 768×2000 píxeles (escalado automático en procesamiento) |
Capacidades de interpretación visual | Reconoce objetos, colores y composición general; controla “nivel de detalle” según parámetro.Limitaciones con textos pequeños, fuentes no latinas y diagramas muy complejos. |
Escenarios no recomendados / no aceptados | • Imágenes médicas o que requieran precisión espacial extrema.• Contenido con marcas de agua, texto incrustado o material NSFW. |
Adopción temprana por plataformas comerciales
Ya se han sumado a esta innovación compañías como Adobe, Figma, Airtable y Wix, que están integrando GPT-Image-1 en sus aplicaciones. Por ejemplo, Adobe está utilizando esta tecnología en sus aplicaciones Firefly y Express para ofrecer nuevas opciones creativas. Además, otras empresas como Gamma y Quora están explorando su uso para gráficos de presentaciones y avatares.
Instacart está probando esta tecnología para generar imágenes de recetas, mientras que Invideo la emplea en la edición de videos. Esta diversidad en las aplicaciones demuestra el potencial de GPT-Image-1 para transformar la forma en que las empresas crean y utilizan contenido visual.
Aspectos de seguridad y verificación
Las organizaciones interesadas en utilizar GPT-Image-1 deben completar un proceso de verificación para activar el modelo. La gestión del acceso se detalla en la configuración de la organización. Los desarrolladores pueden experimentar con el modelo a través del Playground o consultar la Guía de Generación de Imágenes.
El modelo implementa mecanismos de seguridad similares a los de ChatGPT-4o, incluyendo filtros de contenido y metadatos C2PA para verificar el origen de las imágenes. La fortaleza de los filtros puede ajustarse mediante el parámetro de «moderación». OpenAI asegura que no se utiliza ninguna información del cliente para entrenar el modelo, y todo el uso está sujeto a sus directrices de uso de API.