A OpenAI disponibilizou seu modelo de geração de imagens multimodal, conhecido como GPT-Image-1, por meio de sua API para desenvolvedores. Esta ferramenta, que anteriormente estava disponível apenas no ChatGPT, agora está sendo integrada em plataformas como Adobe e Figma, ampliando seu alcance e capacidades.
Na sua primeira semana, o GPT-Image-1 surpreendeu ao gerar mais de 700 milhões de imagens para mais de 130 milhões de usuários. Com essa nova disponibilidade, é provável que esses números continuem a aumentar, o que abre um leque de possibilidades para as empresas que buscam incorporar imagens geradas por IA em seus projetos.
Custos acessíveis e flexibilidade no uso
O processamento de imagens utilizando o GPT-Image-1 é baseado em um sistema de tokens. A estrutura de preços da API distingue entre tokens de texto, de entrada de imagem e de saída de imagem. Por exemplo, os tokens de texto são cobrados a $5 por milhão, enquanto os tokens de entrada de imagem têm um custo de $10 por milhão e os de saída de imagem de $40 por milhão. Dependendo da qualidade da imagem selecionada, os custos variam entre $0,02 e $0,19 por imagem.
Para os modelos como GPT-4.1 e GPT-4o, o uso de tokens varia de acordo com o tamanho e nível de detalhe da imagem. Por exemplo, é cobrada uma tarifa fixa de 85 tokens para imagens de “detalhe: baixo”. Em contrapartida, as imagens de “detalhe: alto” são divididas em tiles de 512 pixels, o que aumenta o custo. Para uma imagem de 1024×1024 pixels em alta qualidade, seriam necessários 765 tokens.
O uso de imagens pode ser realizado por meio de URLs diretas ou dados codificados em Base64, e a API aceita formatos como PNG, JPEG e WEBP, com um limite de tamanho de 20 MB. Em alta qualidade, as imagens são escaladas para uma resolução máxima de 768×2000 pixels.
Este modelo também é capaz de interpretar conteúdo visual, como objetos e cores, embora apresente limitações com textos pequenos, fontes não latinas ou diagramas complexos. Além disso, não é recomendado para imagens médicas ou tarefas que exijam alta precisão espacial. As imagens que contiverem marcas d’água, texto ou conteúdo NSFW não são aceitas, e o nível de análise é controlado por meio de um parâmetro de “detalhe”.
Aspecto | Descrição |
---|---|
Custos e flexibilidade de uso | Sistema baseado em tokens (texto, entrada de imagem, saída de imagem) e cobrança por imagem conforme qualidade, com faixas de $0,02 a $0,19 por imagem. |
Preço por tokens | • Texto: $5 / 1 M tokens• Entrada de imagem: $10 / 1 M tokens• Saída de imagem: $40 / 1 M tokens |
Custos conforme qualidade da imagem | • Qualidade baixa: a partir de $0,02 por imagem• Qualidade alta: até $0,19 por imagem |
Tokens em GPT-4.1 e GPT-4o | • Imagens “detalhe: baixo”: tarifa fixa de 85 tokens• Imagens “detalhe: alto”: tiles de 512 px; p. ex. para 1024×1024 em alta qualidade → 765 tokens |
Métodos de uso e formatos aceitos | • Envio por URL ou Base64• Formatos: PNG, JPEG, WEBP• Tamanho máximo por arquivo: 20 MB |
Resolução máxima em alta qualidade | Até 768×2000 pixels (escalado automático no processamento) |
Capacidades de interpretação visual | Reconhece objetos, cores e composição geral; controla “nível de detalhe” conforme parâmetro. Limitações com textos pequenos, fontes não latinas e diagramas muito complexos. |
Cenários não recomendados / não aceitos | • Imagens médicas ou que exijam precisão espacial extrema.• Conteúdo com marcas d’água, texto embutido ou material NSFW. |
Adoção precoce por plataformas comerciais
Já se juntaram a essa inovação empresas como Adobe, Figma, Airtable e Wix, que estão integrando o GPT-Image-1 em suas aplicações. Por exemplo, a Adobe está utilizando essa tecnologia em seus aplicativos Firefly e Express para oferecer novas opções criativas. Além disso, outras empresas como Gamma e Quora estão explorando seu uso para gráficos de apresentações e avatares.
Instacart está testando essa tecnologia para gerar imagens de receitas, enquanto a Invideo a utiliza na edição de vídeos. Essa diversidade nas aplicações demonstra o potencial do GPT-Image-1 para transformar a forma como as empresas criam e utilizam conteúdo visual.
Aspectos de segurança e verificação
As organizações interessadas em utilizar o GPT-Image-1 devem completar um processo de verificação para ativar o modelo. A gestão do acesso é detalhada na configuração da organização. Os desenvolvedores podem experimentar o modelo por meio do Playground ou consultar a Guia de Geração de Imagens.
O modelo implementa mecanismos de segurança semelhantes aos do ChatGPT-4o, incluindo filtros de conteúdo e metadados C2PA para verificar a origem das imagens. A força dos filtros pode ser ajustada por meio do parâmetro de “moderação”. A OpenAI assegura que nenhuma informação do cliente é utilizada para treinar o modelo, e todo o uso está sujeito às suas diretrizes de uso da API.