OpenAI lança modelos o3 e o4-mini que pensam com imagens e utilizam ferramentas avançadas

17 abril, 2025

OpenAI apresenta seus modelos o3 e o4-mini, que melhoram a capacidade de raciocínio e o uso de ferramentas em tarefas complexas.

A OpenAI deu um passo à frente no desenvolvimento de inteligência artificial com o lançamento de seus novos modelos o3 e o4-mini. Essas inovações não são apenas uma adição à sua série de modelos, mas prometem potencializar a forma como se abordam problemas complexos por meio de um raciocínio mais avançado e do uso eficaz de ferramentas.

Segundo a empresa, a chave desses modelos reside em sua capacidade de agir como agentes autônomos que utilizam e combinam diversas ferramentas disponíveis no ChatGPT. Isso inclui desde buscas na web até análise de dados em Python, passando pela manipulação e geração de imagens. Você consegue imaginar uma IA que não apenas compreende a informação, mas também decide como utilizá-la para resolver problemas?

Raciocínio visual e uso de imagens

Uma das características mais destacadas do o3 e o4-mini é sua habilidade de integrar imagens em seu processo de raciocínio. Diferente de modelos anteriores que apenas “viam” imagens, esses novos modelos podem “pensar” com elas. A OpenAI explica que essa capacidade é potencializada por ferramentas nativas de manipulação de imagens, como zoom ou recorte, que são utilizadas diretamente no processo de raciocínio.

Em um exemplo ilustrativo, é mostrado como um modelo pode focar em um texto manuscrito que inicialmente é ilegível, rotacionar a imagem e transcrever corretamente o conteúdo. Essa habilidade não apenas melhora o desempenho em tarefas acadêmicas, mas também permite que os modelos abordem problemas da vida real com maior precisão.

Estabelecendo novos padrões

O modelo o3, lançado em dezembro de 2024, foi refinado para ser o mais potente até agora em termos de raciocínio. A OpenAI destaca melhorias significativas em áreas como programação, matemática e percepção visual, alcançando resultados de ponta em benchmarks reconhecidos. De fato, foi relatado que o o3 comete 20% menos erros graves em comparação com seu predecessor, o que representa um avanço considerável na execução de tarefas complexas.

Por sua vez, o modelo o4-mini está otimizado para velocidade e eficiência de custos. Apesar de seu tamanho menor, oferece um desempenho notável em matemática, programação e tarefas visuais. Na avaliação AIME 2025, alcançou impressionantes 99,5%, aproximando-se dos limites desse benchmark.

O poder da computação na melhoria do desempenho

A OpenAI aumentou a potência de computação utilizada no aprendizado por reforço e nas inferências durante o processo de raciocínio. Essa estratégia não apenas tornou os modelos mais inteligentes, mas também mais econômicos em comparação com seus antecessores. Essa combinação de aprendizado por reforço e uma maior capacidade de análise permitiu que os modelos se dessem melhor em situações abertas, especialmente em raciocínio visual e processos que requerem múltiplas etapas.

Acessibilidade e novas ferramentas para desenvolvedores

Os usuários do ChatGPT que pagam pelos planos Plus, Pro e Team já podem explorar as capacidades do o3 e o4-mini, enquanto as contas empresariais e educacionais terão acesso em breve. Além disso, a OpenAI apresentou o Codex CLI, um agente leve de codificação que funciona localmente e aproveita a capacidade de raciocínio do o3 e o4-mini. Essa ferramenta permite realizar trabalhos multimodais através da linha de comando, integrando funções como capturas de tela e esboços, e está disponível como código aberto no GitHub.

Limitações e desafios futuros

Apesar das melhorias no uso de ferramentas e no raciocínio, os novos modelos enfrentam limitações. Por exemplo, na avaliação PersonQA, que mede o conhecimento sobre personalidades conhecidas, o o4-mini mostrou um desempenho inferior ao de modelos anteriores. A OpenAI atribui isso ao seu tamanho reduzido, o que implica um menor conhecimento do mundo e uma maior propensão a gerar informações errôneas.

As diferenças no comportamento entre o o1 e o o3 também são notáveis, já que o o3 gera mais afirmações, tanto corretas quanto incorretas, possivelmente devido às suas capacidades de raciocínio mais robustas. A OpenAI planeja investigar esses aspectos mais a fundo em futuras pesquisas.

Deixe o primeiro comentário