A OpenAI deu um passo à frente no desenvolvimento de inteligência artificial com o lançamento de seus novos modelos o3 e o4-mini. Essas inovações não são apenas uma adição à sua série de modelos, mas prometem potencializar a forma como se abordam problemas complexos por meio de um raciocínio mais avançado e do uso eficaz de ferramentas.
Segundo a empresa, a chave desses modelos reside em sua capacidade de agir como agentes autônomos que utilizam e combinam diversas ferramentas disponíveis no ChatGPT. Isso inclui desde buscas na web até análise de dados em Python, passando pela manipulação e geração de imagens. Você consegue imaginar uma IA que não apenas compreende a informação, mas também decide como utilizá-la para resolver problemas?
Raciocínio visual e uso de imagens
Uma das características mais destacadas do o3 e o4-mini é sua habilidade de integrar imagens em seu processo de raciocínio. Diferente de modelos anteriores que apenas “viam” imagens, esses novos modelos podem “pensar” com elas. A OpenAI explica que essa capacidade é potencializada por ferramentas nativas de manipulação de imagens, como zoom ou recorte, que são utilizadas diretamente no processo de raciocínio.
Em um exemplo ilustrativo, é mostrado como um modelo pode focar em um texto manuscrito que inicialmente é ilegível, rotacionar a imagem e transcrever corretamente o conteúdo. Essa habilidade não apenas melhora o desempenho em tarefas acadêmicas, mas também permite que os modelos abordem problemas da vida real com maior precisão.
Estabelecendo novos padrões
O modelo o3, lançado em dezembro de 2024, foi refinado para ser o mais potente até agora em termos de raciocínio. A OpenAI destaca melhorias significativas em áreas como programação, matemática e percepção visual, alcançando resultados de ponta em benchmarks reconhecidos. De fato, foi relatado que o o3 comete 20% menos erros graves em comparação com seu predecessor, o que representa um avanço considerável na execução de tarefas complexas.
Por sua vez, o modelo o4-mini está otimizado para velocidade e eficiência de custos. Apesar de seu tamanho menor, oferece um desempenho notável em matemática, programação e tarefas visuais. Na avaliação AIME 2025, alcançou impressionantes 99,5%, aproximando-se dos limites desse benchmark.
O poder da computação na melhoria do desempenho
A OpenAI aumentou a potência de computação utilizada no aprendizado por reforço e nas inferências durante o processo de raciocínio. Essa estratégia não apenas tornou os modelos mais inteligentes, mas também mais econômicos em comparação com seus antecessores. Essa combinação de aprendizado por reforço e uma maior capacidade de análise permitiu que os modelos se dessem melhor em situações abertas, especialmente em raciocínio visual e processos que requerem múltiplas etapas.
Acessibilidade e novas ferramentas para desenvolvedores
Os usuários do ChatGPT que pagam pelos planos Plus, Pro e Team já podem explorar as capacidades do o3 e o4-mini, enquanto as contas empresariais e educacionais terão acesso em breve. Além disso, a OpenAI apresentou o Codex CLI, um agente leve de codificação que funciona localmente e aproveita a capacidade de raciocínio do o3 e o4-mini. Essa ferramenta permite realizar trabalhos multimodais através da linha de comando, integrando funções como capturas de tela e esboços, e está disponível como código aberto no GitHub.
Limitações e desafios futuros
Apesar das melhorias no uso de ferramentas e no raciocínio, os novos modelos enfrentam limitações. Por exemplo, na avaliação PersonQA, que mede o conhecimento sobre personalidades conhecidas, o o4-mini mostrou um desempenho inferior ao de modelos anteriores. A OpenAI atribui isso ao seu tamanho reduzido, o que implica um menor conhecimento do mundo e uma maior propensão a gerar informações errôneas.
As diferenças no comportamento entre o o1 e o o3 também são notáveis, já que o o3 gera mais afirmações, tanto corretas quanto incorretas, possivelmente devido às suas capacidades de raciocínio mais robustas. A OpenAI planeja investigar esses aspectos mais a fundo em futuras pesquisas.