OpenAI lanza modelos o3 y o4-mini que piensan con imágenes y utilizan herramientas avanzadas

17 abril, 2025

OpenAI presenta sus modelos o3 y o4-mini, que mejoran la capacidad de razonamiento y el uso de herramientas en tareas complejas.

OpenAI ha dado un paso adelante en el desarrollo de inteligencia artificial con el lanzamiento de sus nuevos modelos o3 y o4-mini. Estas innovaciones no son solo una adición a su serie de modelos, sino que prometen potenciar la forma en que se abordan los problemas complejos mediante un razonamiento más avanzado y el uso eficaz de herramientas.

Según la empresa, la clave de estos modelos radica en su capacidad para actuar como agentes autónomos que utilizan y combinan diversas herramientas disponibles en ChatGPT. Esto incluye desde búsquedas en la web hasta análisis de datos en Python, pasando por la manipulación y generación de imágenes. ¿Te imaginas una IA que no solo comprende la información, sino que también decide cómo utilizarla para resolver problemas?

Razonamiento visual y uso de imágenes

Una de las características más destacadas de o3 y o4-mini es su habilidad para integrar imágenes en su proceso de razonamiento. A diferencia de modelos anteriores que solo “veían” imágenes, estos nuevos modelos pueden “pensar” con ellas. OpenAI explica que esta capacidad se ve potenciada por herramientas nativas de manipulación de imágenes, como el zoom o el recorte, que se utilizan directamente en el proceso de razonamiento.

En un ejemplo ilustrativo, se muestra cómo un modelo puede enfocar un texto escrito a mano que inicialmente es ilegible, rotar la imagen y transcribir correctamente el contenido. Esta habilidad no solo mejora el rendimiento en tareas académicas, sino que también permite a los modelos abordar problemas de la vida real con mayor precisión.

Estableciendo nuevos estándares

El modelo o3, lanzado en diciembre de 2024, ha sido refinado para ser el más potente hasta la fecha en cuanto a razonamiento. OpenAI destaca mejoras significativas en áreas como programación, matemáticas y percepción visual, logrando resultados de vanguardia en benchmarks reconocidos. De hecho, se ha reportado que o3 comete un 20% menos de errores graves en comparación con su predecesor, lo que representa un avance considerable en la ejecución de tareas complejas.

Amplía el contexto:  OpenAI incorpora generación de imágenes en ChatGPT con mejoras significativas

Por su parte, el modelo o4-mini está optimizado para velocidad y eficiencia de costos. A pesar de su menor tamaño, ofrece un rendimiento notable en matemáticas, programación y tareas visuales. En la evaluación AIME 2025, logró un impresionante 99.5%, acercándose a los límites de este benchmark.

El poder de la computación en la mejora del rendimiento

OpenAI ha aumentado la potencia de cómputo utilizada en el aprendizaje por refuerzo y en las inferencias durante el proceso de razonamiento. Esta estrategia no solo ha hecho que los modelos sean más inteligentes, sino también más económicos en comparación con sus antecesores. Esta combinación de aprendizaje por refuerzo y una mayor capacidad de análisis ha permitido a los modelos desenvolverse mejor en situaciones abiertas, especialmente en razonamiento visual y procesos que requieren múltiples pasos.

Los usuarios de ChatGPT que paguen por los planes Plus, Pro y Team ya pueden explorar las capacidades de o3 y o4-mini, mientras que las cuentas empresariales y educativas tendrán acceso pronto. Además, OpenAI ha presentado Codex CLI, un agente ligero de codificación que funciona localmente y aprovecha la capacidad de razonamiento de o3 y o4-mini. Esta herramienta permite realizar trabajos multimodales a través de la línea de comandos, integrando funciones como capturas de pantalla y bocetos, y está disponible como código abierto en GitHub.

A pesar de las mejoras en el uso de herramientas y en el razonamiento, los nuevos modelos enfrentan limitaciones. Por ejemplo, en la evaluación PersonQA, que mide el conocimiento sobre personalidades conocidas, o4-mini mostró un rendimiento inferior al de modelos anteriores. OpenAI atribuye esto a su tamaño más reducido, lo que implica un menor conocimiento del mundo y una mayor propensión a generar información errónea.

Amplía el contexto:  OpenAI lanza GPT-4.5: Un avance con advertencias sobre su rendimiento

Las diferencias en el comportamiento entre o1 y o3 también son notables, ya que o3 genera más afirmaciones, tanto correctas como incorrectas, posiblemente debido a sus capacidades de razonamiento más robustas. OpenAI planea investigar estos aspectos más a fondo en futuras investigaciones.

Deja el primer comentario