Cuando ChatGPT llegó en noviembre de 2022, OpenAI parecía imbatible. A pesar de sus fallos y limitaciones, ese chatbot abrió un nuevo camino en la inteligencia artificial. Sin embargo, en el mundo tecnológico las ventajas suelen ser efímeras, y para 2026 la situación es bastante diferente.

Google ha captado la atención del público con Nano Banana Pro, mientras que su modelo Gemini gana terreno como chatbot de IA. Por otro lado, ChatGPT ha perdido cuota en algunos mercados. Mientras tanto, Anthropic se ha hecho un nombre sólido en ingeniería de software, convirtiéndose en una herramienta muy apreciada por los programadores.

En esta carrera para liderar la IA, este jueves se produjo un movimiento interesante: la presentación casi simultánea de dos modelos centrados en programación, GPT-5.3-Codex de OpenAI y Claude Opus 4.6 de Anthropic. Esta coincidencia no es casual y refleja la intensa competencia entre las grandes compañías por marcar el siguiente paso, algo que beneficia principalmente a los usuarios.

Con estos nuevos modelos disponibles, la clave es entender qué ofrecen realmente. Las promesas abundan, pero ahora disponemos de comparativas que ayudan a situarlos. Veamos con más detalle qué proponen OpenAI y Anthropic para quienes usan la inteligencia artificial como herramienta de desarrollo.

GPT-5.3-Codex y Opus 4.6: qué traen para los programadores

GPT-5.3-Codex está diseñado como un modelo orientado a agentes de programación, buscando ampliar lo que un desarrollador puede delegar en la IA. OpenAI asegura que ha mejorado en generación y rendimiento de código, razonamiento y conocimiento profesional, y que es un 25% más rápido que versiones anteriores.

Este modelo está diseñado para tareas largas que requieren investigación, uso de herramientas y ejecución compleja, permitiendo además que el usuario intervenga y guíe el proceso en tiempo real sin perder el hilo. Un aspecto curioso es que el propio Codex fue usado durante su desarrollo para depurar el entrenamiento, administrar el despliegue y analizar resultados, acelerando así la investigación.

Además, GPT-5.3-Codex destaca en tareas prácticas como la creación autónoma de aplicaciones y juegos web. De hecho, OpenAI ha publicado dos ejemplos para probar: un juego de carreras con ocho mapas y otro de buceo para explorar arrecifes.

Por su parte, Anthropic presenta Claude Opus 4.6, una actualización que mejora la planificación, autonomía y fiabilidad en el manejo de grandes bases de código. El modelo puede mantener tareas complejas durante más tiempo y corregir su propio trabajo con mayor precisión.

Estas capacidades son útiles para tareas como análisis financieros, investigación documental o creación de presentaciones. Además, ofrece una ventana de contexto en fase beta que alcanza hasta un millón de tokens, lo que reduce la pérdida de información en procesos largos y potencia su utilidad.

Anthropic también ha introducido mejoras para que Opus 4.6 sea más efectivo en flujos de trabajo reales, como el llamado “pensamiento adaptativo”, que permite al sistema ajustar la profundidad de su razonamiento según el contexto. También incluye niveles de esfuerzo configurables y técnicas para comprimir el contexto, lo que ayuda a sostener tareas y conversaciones largas sin agotar los límites.

Además, permite coordinar equipos de agentes en paralelo dentro de Claude Code e integra mejor herramientas como Excel y PowerPoint.

Mientras GPT-5.3-Codex aún no está disponible vía API, Opus 4.6 sí lo está, manteniendo precios base de 5 dólares por cada millón de tokens de entrada y 25 dólares por millón en la salida, con costes adicionales para prompts muy largos.

¿Quién gana? Medir con números es complicado

Comparar GPT-5.3-Codex y Claude Opus 4.6 no es sencillo, no por falta de datos, sino porque cada empresa elige pruebas que destacan sus puntos fuertes y que, aunque similares, usan metodologías, versiones o métricas diferentes. Esto impide comparaciones directas y exige interpretarlas con cuidado, separando exhibiciones técnicas de pruebas realmente equivalentes.

Al centrar la comparación en dos benchmarks verificables y comúnmente aceptados —Terminal-Bench 2.0 y OSWorld— se observa una división de fortalezas más que un claro vencedor.

En Terminal-Bench 2.0, que mide eficacia en flujos de trabajo centrados en la terminal, GPT-5.3-Codex alcanza un 77,3%, frente al 65,4% de Opus 4.6. En cambio, en OSWorld, que evalúa la interacción general con el sistema, Opus 4.6 obtiene un 72,7%, superando al 64,7% de GPT-5.3-Codex.

Esto sugiere que cada modelo está especializado según el entorno y tipo de tarea.

En definitiva, ambos sistemas ya no se limitan a generar código, sino que buscan participar en procesos profundos de análisis, ejecución y revisión en entornos profesionales reales. Por eso, elegir entre ellos depende ahora no solo del rendimiento puntual, sino también de cómo encajan en flujos de trabajo complejos y continuos.

↗

fuente original

https://www.xataka.com/robotica-e-ia/programacion-nuevo-tablero-ia-openai-anthropic-han-dejado-claro-gpt-5-3-codex-claude-opus-4-6

ver →

etiquetas:inteligencia artificial modelos de lenguaje programación openai anthropic competencia tecnológica desarrollo de software