El 17 de julio de 2025, OpenAI lanzó ChatGPT Agent, una evolución importante que transforma a ChatGPT de un asistente conversacional en un agente de inteligencia artificial capaz de ejecutar de forma autónoma tareas complejas que requieren múltiples pasos, desde navegar por internet hasta ejecutar código en un entorno virtual.

Uniendo capacidades previas ChatGPT Agent se basa en dos herramientas anteriores: - Operator, que permitía interacciones limitadas en la web, como hacer clic, desplazarse o completar formularios mediante un agente basado en navegador. - Deep Research, que ofrecía navegación autónoma y síntesis de informes a lo largo de períodos más extensos.

Cada una tenía sus limitaciones: Operator podía interactuar pero no hacer análisis profundos, mientras que Deep Research analizaba pero no interactuaba dinámicamente con los sitios. ChatGPT Agent fusiona lo mejor de ambos, integrando navegación, uso de herramientas y razonamiento dentro de una sola arquitectura autónoma.

Arquitectura interna y funcionamiento En el núcleo del agente hay un entorno informático virtual que combina: - Un navegador visual para sitios orientados a usuarios. - Un navegador en texto optimizado para razonamiento estructurado. - Una consola o terminal para ejecutar código. - Conectores API integrados para servicios como Gmail o GitHub.

El agente decide continuamente si debe hacer clics, correr scripts o interpretar contenido, manteniendo el estado y control en todas sus acciones, lo que asegura trazabilidad y flexibilidad.

Ejemplos de tareas: desde la planificación hasta la ejecución ChatGPT Agent puede encargarse de actividades como: - Resumen de agenda: revisar tu calendario, buscar noticias relacionadas y condensar las próximas reuniones. - Compra de comestibles: encontrar ingredientes, comparar precios y hacer pedidos. - Análisis competitivo: obtener páginas de competidores, extraer datos y generar presentaciones o hojas de cálculo. - Modelado financiero: descargar datos, actualizar hojas de cálculo y mantener el formato.

Estas tareas aprovechan el uso multimodal de herramientas: iniciar sesión en sitios, ejecutar scripts y generar documentos editables, todo bajo tu supervisión.

Rendimiento: comparativas y métricas OpenAI reporta mejoras significativas en varias pruebas: - Humanity’s Last Exam: tasa Pass@1 del 41.6% (mejor resultado agente), llegando hasta 44.4% con intentos paralelos. - FrontierMath: 27.4% de precisión integrando terminal y código, superando modelos previos. - SpreadsheetBench: 45.5% en edición XLSX, frente a 20% de Copilot en Excel y ≈71% humano. - Pruebas internas de conocimiento profesional: herramientas del agente igualan o superan experto en ~50% de casos. - BrowseComp & WebArena: nuevos récords con 68.9% en tareas basadas en navegación.

Estas evaluaciones reflejan un avance importante en autonomía y complejidad de las tareas.

Seguridad y mitigación de riesgos La autonomía trae nuevos desafíos, por lo que OpenAI implementó varias protecciones: - Confirmación explícita antes de acciones importantes como compras o publicaciones. - Modo Vigilancia para tareas sensibles que requieren supervisión activa. - Defensa contra inyección de comandos maliciosos entrenando para detectar indicios extraños en la web y el resultado de las herramientas. - Mecanismos de privacidad que no retienen datos sensibles, como contraseñas, con modo de toma de control por sesión. - Medidas especiales para amenazas biológicas, con modelado de riesgos elevado, entrenamiento para rechazar acciones peligrosas, monitoreo en vivo y programas de recompensas por errores.

Estas capas buscan prevenir desde fugas de datos hasta el secuestro de tareas.

Cómo empezar ChatGPT Agent ya está disponible para usuarios Pro, Plus y Teams: - Usuarios Pro tienen acceso inmediato con 400 mensajes al mes en modo agente. - Plus y Teams recibirán acceso progresivo en los próximos días (40 mensajes por mes). - Los planes Enterprise y Educación se habilitarán en semanas siguientes. - El despliegue fuera de Estados Unidos (EEA, Suiza) está en marcha.

Puedes activar el “Modo Agente” desde el menú de herramientas en cualquier conversación y describir la tarea que quieres realizar. El progreso se narra en tiempo real y tienes la posibilidad de pausar, tomar el control o detener el proceso en cualquier momento.

Importancia para flujos de trabajo impulsados por IA ChatGPT Agent supone un salto desde sistemas pasivos de preguntas y respuestas hacia asistentes digitales proactivos. Al combinar: - Razonamiento con modelos tipo GPT-4. - Orquestación de herramientas (navegadores, terminales). - Ejecución con contexto preservado,

OpenAI abre la puerta a casos de uso más autónomos, confiables y orientados a la acción. Aunque los controles son vitales para evitar mal uso, esta innovación amplía lo que los asistentes de IA pueden lograr, no solo en palabras sino en hechos.

Para desarrolladores y científicos de datos, ChatGPT Agent se convierte en una plataforma: un agente programable y observable capaz de extraer, interpretar, sintetizar y exportar información bajo demanda. Esto potencia nuevos flujos de trabajo en investigación, automatización empresarial y productividad personal.

Para concluir ChatGPT Agent no es solo una mejora conversacional, sino un cambio estratégico hacia flujos de trabajo autónomos y generalizados con IA. Su lanzamiento marca la transición de los modelos de lenguaje de ser asesores pasivos a agentes activos capaces de investigar, crear y actuar en un entorno unificado y controlable. Se espera que esta capacidad se convierta en una base fundamental para diversas aplicaciones potenciadas por IA.

↗

fuente original

https://www.marktechpost.com/2025/07/18/openai-introduces-chatgpt-agent-from-research-to-real-world-automation/

ver →

etiquetas:inteligencia artificial chatgpt agent automatización de tareas navegación autónoma seguridad en ia automatización empresarial openai