GTA1: Salesforce AI lanza agente GUI escalable y superior en rendimiento

La inteligencia artificial transforma la educación personalizando contenidos, optimizando métodos y analizando datos para mejorar resultados, adaptando la experiencia formativa en tiempo real y aumentando su eficacia. https://tinyurl.com/ynuzqse5

M
MIIA
editorial
9 de julio de 2025·3 min de lectura
GTA1: Salesforce AI lanza agente GUI escalable y superior en rendimiento

Salesforce AI Research ha presentado GTA1, un nuevo agente con interfaz gráfica de usuario (GUI) que marca un avance significativo en la interacción autónoma entre humanos y computadoras. Diseñado para funcionar de forma independiente en sistemas operativos reales como Linux, GTA1 aborda dos grandes desafíos en el desarrollo de agentes GUI: la ambigüedad en la planificación de tareas y la imprecisión al ejecutar acciones en la interfaz.

Con una tasa de éxito del 45.2% en el benchmark OSWorld, GTA1 supera al agente CUA de OpenAI, estableciendo un nuevo récord entre los modelos de código abierto.

Los retos principales para los agentes GUI suelen ser: - **Ambigüedad en la planificación**: existen varias formas válidas para completar una tarea, y no todas son igual de eficientes o confiables. - **Precisión en la ejecución**: convertir acciones abstractas en interacciones exactas sobre la interfaz, especialmente en entornos dinámicos y de alta resolución, resulta complicado.

Para resolver esto, GTA1 introduce dos innovaciones clave.

En primer lugar, mejora la planificación con una técnica llamada “test-time scaling”. En lugar de decidir una única acción en cada paso, el agente genera varias opciones simultáneamente y usa un modelo multimodal —usualmente un gran modelo de lenguaje— para evaluarlas y escoger la mejor. Esto permite evitar comprometerse temprano con planes subóptimos y explorar diferentes caminos sin necesidad de ejecutar todas las acciones, algo crítico porque muchas de ellas no se pueden revertir.

En segundo lugar, para mejorar la precisión al interactuar con la interfaz, GTA1 emplea un enfoque de aprendizaje por refuerzo basado en Group Relative Policy Optimization (GRPO). En lugar de depender de señales intermedias o predicciones de cajas delimitadoras, el modelo aprende directamente con recompensas por clics acertados dentro del elemento correcto de la GUI. Este método logra una alta exactitud sin la complejidad de otras técnicas supervisadas y, según pruebas, elimina la necesidad de señales auxiliares como pensamientos intermedios o cálculos de superposición, lo que incluso mejora su desempeño en entornos estáticos.

En cuanto a rendimiento, GTA1 destaca en varias pruebas: - En OSWorld, la versión de 7 mil millones de parámetros logra un 45.2% de éxito, superando al CUA de OpenAI (42.9%) y a Claude 3.7 (28.0%). - En ScreenSpot-Pro, alcanza un 50.1% en precisión de localización, por delante de otros modelos como UGround-72B (34.5%). - En ScreenSpot-V2, con un enfoque multiplataforma, consigue un 94.8%, casi igualando a modelos propietarios de alta gama. - En OSWorld-G, enfocado en Linux, llega al 67.7%, dejando atrás a todas las soluciones open source previas.

Otros aspectos importantes del diseño incluyen la limpieza de datos para mejorar la calidad del entrenamiento y la escalabilidad del método, que funciona bien desde modelos de 7B hasta 72B parámetros, ofreciendo un buen balance entre rendimiento y recursos. Además, el modelo juez multimodal usado para seleccionar acciones es el mismo que se emplea para la planificación, lo que reduce la complejidad.

En resumen, GTA1 muestra que es posible crear agentes GUI robustos y precisos mediante una arquitectura modular que combina diversidad en la planificación y un método de aprendizaje por refuerzo para la ejecución exacta. Al simplificar procesos innecesarios, como el razonamiento encadenado en tareas estáticas, Salesforce AI ha desarrollado un agente ligero y eficiente que amplía el horizonte de la interacción digital autónoma.

fuente original
https://www.marktechpost.com/2025/07/09/salesforce-ai-released-gta1-a-test-time-scaled-gui-agent-that-outperforms-openais-cua/
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #inteligencia artificial · #agentes gui · #aprendizaje por refuerzo
Prueba MIIA gratis →
WhatsApp