CoAct-1: Multi-Agent Integrating GUI Control and Advanced Programmatic Execution

CoAct-1, a hybrid multi-agent, achieves over 60% success in the OSWorld benchmark with complex tasks, combining planning, programming, and GUI operation to optimize efficiency and reliability in automation. https://tinyurl.com/3a7vduju

M
MIIA
editorial
August 7, 2025·3 min read
CoAct-1: Multi-Agent Integrating GUI Control and Advanced Programmatic Execution

Un equipo de investigadores de la Universidad del Sur de California (USC), Salesforce AI y la Universidad de Washington ha presentado CoAct-1, un innovador agente multiagente para operar computadoras de forma autónoma que representa un avance importante en este campo. Lo que distingue a CoAct-1 es que eleva la programación a un nivel de acción principal, al mismo nivel que la manipulación tradicional de interfaces gráficas, lo que le permite superar desafíos históricos en eficiencia y confiabilidad en tareas complejas y de larga duración.

En el riguroso benchmark OSWorld, que incluye 369 tareas relacionadas con productividad de oficina, entornos de desarrollo, navegadores y gestión de archivos, CoAct-1 alcanzó una tasa de éxito del 60.76%, estableciendo un nuevo récord y convirtiéndose en el primer agente de este tipo en superar el umbral del 60%.

El principal problema con los agentes convencionales es que dependen únicamente de interacciones basadas en imágenes para controlar la interfaz gráfica, imitando al usuario mediante clics, escritura y navegación visual. Este enfoque es frágil y poco eficiente cuando las tareas son complejas, involucran múltiples aplicaciones o necesitan operaciones elaboradas en el sistema operativo, ya que un solo error puede interrumpir todo el flujo de trabajo.

Para superar estas limitaciones, CoAct-1 utiliza una arquitectura híbrida que combina tres agentes especializados:

- El Orquestador, que planifica a alto nivel, descompone las tareas complejas y decide si asignarlas al Programador o al Operador de GUI según las necesidades. - El Programador, que realiza operaciones de backend como gestión de archivos y procesamiento de datos mediante scripts en Python o Bash, evitando largas secuencias de acciones en la interfaz. - El Operador de GUI, que usa un modelo de visión y lenguaje para interactuar visualmente con la interfaz solo cuando la navegación humana es indispensable.

Gracias a este diseño, CoAct-1 puede reemplazar operaciones lentas y propensas a errores con ejecuciones de código precisas y confiables, manteniendo la capacidad de interactuar con la GUI cuando es necesario.

En las pruebas con OSWorld, CoAct-1 no solo superó a otros agentes destacados como GTA-1 y OpenAI CUA 4o en éxito general, sino que además resolvió las tareas más rápido y con menos pasos. Por ejemplo, logró un 59.93% de éxito con un límite de 100 pasos, superando ampliamente a los competidores. Su eficiencia es notable: para completar una tarea con éxito, promedió 10.15 pasos, frente a los más de 15 pasos de otros agentes que además tienen menor tasa de éxito.

El rendimiento fue especialmente notable en:

- Flujos de trabajo con múltiples aplicaciones: alcanzó 47.88% de éxito, mejor que el 38.34% de GTA-1. - Tareas del sistema operativo: con un 75% de éxito. - VLC (reproductor multimedia): con un 66.07%.

En áreas relacionadas con productividad y entornos de desarrollo, como LibreOffice o VSCode, CoAct-1 también se mantuvo a la cabeza o empató con los mejores resultados.

Los factores clave detrás de su desempeño incluyen la sustitución de largas y repetitivas interacciones gráficas por acciones de programación más directas y seguras, y la asignación dinámica de tareas que optimiza el uso de operaciones con código o con GUI según convenga. Además, emplear modelos más potentes en cada agente contribuye a maximizar la eficacia y confiabilidad del sistema.

En resumen, al considerar la programación como una acción tan importante como la interacción visual, CoAct-1 abre un nuevo camino para la automatización inteligente y escalable de computadoras. Su arquitectura híbrida y su capacidad para adaptarse dinámicamente a cada tarea representan un avance significativo que establece un nuevo referente en el campo de agentes autónomos para el control informático.

original source
https://www.marktechpost.com/2025/08/07/meet-coact-1-a-novel-multi-agent-system-that-synergistically-combines-gui-based-control-with-direct-programmatic-execution/
Try MIIA

AI agents for WhatsApp, Instagram, and Messenger. Set up in 10 minutes.

Keep reading

related to #inteligencia artificial · #agentes autónomos · #automatización
Try MIIA free →
WhatsApp