En el campo en constante evolución de la automatización impulsada por inteligencia artificial, Zhipu AI ha presentado ComputerRL, un innovador marco de trabajo diseñado para que los agentes puedan manejar y navegar entornos digitales complejos. Esta propuesta busca superar una dificultad fundamental en el desarrollo de agentes de IA: la desconexión entre los agentes informáticos y las interfaces gráficas diseñadas para usuarios humanos. Al combinar llamadas programáticas a APIs con la interacción directa en GUI, ComputerRL permite operaciones de escritorio más eficientes y versátiles, avanzando hacia agentes capaces de usar computadoras de forma autónoma.

Tradicionalmente, los agentes que sólo interactúan con la GUI enfrentan problemas porque estas interfaces están optimizadas para humanos, lo que hace ineficiente la simulación de acciones como clics o desplazamientos. ComputerRL introduce un enfoque híbrido llamado paradigma API-GUI, que une la precisión de las llamadas a APIs con la flexibilidad de las acciones guiadas por la interfaz. Así, los agentes pueden aprovechar APIs aptas para control programado en tareas específicas, y recurrir a la GUI cuando se requiere mayor adaptabilidad.

El sistema automatiza la creación de estas APIs usando modelos de lenguaje grandes (LLMs). A partir de ejemplos de tareas proporcionados por el usuario, ComputerRL analiza las necesidades, implementa las APIs con librerías Python adecuadas y genera casos de prueba. De esta forma, las APIs ofrecen funcionalidades generales que simplifican la ejecución y mejoran el desempeño del agente. Por ejemplo, se incluyen APIs para aplicaciones de Ubuntu como GIMP y LibreOffice, permitiendo realizar procesos como edición de imágenes o formateo de documentos en menos pasos que cuando se hacen solo mediante la interfaz.

Otro desafío en el entrenamiento de agentes para escritorio es la poca eficiencia de los entornos virtuales. ComputerRL lo soluciona con una infraestructura distribuida de aprendizaje por refuerzo basada en Docker y gRPC, que soporta miles de máquinas virtuales Ubuntu en paralelo. Esta arquitectura mejora la escalabilidad y supera problemas previos como alto consumo de recursos o cuellos de botella en la red. Además, presenta despliegues ligeros de VMs mediante qemu-in-docker, trabajo en clústeres multinodo y una interfaz web para monitoreo. Junto con el framework AgentRL, permite entrenamiento asíncrono completo, separando la recolección de datos de la actualización de parámetros para optimizar la eficiencia. Este sistema posibilita entrenamientos a gran escala con tamaños de lote dinámicos y mitigación de sesgos off-policy, facilitando sesiones prolongadas sin estancamientos.

Para evitar el problema común en aprendizaje por refuerzo de la pérdida de exploración —la llamada “entropía colapsada”—, ComputerRL incorpora Entropulse. Esta técnica intercala fases de entrenamiento reforzado con etapas de ajuste supervisado usando trayectorias exitosas previas, restaurando la entropía y manteniendo la mejora continua. El proceso de entrenamiento comienza con “comportamiento por clonación” (behavior cloning) usando trayectorias diversas generadas por varios LLMs. Luego aplica una optimización específica llamada Group Relative Policy Optimization (GRPO), que otorga recompensas solo a acciones correctas dentro de trayectorias exitosas. Entropulse interviene seleccionando datos variados y de alta calidad para el ajuste supervisado, evitando una convergencia prematura y ampliando los pasos efectivos de aprendizaje.

En pruebas con el benchmark OSWorld, que evalúa agentes en entornos Ubuntu interactivos, ComputerRL aplicó modelos abiertos como GLM-4-9B-0414 y Qwen2.5-14B, dando lugar a variantes AutoGLM-OS. En este escenario, la versión AutoGLM-OS-9B alcanzó un índice de éxito del 48.1%, superando modelos propietarios como CUA o3 de OpenAI (42.9%) y Claude 4.0 (30.7%). También destacó en OSWorld-Verified, con un 47.3%. Estudios específicos resaltaron que el enfoque API-GUI aumentó la tasa de éxito un 134% frente a métodos que solo usan GUI, especialmente en entornos profesionales y de oficina. El análisis por fases mostró que el comportamiento por clonación establece una base del 31.9%, mientras que las etapas de aprendizaje reforzado con Entropulse añadieron hasta un 45.8% por medio de exploración eficiente. Las curvas de entropía confirmaron la importancia de Entropulse para mantener el impulso del aprendizaje.

Los casos prácticos demostraron la utilidad del sistema, realizando tareas como crear tablas resumen en LibreOffice Calc o generar informes de sistema mediante terminal. Sin embargo, el análisis de errores identificó áreas a mejorar, como problemas de percepción visual (25.8% de fallos) y coordinación entre múltiples aplicaciones (34.4%).

De cara al futuro, ComputerRL abre el camino para agentes más robustos capaces de manejar entornos dinámicos y tareas a largo plazo. Se prevén avances como ampliar la diversidad de entrenamiento, integrar percepciones multimodales y desarrollar planificación jerárquica. Para su uso en escenarios reales, será clave incorporar medidas de seguridad como permisos y validación de acciones, garantizando que la automatización sea confiable y alineada con los objetivos humanos.

En definitiva, ComputerRL representa un avance crucial en agentes de inteligencia artificial, combinando un aprendizaje por refuerzo escalable con paradigmas innovadores de interacción para transformar la inteligencia en escritorio. Con modelos abiertos como AutoGLM-OS empujando los límites, esta propuesta prepara el terreno para agentes más versátiles y capaces en el uso cotidiano de computadoras.

↗

fuente original

https://www.marktechpost.com/2025/08/22/zhipu-ai-unveils-computerrl-an-ai-framework-scaling-end-to-end-reinforcement-learning-for-computer-use-agents/

ver →

etiquetas:automatización inteligencia artificial aprendizaje por refuerzo agentes ai interacción gui-api modelos de lenguaje automatización de tareas en escritorio