Los agentes de inteligencia artificial con capacidad de interacción física están cada vez más demandados para entender instrucciones complejas que combinan visión y lenguaje, y para actuar de forma confiable en entornos dinámicos. En este contexto, ThinkAct, desarrollado por investigadores de Nvidia y la Universidad Nacional de Taiwán, supone un avance importante en el razonamiento visión-lenguaje-acción (VLA). Su propuesta principal es un sistema de planificación visual latente reforzado que conecta el razonamiento multimodal de alto nivel con el control preciso de robots.
Hasta ahora, los modelos típicos de VLA traducen directamente las imágenes y las indicaciones en lenguaje a acciones mediante entrenamiento de extremo a extremo, lo que limita su capacidad de razonamiento, planificación a largo plazo y adaptación. Algunos métodos recientes introdujeron cadenas de pensamiento intermedias o intentos de optimización con aprendizaje reforzado, pero enfrentaban dificultades para escalar, basar sus decisiones en el entorno real y generalizar en tareas complejas y prolongadas.
ThinkAct se estructura en dos componentes integrados: un modelo multimodal grande de lenguaje (MLLM) que analiza la escena visual y las instrucciones textuales para generar un plan visual latente con la intención y el contexto estratégico, y un modelo de acción basado en Transformer que ejecuta dicho plan traducido en trayectorias que el robot debe seguir. Esta arquitectura permite que el modelo de razonamiento trabaje a un ritmo más lento, diseñando planes, mientras que el módulo de acción controla finamente al robot con mayor rapidez.
Una innovación clave es el uso de aprendizaje reforzado apoyado en recompensas visuales alineadas con las acciones esperadas. Por un lado, la recompensa de objetivo incentiva a coincidir las posiciones iniciales y finales previstas con las de las demostraciones expertas, favoreciendo el cumplimiento correcto de la tarea. Por otro lado, la recompensa de trayectoria impulsa a que las trayectorias visuales generadas se asemejen a las de los expertos, usando para ello una métrica llamada "dynamic time warping". Un puntaje adicional evalúa que la estructura del plan sea correcta, de modo que el modelo produzca planes viables que puedan traducirse en acciones reales del robot.
El entrenamiento combina varias etapas: una afinación supervisada inicial con datos anotados que enseña a predecir trayectorias y respuestas; una afinación reforzada que optimiza el modelo para maximizar las recompensas mencionadas; y un ajuste del modelo de acción mediante aprendizaje por imitación, que usa el plan latente generado para guiar el control del robot en entornos variados.
En la fase de inferencia, al recibir una escena observada y una instrucción, el modelo de razonamiento genera un plan visual latente, que luego guía al módulo de acción para ejecutar la trayectoria completa. Esto permite rendimientos sólidos incluso en situaciones nuevas y no entrenadas previamente.
En pruebas sobre los benchmarks SimplerEnv y LIBERO, ThinkAct superó a otros modelos reconocidos por un margen del 11 al 17 %, destacándose especialmente en tareas con horizontes largos y variedad visual considerable. En LIBERO alcanzó una tasa de éxito global del 84.4 %, mostrando capacidad para generalizar y adaptarse a nuevas habilidades y configuraciones espaciales.
También se comprobó su desempeño superior en benchmarks de razonamiento encarnado, como EgoPlan-Bench2, RoboVQA y OpenEQA, obteniendo mejores resultados en planificación multi-step y en métricas de comprensión semántica y respuesta a preguntas visuales.
Una ventaja destacada es su adaptabilidad con pocos ejemplos: con solo 10 demostraciones nuevas ya logra mejoras significativas en el éxito, gracias a su enfoque basado en razonamiento guiado.
Además, ThinkAct puede detectar errores en la ejecución, como cuando se cae un objeto, y replantear de forma automática el plan para corregir y completar la tarea, gracias a su capacidad de reflexión basada en la observación visual reciente.
Los estudios abran diferentes componentes confirmaron que tanto la recompensa de objetivo como la de trayectoria son vitales para un razonamiento estructurado y la generalización. El equilibrio entre la frecuencia de actualización del razonamiento y la acción también es clave para un desempeño sólido sin demandas computacionales excesivas. Incluso modelos más pequeños mantienen capacidades robustas, lo que demuestra la versatilidad del enfoque.
En cuanto a la implementación, ThinkAct utiliza como base el modelo multimodal Qwen2.5-VL de 7 mil millones de parámetros, y se entrena con conjuntos de datos diversos, que incluyen videos de demostraciones robotizadas y humanas, además de conjuntos multimodales de preguntas y respuestas. La integración entre razonamiento y acción se logra mediante encoders de visión y texto, y un componente intermedio que traduce las salidas del modelo de lenguaje en condiciones para la política de control.
Los experimentos realizados, tanto en simulación como con robots reales, confirmaron la escalabilidad y robustez del sistema.
En resumen, ThinkAct marca un hito para agentes de IA con interacción física, demostrando que la planificación visual latente reforzada —donde el agente piensa antes de actuar— ofrece un rendimiento adaptable, robusto y escalable en tareas complejas de razonamiento y manipulación robótica en el mundo real. Su diseño dual, la formulación cuidadosa de recompensas y su desempeño probado abren camino para robots inteligentes y generalistas capaces de planificar a largo plazo, adaptarse con pocos ejemplos y autocorregirse en entornos diversos.



