El agarre robótico es una tarea fundamental para la automatización y la manipulación, clave en áreas que van desde la selección industrial hasta la robótica de servicio y humanoide. Aunque se ha investigado durante décadas, lograr un agarre robusto y versátil con seis grados de libertad (6-DOF) sigue siendo un desafío importante. Recientemente, NVIDIA presentó GraspGen, un novedoso marco de generación de agarres basado en modelos de difusión, que promete alcanzar un rendimiento líder con una flexibilidad, escalabilidad y confiabilidad en entornos reales sin precedentes.
Uno de los grandes retos en el agarre robótico es generar posiciones de agarre precisas en un espacio tridimensional, donde las poses deben incluir posición y orientación. Para ello, los algoritmos deben poder generalizar ante objetos desconocidos, diferentes tipos de pinzas y condiciones ambientales complejas, como observaciones parciales o escenas con desorden. Los planificadores clásicos que dependen de modelos detallados y escaneos múltiples suelen ser poco prácticos fuera del laboratorio. Por otro lado, las técnicas basadas en aprendizaje automático muestran potencial, pero aún tienen dificultades para adaptarse a nuevos tipos de pinzas y ambientes reales con mucho ruido y desorden.
Además, muchos sistemas requieren grandes cantidades de datos reales, que son caros y difíciles de recopilar y etiquetar, y no se adaptan fácilmente a distintos tipos de pinzas o escenarios variados.
GraspGen cambia este enfoque, dejando atrás la costosa recolección de datos reales para aprovechar una enorme generación de datos sintéticos en simulación. Utiliza la diversidad de más de 8,000 objetos del dataset Objaverse y ha generado más de 53 millones de agarres simulados con diversas pinzas. A nivel técnico, formula la generación de agarres como un modelo probabilístico de difusión que opera en el espacio SE(3) —es decir, rotaciones y traslaciones 3D—. Estos modelos de difusión, ya usados con éxito en generación de imágenes, refinan paso a paso muestras iniciales de ruido hasta obtener poses de agarre realistas, condicionadas en una representación del objeto en forma de nube de puntos. Esta estrategia captura naturalmente la variedad de posiciones válidas para agarrar objetos complejos, algo muy útil en ambientes desordenados o con restricciones específicas.
La arquitectura de GraspGen combina un Transformer basado en PointTransformerV3, que codifica directamente las nubes de puntos 3D sin estructura en representaciones latentes, con iteraciones de difusión para predecir el ruido residual en las poses de agarre. Esto mejora la calidad del agarre y la eficiencia computacional, superando a otros métodos que usan PointNet++ o representaciones basadas en puntos de contacto.
Otra innovación importante está en el entrenamiento del evaluador o discriminador de agarres. En lugar de usar datos estáticos de agarres exitosos o fallidos, este se entrena “en generador”, es decir, con muestras producidas continuamente por el modelo de difusión durante el entrenamiento. Así, el evaluador aprende a reconocer errores típicos y sesgos del generador, evitando falsos positivos en la fase de inferencia. Además, reutiliza el codificador de objetos del generador, añadiendo solo una red pequeña para clasificar el éxito del agarre, lo que reduce el uso de memoria hasta 21 veces en comparación con modelos anteriores.
Se aplican técnicas adicionales para mejorar la estabilidad y precisión, como la normalización de traslaciones según estadísticas del dataset y representaciones matemáticas específicas para rotaciones.
GraspGen ha sido probado con varios tipos de pinzas: de mandíbula paralela (como Franka Panda y Robotiq-2F-140), pinzas de succión modeladas analíticamente, y está previsto extenderse a pinzas multifinger. También funciona bien con nubes de puntos parciales o completas, y en escenarios poco ordenados. En el benchmark FetchBench, muy exigente por su desorden, mostró tasas de éxito superiores. A destacar, se entrenó solo en simulación, pero logró una transferencia directa (“zero-shot”) a robots reales funcionando con entradas visuales ruidosas, gracias a técnicas de aumento que simulan condiciones reales como ruido en la segmentación o sensores.
En comparación con otros métodos punteros, GraspGen superó ampliamente los resultados en simulación y en pruebas con robots reales. Por ejemplo, en FetchBench logró un incremento de casi 17% en éxito de tareas respecto a Contact-GraspNet. En pruebas con un robot UR10 equipado con sensor RealSense, obtuvo un 81.3% de éxito general, un 28% más que la referencia M2T2, mostrando además que sus agarres se concentraban solo en los objetos objetivos, evitando agarres erróneos comunes en otros modelos.
Para fomentar el avance comunitario, NVIDIA ha liberado públicamente el dataset GraspGen, que incluye alrededor de 53 millones de agarres simulados sobre más de 8,500 objetos bajo licencias de Creative Commons. Este conjunto fue generado usando NVIDIA Isaac Sim, con etiquetados detallados que incluyen pruebas de estabilidad físicas. Además, el código y modelos preentrenados de GraspGen están disponibles como software libre en GitHub.
En resumen, GraspGen representa un avance importante en el agarre robótico 6-DOF, gracias a su innovador marco generativo basado en difusión que mejora significativamente el rendimiento, la flexibilidad y la robustez en entornos reales y simulados. Su novedoso entrenamiento del evaluador “en generador” ayuda a eliminar errores del modelo, mejorando tanto el éxito del agarre como el desempeño en tareas completas. Al liberar código y datos, NVIDIA impulsa a la comunidad a seguir desarrollando estas tecnologías para hacer el agarre robótico confiable y ampliamente aplicable en la manipulación robótica general.



