Comprender la relación entre el movimiento corporal y la percepción visual es fundamental para crear sistemas inteligentes capaces de interpretar y relacionarse con su entorno. Este enfoque pone énfasis en cómo los movimientos del cuerpo humano, desde caminar hasta manipular objetos con los brazos, influyen en lo que se percibe desde una perspectiva en primera persona. Entender esta conexión es clave para que máquinas y robots puedan planificar y actuar con una anticipación visual similar a la humana, especialmente en situaciones reales donde la visibilidad cambia dinámicamente con el movimiento físico.
Uno de los principales retos en este campo es enseñar a los sistemas cómo las acciones corporales afectan la percepción visual. Movimientos como girar o agacharse modifican lo que se ve, pero a menudo estos cambios son sutiles o se perciben con cierto retraso. Capturar esta dinámica no se limita a predecir el próximo cuadro de un video, sino que implica enlazar las acciones físicas con las transformaciones en la información visual. Sin esta habilidad, los agentes con cuerpo tienen dificultades para planificar o interactuar eficazmente en entornos cambiantes.
Los modelos anteriores que intentaban predecir videos basándose en acciones humanas han sido limitados. Muchos solo usaban datos simples, como la velocidad o la dirección de la cabeza, sin considerar la complejidad del movimiento completo del cuerpo. Estas aproximaciones simplificadas ignoran el control detallado y la coordinación necesaria para simular fielmente el comportamiento humano. Incluso en modelos generativos de video, el movimiento corporal se trataba más como resultado que como factor determinante de la predicción, lo que restringía su utilidad para aplicaciones prácticas de planificación.
Para superar estas limitaciones, un equipo de investigadores de UC Berkeley, Meta FAIR y la Universidad de Nueva York desarrolló PEVA, un nuevo sistema que predice futuros videos desde una perspectiva egocéntrica a partir de datos estructurados de movimientos corporales completos, obtenidos de trayectorias 3D de poses corporales. PEVA busca demostrar cómo los movimientos de todo el cuerpo influyen en lo que una persona ve, estableciendo así un vínculo sólido entre acción y percepción. Para lograr esto, se utilizó un transformador de difusión condicional entrenado con Nymeria, una gran base de datos de videos en primera persona sincronizados con capturas de movimiento corporal en 3D.
El punto fuerte de PEVA está en su forma de representar las acciones de manera muy estructurada. Cada entrada consiste en un vector de 48 dimensiones que incluye la traslación raíz y las rotaciones a nivel de articulaciones en 15 puntos del torso y brazos en un espacio tridimensional. Este vector se normaliza y se transforma a un sistema de coordenadas local centrado en la pelvis para eliminar cualquier sesgo posicional. Gracias a esta representación completa de la dinámica corporal, el modelo es capaz de captar la naturaleza continua y detallada del movimiento real. PEVA funciona como un modelo autoregresivo de difusión que utiliza un codificador de video para convertir los cuadros en representaciones latentes y predecir los siguientes basándose en estados previos y las acciones corporales. Además, durante el entrenamiento, se introducen saltos de tiempo aleatorios para que el sistema aprenda tanto las consecuencias inmediatas como las retardadas del movimiento en la percepción visual.
En cuanto a su desempeño, PEVA fue evaluado mediante varias métricas que valoran la predicción de video a corto y largo plazo. El modelo logró generar cuadros visualmente consistentes y con precisión semántica durante períodos prolongados. En predicciones a corto plazo, evaluadas cada dos segundos, obtuvo mejores resultados en calidad perceptual que otros métodos básicos, con menores puntajes LPIPS y mayor consistencia según DreamSim. Además, el sistema descompuso el movimiento humano en acciones elementales, como movimientos de brazos y rotaciones del cuerpo, para evaluar el control detallado. También fue probado en predicciones extendidas de hasta 16 segundos, simulando con éxito resultados que ocurren con retardo sin perder coherencia narrativa. Estos experimentos demostraron que incluir el control de todo el cuerpo mejora notablemente el realismo y la capacidad de control en la generación de video.
En resumen, esta investigación representa un avance importante en la predicción de video egocéntrico al fundar el modelo en el movimiento físico real del cuerpo humano. El desafío de vincular la acción corporal completa con los resultados visuales se aborda con un método sólido que usa representaciones estructuradas de poses y aprendizaje basado en difusión. Esta propuesta abre un camino prometedor para sistemas de inteligencia artificial corporizada que requieren una previsión precisa y físicamente fundamentada.



