La generación autoregresiva de video es un campo de investigación que avanza rápidamente y se enfoca en crear videos cuadro a cuadro, basándose en patrones aprendidos tanto en la disposición espacial como en la dinámica temporal. A diferencia de los métodos tradicionales que usan frames predefinidos o transiciones preestablecidas, los modelos autoregresivos generan el contenido de manera dinámica a partir de los elementos previos, de manera similar a cómo los grandes modelos de lenguaje predicen la siguiente palabra. Esto ofrece la posibilidad de integrar la generación de video, imágenes y texto bajo un mismo marco, utilizando la potencia estructural de arquitecturas basadas en transformadores.
Uno de los mayores desafíos es capturar y modelar adecuadamente las dependencias espacio-temporales intrínsecas del video. Los videos contienen estructuras complejas tanto en el tiempo como en el espacio, y lograr que el modelo prediga cuadros futuros coherentes sin perder continuidad sigue siendo complicado. Las técnicas tradicionales, como el enmascaramiento aleatorio, no siempre proporcionan señales de aprendizaje balanceadas entre los cuadros; además, cuando la información espacial de cuadros adyacentes se filtra, la predicción se vuelve demasiado sencilla y pierde realismo.
Diversos enfoques han intentado resolver estas dificultades adaptando la generación autoregresiva, pero a menudo se alejan de los diseños estándar de grandes modelos de lenguaje. Algunos incorporan codificadores de texto externos, lo que complica los modelos y afecta su coherencia. Otros añaden retrasos importantes durante la generación por el uso de decodificadores ineficientes. Modelos como Phenaki y EMU3 buscan una generación de extremo a extremo, aunque aún enfrentan problemas de consistencia en el rendimiento y altos costos de entrenamiento. Técnicas como el orden de exploración raster o la atención a secuencias globales tampoco escalan bien para datos de video de alta dimensión.
Ante este panorama, el equipo de investigación de DAMO Academy de Alibaba, junto con Hupan Lab y la Universidad de Zhejiang, presentó Lumos-1. Se trata de un modelo unificado para generación autoregresiva de video que respeta la arquitectura clásica de grandes modelos de lenguaje. A diferencia de otros, Lumos-1 elimina la necesidad de codificadores externos y modifica mínimamente el diseño original del LLM. Para abordar el reto de modelar la estructura tridimensional del video, utiliza MM-RoPE (Multi-Modal Rotary Position Embeddings). Además, adopta un enfoque basado en la dependencia entre tokens que preserva la bidireccionalidad intra-cuadro y la causalidad temporal inter-cuadro, lo que se ajusta mejor al comportamiento natural del video.
En MM-RoPE, los investigadores expanden los métodos tradicionales de RoPE para equilibrar la representación en frecuencia entre las dimensiones espaciales y temporales. Los RoPE 3D convencionales suelen asignar mal el enfoque frecuencial, lo que provoca pérdida de detalles o posicionamientos ambiguos. MM-RoPE reestructura esta asignación para que tiempo, altura y ancho reciban una representación equilibrada. Para corregir el desequilibrio en las pérdidas durante el entrenamiento por cuadros, Lumos-1 incorpora AR-DF (Autoregressive Discrete Diffusion Forcing), que aplica un enmascaramiento en forma de "tubo temporal" durante el entrenamiento para evitar que el modelo dependa excesivamente de la información espacial no enmascarada, garantizando así un aprendizaje uniforme a lo largo de la secuencia. La estrategia de inferencia sigue esta misma línea, permitiendo generar cuadros de alta calidad sin pérdida progresiva.
Lumos-1 fue entrenado desde cero con 60 millones de imágenes y 10 millones de videos, utilizando únicamente 48 GPUs, lo que resulta eficiente en memoria dado el tamaño del entrenamiento. El modelo alcanzó resultados comparables con los mejores en el campo: igualó el desempeño de EMU3 en los benchmarks GenEval, tuvo un rendimiento equivalente a COSMOS-Video2World en la prueba VBench-I2V y compitió con OpenSoraPlan en el benchmark VBench-T2V. Estas comparaciones demuestran que su entrenamiento ligero no sacrifica competitividad. Además, Lumos-1 soporta generación de video a partir de texto, de imagen a video y generación de imágenes desde texto, mostrando una gran capacidad de generalización entre modalidades.
En resumen, esta investigación no solo identifica y soluciona los principales retos en el modelado espacio-temporal para la generación de video, sino que también establece un nuevo estándar en la combinación de eficiencia y efectividad dentro de los marcos autoregresivos. Gracias a la integración de arquitecturas avanzadas y técnicas de entrenamiento innovadoras, Lumos-1 abre el camino para la próxima generación de modelos escalables de generación de video de alta calidad y abre nuevas posibilidades para futuras investigaciones multimodales.



