El aprendizaje por refuerzo (RL) es fundamental para escalar modelos de lenguaje, permitiéndoles resolver tareas complejas como matemáticas de nivel competitivo y programación mediante un razonamiento más profundo. No obstante, lograr una dinámica de entrenamiento estable y confiable sigue siendo un desafío al aplicar RL con mayores recursos computacionales. Los algoritmos actuales más avanzados, como GRPO, enfrentan serios problemas de estabilidad durante el entrenamiento de modelos de lenguaje gigantescos, lo que a menudo provoca fallos catastróficos. Estas inestabilidades surgen por el uso incorrecto de los pesos de muestreo de importancia, que generan un ruido de alta varianza. Este ruido se acumula en respuestas largas y se agrava por los mecanismos de recorte (clipping), lo que conduce al colapso del modelo y frena el progreso.

Métodos existentes como PPO y GRPO usan el clipping para lidiar con los desafíos del aprendizaje fuera de política, ya que las respuestas provienen de políticas desactualizadas. Sin embargo, estas técnicas tienen limitaciones debido a objetivos mal planteados, especialmente en modelos grandes que manejan tareas con respuestas extensas. En particular, el muestreo de importancia a nivel de token de GRPO genera ruido de alta variabilidad que puede provocar un colapso irreversible del modelo. Intentar recuperarse mediante ajustes de hiperparámetros o restauración de puntos de control no funciona, evidenciando un fallo fundamental en su diseño. La disparidad entre las correcciones a nivel de token y las recompensas a nivel de secuencia subraya la necesidad de un enfoque nuevo que optimice directamente a nivel de secuencia para garantizar estabilidad y escalabilidad.

Un equipo de investigadores de Alibaba propuso Group Sequence Policy Optimization (GSPO), un algoritmo de RL pensado para entrenar grandes modelos de lenguaje. La principal innovación de GSPO es su razón de importancia fundamentada teóricamente, derivada de la probabilidad de secuencia, lo que se alinea mejor con los principios del muestreo de importancia. Además, calcula recompensas normalizadas como ventajas para múltiples respuestas a una misma consulta, promoviendo la coherencia entre las recompensas a nivel de secuencia y los objetivos de optimización. Evaluaciones prácticas muestran que GSPO supera ampliamente en estabilidad, eficiencia y rendimiento general a GRPO. Al resolver los problemas de estabilidad en el entrenamiento de grandes modelos Mixture-of-Experts (MoE), GSPO elimina la necesidad de técnicas de estabilización complejas.

En sus experimentos, los investigadores usaron un modelo cold-start afinado desde Qwen3-30B-A3B-Base, reportando las curvas de recompensa y de desempeño en benchmarks como AIME’24, LiveCodeBench y CodeForces. Durante el entrenamiento, los datos de rollout se dividen en cuatro mini-batches para las actualizaciones de gradiente. GSPO recorta respuestas completas en lugar de tokens individuales, con rangos de clipping establecidos en 3e-4 y 4e-4. Esto genera una diferencia de dos órdenes de magnitud en la fracción de tokens recortados en comparación con GRPO. A pesar de eliminar más tokens para la estimación del gradiente, GSPO alcanza una mayor eficiencia en el entrenamiento, evidenciando la ineficiencia del método ruidoso a nivel de token usado por GRPO.

GSPO presenta ventajas importantes para el entrenamiento de modelos MoE al estabilizar el proceso gracias a activaciones de expertos más consistentes a lo largo de las actualizaciones de gradiente, a diferencia de GRPO, que enfrenta volatilidad en la activación de expertos. Esto elimina la necesidad de soluciones complejas como Routing Replay, simplificando la infraestructura y permitiendo que los modelos aprovechen toda su capacidad. En cuanto a la infraestructura de RL, la optimización a nivel de secuencia de GSPO reduce la dependencia en las probabilidades a nivel de token, haciéndolo más robusto frente a desajustes de precisión. Esto permite usar directamente las probabilidades del motor de inferencia, evitando recomputaciones costosas y mejorando la eficiencia en rollouts parciales y en RL con múltiples turnos. GSPO también simplifica la infraestructura necesaria para entrenar grandes modelos de lenguaje.

En resumen, los investigadores presentaron Group Sequence Policy Optimization (GSPO), un algoritmo de aprendizaje por refuerzo diseñado para entrenar grandes modelos de lenguaje. GSPO se basa en principios sólidos de muestreo de importancia e introduce recortes, recompensas y optimización a nivel de secuencia para superar los problemas de inestabilidad e ineficiencia que se observan en GRPO. Su desempeño superior en términos de estabilidad, eficiencia y escalabilidad, especialmente en modelos Mixture-of-Experts, lo convierte en una base algorítmica sólida. Los avances que facilita GSPO han sido clave para el excepcional rendimiento de los modelos Qwen3. Partiendo de GSPO como enfoque fundamental, los investigadores planean ampliar los métodos de RL, abriendo paso a avances revolucionarios en inteligencia artificial.

↗

fuente original

https://www.marktechpost.com/2025/08/07/alibaba-introduces-group-sequence-policy-optimization-gspo-an-efficient-reinforcement-learning-algorithm-that-powers-the-qwen3-models/

ver →

etiquetas:aprendizaje por refuerzo modelos de lenguaje estabilidad en entrenamiento algoritmos de rl modelos mixture-of-experts optimización a nivel de secuencia alibaba