ProRLv2 es la versión más reciente de Prolonged Reinforcement Learning (ProRL) de NVIDIA, creada para mejorar el razonamiento en grandes modelos de lenguaje (LLMs). Esta actualización amplía las etapas de entrenamiento con refuerzo de 2,000 a 3,000 pasos, explorando cómo un aprendizaje prolongado puede abrir nuevas posibilidades para la creatividad y el razonamiento avanzado, incluso en modelos relativamente pequeños como Nemotron-Research-Reasoning-Qwen-1.5B-v2, que cuenta con 1.5 mil millones de parámetros.
Entre sus principales innovaciones, ProRLv2 introduce varias mejoras para superar las limitaciones habituales del aprendizaje por refuerzo en LLMs. Entre ellas destacan REINFORCE++-Baseline, un algoritmo que facilita la optimización en entrenamientos largos y ayuda a manejar la inestabilidad típica de este tipo de aprendizaje. También incorpora una regulación mediante divergencia KL y una actualización periódica del modelo de referencia, lo que estabiliza el progreso y permite una exploración continua. Además, emplea un sistema de recorte desacoplado y muestreo dinámico (DAPO) que incentiva la diversidad en las soluciones al resaltar tokens improbables y enfocarse en ejemplos de dificultad media. Para evitar que el modelo pierda diversidad a medida que avanza el entrenamiento, aplica un castigo cíclico a la longitud de las respuestas. Finalmente, la extensión del entrenamiento a 3,000 pasos permite poner a prueba hasta dónde se puede expandir el razonamiento.
Al entrenar Nemotron-Research-Reasoning-Qwen-1.5B-v2 con ProRLv2 durante 3,000 pasos, se logra un desempeño superior en tareas de razonamiento como matemáticas, programación, ciencia y lógica, superando versiones anteriores y otros modelos similares, como DeepSeek-R1-1.5B. Este progreso no solo mejora la precisión en pruebas conocidas, sino que también potencia la capacidad del modelo para generalizar y encontrar nuevas estrategias de resolución en tareas no vistas durante el entrenamiento. Por ejemplo, se registraron mejoras promedio en la precisión pass@1 de un 14.7% en matemáticas, 13.9% en programación, 54.8% en acertijos de lógica, 25.1% en razonamiento STEM y 18.1% en tareas de comprensión de instrucciones, con avances aún mayores en benchmarks más difíciles y modelos de la versión 2.
La importancia de ProRLv2 radica en demostrar que extender el entrenamiento con refuerzo, junto con técnicas de regularización y exploración cuidadosas, amplía claramente las capacidades de los modelos de lenguaje para aprender y generalizar. En lugar de alcanzar un límite temprano o sobreajustarse, este enfoque permite que modelos más pequeños alcancen niveles de razonamiento comparables a otros mucho más grandes, mostrando que escalar el aprendizaje por refuerzo es tan crucial como aumentar el tamaño del modelo o del conjunto de datos.
El modelo Nemotron-Research-Reasoning-Qwen-1.5B-v2 está disponible para pruebas en Hugging Face. Para cargarlo, se puede usar el siguiente código:
```python from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B") model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B") ```
En resumen, ProRLv2 redefine los límites del razonamiento en los modelos de lenguaje al demostrar que ampliar el aprendizaje por refuerzo es tan importante como aumentar la arquitectura o los datos. Gracias a una regularización avanzada y un plan de entrenamiento inteligente, es posible lograr un razonamiento profundo, creativo y generalizable incluso en modelos compactos. El futuro del desarrollo de LLMs dependerá tanto del alcance del aprendizaje por refuerzo como del crecimiento en tamaño de los modelos.


