El aprendizaje por refuerzo con recompensas verificables (RLVR) ha permitido que los grandes modelos de lenguaje (LLM) realicen razonamientos complejos en tareas con resultados claros y verificables, como en matemáticas y programación. Sin embargo, en muchos escenarios reales no existe una respuesta explícita que se pueda comprobar fácilmente, lo que dificulta entrenar estos modelos sin una señal de recompensa directa. Para abordar esta limitación, se usa actualmente el aprendizaje por refuerzo con retroalimentación humana (RLHF) basado en rankings de preferencias, donde se recopilan juicios humanos sobre pares o listas de respuestas generadas por el modelo. Aunque estos enfoques pueden mejorar el desempeño en etapas iniciales, suelen sobreajustarse a aspectos superficiales como la longitud de la respuesta, formato o sesgos de los anotadores, además de requerir un gran volumen de comparaciones, lo que los hace costosos y frágiles.
Recientemente, los métodos RLVR se han extendido más allá de las matemáticas y la programación. Por ejemplo, GENERAL-REASONER ha mostrado resultados sólidos en áreas como física, finanzas y políticas públicas, consiguiendo una mejora notable en el MMLU-Pro tras un afinamiento con GRPO. La evaluación mediante rúbricas se ha convertido en un estándar para LLM avanzados; por ejemplo, frameworks como HEALTHBENCH combinan criterios elaborados por clínicos con evaluadores automáticos para valorar aspectos como la factualidad, seguridad y empatía. Sin embargo, estas rúbricas se usan solo en la fase de evaluación, no durante el entrenamiento. Para ofrecer supervisión más detallada, algunos métodos aplican recompensas a pasos intermedios de razonamiento, basándose en etiquetas generadas por monte carlo tree search (MCTS) o modelos generativos de recompensa, como THINKPRM.
Un equipo de investigadores de Scale AI ha presentado Rubrics as Rewards (RaR), un marco de aprendizaje por refuerzo en línea que aprovecha rúbricas en formato de listas de verificación para guiar tareas con múltiples criterios. Este método genera rúbricas específicas para cada tipo de prompt, diseñadas bajo principios rigurosos que definen estándares claros para respuestas de alta calidad y ofrecen señales interpretables para la supervisión humana. RaR se ha aplicado en dominios de medicina y ciencia, creando dos conjuntos de datos especializados para entrenamiento: RaR-Medicine-20k y RaR-Science-20k. Gracias a esta estrategia, modelos evaluadores más pequeños pueden alinearse mejor con las preferencias humanas, transformando rúbricas en señales de recompensa estructuradas y manteniendo un rendimiento sólido en distintas escalas de modelo.
Para generar estas rúbricas, se utilizan LLM como expertos proxy, asegurando que cumplan con criterios como fundamentarse en guías de expertos, cobertura amplia, ponderación semántica y evaluación autónoma. En cada dominio, se elaboran entre 7 y 20 ítems por rúbrica, según la complejidad de la pregunta, y a cada ítem se le asignan pesos categóricos (por ejemplo, Criterios Esenciales o Importantes) para reflejar su relevancia. El entrenamiento se realiza con el algoritmo GRPO tomando como modelo base Qwen2.5-7B, y el proceso incluye tres componentes clave: generación de respuestas, cálculo de recompensas y actualización de la política.
La variante RaR-Implicit supera métodos base como Simple-Likert, logrando hasta un 28% de mejora relativa en HealthBench-1k y un 13% en GPQA. Además, supera tanto modelos base como modelos ajustados por instrucciones, mostrando la eficacia del entrenamiento guiado por rúbricas para evaluaciones más matizadas, y igualando o superando el desempeño de la referencia Likert. Más allá de las métricas cuantitativas, esta evaluación basada en rúbricas ofrece señales más claras y precisas en diferentes tamaños de modelo, con mejor exactitud cuando las respuestas preferidas reciben las calificaciones adecuadas. También se destaca la importancia de la guía experta para la generación sintética de rúbricas, ya que aquellas formuladas con respuestas de referencia alcanzan mayor precisión.
En resumen, RaR representa un avance en el entrenamiento posterior de modelos de lenguaje, utilizando rúbricas estructuradas tipo check-list como señales de recompensa. Esto aporta estabilidad en el entrenamiento, mantiene la interpretabilidad humana y mejora la alineación. No obstante, esta investigación se ha limitado a los ámbitos de medicina y ciencia, por lo que es necesario validar el enfoque en otras tareas, como diálogos abiertos. Tampoco se exploraron exhaustivamente otras estrategias de agregación de recompensa más allá de las variantes implícita y explícita, ni se analizaron riesgos asociados a la explotación de la función de recompensa. Además, al depender de LLM disponibles para la evaluación, futuras investigaciones podrían beneficiarse de evaluadores dedicados con mejores capacidades de razonamiento.



