Los grandes modelos de lenguaje suelen mejorarse tras su preentrenamiento mediante dos técnicas principales: el afinamiento supervisado (SFT) y el afinamiento por refuerzo (RFT), cada una con sus ventajas y limitaciones. El SFT es eficaz para enseñar a los modelos a seguir instrucciones al basarse en ejemplos, pero puede hacer que el comportamiento sea demasiado rígido y que no generalicen bien. Por otro lado, el RFT optimiza el modelo para alcanzar el éxito en tareas mediante señales de recompensa, lo que puede mejorar el desempeño, aunque también puede generar inestabilidad y depender fuertemente de una política inicial sólida. Aunque estas técnicas suelen aplicarse de forma secuencial, aún no se comprende bien cómo interactúan entre sí. Esto plantea una pregunta importante: ¿cómo diseñar un marco unificado que combine la estructura del SFT con el aprendizaje orientado a objetivos del RFT?
En los últimos tiempos, ha crecido el interés en el cruce entre el aprendizaje por refuerzo y el postentrenamiento de grandes modelos de lenguaje, especialmente para entrenar modelos capaces de razonar. El aprendizaje por refuerzo offline, que aprende a partir de conjuntos de datos fijos, a menudo genera políticas subóptimas debido a la limitada diversidad de la información. Por eso, se busca combinar métodos offline y online para mejorar los resultados. En los modelos de lenguaje, la estrategia dominante es aplicar primero SFT para enseñar comportamientos deseados y luego usar RFT para optimizar los resultados. Sin embargo, las dinámicas entre SFT y RFT todavía no están claras, y hallar formas efectivas de integrarlos sigue siendo un desafío abierto.
Un grupo de investigadores de universidades como la de Edimburgo, Fudan, Ámsterdam, además de empresas como Alibaba y Stepfun, propone un marco unificado llamado Prefix-RFT que combina ambos tipos de afinamiento. Esta técnica utiliza demostraciones parciales para guiar la exploración, permitiendo que el modelo continúe generando soluciones con flexibilidad y adaptabilidad. Probado en tareas de razonamiento matemático, Prefix-RFT supera consistentemente a SFT, RFT y otros métodos híbridos. Además, se integra fácilmente en marcos existentes y muestra robustez frente a variaciones en la calidad y cantidad de las demostraciones. La combinación de aprendizaje guiado por ejemplos y exploración puede llevar a entrenamientos más efectivos y adaptativos para grandes modelos de lenguaje.
Prefix-RFT fusiona las fortalezas de SFT y RFT al usar una demostración parcial (un prefijo) para guiar la generación del resto de la solución. Así, mantiene la estabilidad que ofrece el seguimiento de ejemplos de expertos, mientras fomenta la exploración propia gracias a las señales de recompensa, sin depender en exceso del control total supervisionado. Emplea técnicas como el recorte basado en entropía y un programador de decaimiento cosenoidal para garantizar un entrenamiento estable y eficiente. Comparado con métodos previos, Prefix-RFT ofrece una estrategia de afinamiento más equilibrada y adaptable.
Este método de afinamiento por recompensa se ha probado con conjuntos de datos matemáticos de alta calidad, como OpenR1-Math-220K, que contiene 46 mil problemas filtrados. Fue evaluado en modelos Qwen2.5-Math-7B, 1.5B y LLaMA-3.1-8B, usando benchmarks como AIME 2024/25, AMC, MATH500, Minerva y OlympiadBench. En todos, Prefix-RFT logró los mejores puntajes promedio y pasadas en la primera prueba (pass@1), superando a RFT, SFT, ReLIFT y LUFFY. Utilizando el algoritmo Dr. GRPO, solo actualizó el 20% de los tokens con mayor entropía en el prefijo, y la longitud del prefijo fue disminuyendo del 95% al 5%. Mantuvo una pérdida intermedia de SFT, señal de un buen equilibrio entre imitación y exploración, especialmente en problemas difíciles.
En resumen, Prefix-RFT aprovecha demostraciones parciales para guiar el aprendizaje, combinando lo mejor del SFT y el RFT. A pesar de su simplicidad, supera consistentemente a SFT, RFT y a métodos híbridos en diversos modelos y conjuntos de datos. Incluso usando solo el 1% del total de datos de entrenamiento (450 indicaciones), mantiene un rendimiento alto, con una caída mínima en el promedio. Su estrategia de actualización basada en entropía del 20% de los tokens es la más efectiva, alcanzando los mayores puntajes en los benchmarks y generando respuestas más cortas. Además, el uso de un programador con decaimiento cosenoidal para la longitud del prefijo mejora la estabilidad y dinámica de aprendizaje frente a estrategias uniformes, sobre todo en tareas complejas como AIME.
Esta propuesta abre la puerta a entrenamientos más adaptativos y balanceados para grandes modelos de lenguaje, combinando la solidez de la imitación con la flexibilidad de la exploración.



