El ajuste fino supervisado (SFT) es una técnica común para adaptar los modelos de lenguaje grande (LLMs) a nuevas tareas entrenándolos con conjuntos de datos de demostraciones expertas. Su principal ventaja es la simplicidad y la rapidez para desarrollar comportamientos similares a los de un experto, aunque suele quedar detrás del aprendizaje por refuerzo (RL) en cuanto a capacidad de generalización. El aprendizaje por refuerzo permite que los modelos exploren diferentes estrategias, lo que mejora su generalización, pero requiere mucho poder computacional, ajustes cuidadosos de hiperparámetros y acceso a señales de recompensa, lo cual no siempre es viable. Existen métodos híbridos que combinan SFT y RL, pero sigue siendo una cuestión abierta si el propio SFT puede mejorarse de forma fundamental, sobre todo cuando no se cuenta con ejemplos negativos o modelos de recompensa.
Diversos intentos por superar las limitaciones del SFT y RL han dado lugar a varias técnicas mixtas. Una estrategia común es iniciar con un SFT y luego refinar con RL, como sucede en InstructGPT. También hay métodos que alternan pasos de SFT y RL o que combinan señales de imitación y refuerzo de manera más eficiente, como la Optimización Directa de Preferencias (DPO). Otras técnicas como el Ajuste Fino Consciente de Negativos (NFT) ayudan al modelo a autoregistrarse mejorando al aprender de salidas incorrectas. Desde el punto de vista teórico, se ha intentado entender SFT como un RL implícito o ponderado por recompensas, pero aún no existe una equivalencia matemática precisa entre SFT y los gradientes de políticas offline en RL.
Un grupo de investigadores de distintas universidades en China, Estados Unidos, Singapur y otros países, ha propuesto Dynamic Fine-Tuning (DFT), un método que busca superar la limitada capacidad de generalización del SFT en LLMs. Tras un análisis matemático, identificaron que los gradientes usados en SFT estándar incorporan una estructura de recompensa imperfecta que restringe el desempeño en generalización. DFT corrige esto estabilizando las actualizaciones de gradiente mediante un reescalado dinámico de la función objetivo, basado en la probabilidad de cada token. Esta mejora se traduce en un mejor desempeño general en varios modelos y bancos de prueba. Además, DFT resulta competitivo incluso en escenarios de RL offline, presentándose como una alternativa más sencilla frente a los métodos clásicos de RL.
DFT fue evaluado en un escenario típico de SFT, donde solo hay datos de demostraciones expertas, sin muestras negativas ni modelos o señales de recompensa. Para ello, se usó el conjunto NuminaMath CoT, que contiene 860,000 problemas y soluciones matemáticas provenientes de ejercicios de secundaria en China y olimpiadas matemáticas internacionales. En un escenario de RL offline, DFT se probó con el marco de ajuste fino basado en muestreo de rechazo (RFT). Aquí se generaron respuestas para 10,000 preguntas matemáticas, verificándose y conservándose únicamente aquellas correctas, resultando en 140,000 ejemplos de entrenamiento. También se crearon pares de preferencias positivas y negativas para el entrenamiento de DPO a partir de las respuestas generadas.
En las pruebas de SFT, DFT superó al ajuste fino supervisado estándar en todos los modelos evaluados, mostrando mejor generalización y robustez especialmente en benchmarks complejos donde el SFT convencional tiene poca o incluso negativa influencia. También aprendió con mayor eficiencia y rapidez, y superó al SFT ponderado por importancia (iw-SFT) en la mayoría de los casos. En el entorno de RL offline, DFT superó tanto a los métodos offline como a los online. Alcanzó un puntaje promedio de 35.43, superando al mejor método offline, RFT, por 11.46 puntos y al algoritmo online más fuerte, GRPO, por 3.43 puntos. Además, logró 64.71 en Math500, ligeramente mejor que GRPO, y obtuvo mejoras significativas en tareas más difíciles como AMC23 (+7.19 sobre GRPO) y Minerva Math (+6.23 sobre GRPO).
Este trabajo aborda la brecha de generalización entre SFT y RL introduciendo Dynamic Fine-Tuning (DFT), un método simple pero potente que ajusta dinámicamente el peso de la pérdida de SFT en función de la probabilidad de los tokens. Esta sencilla modificación estabiliza el aprendizaje y mejora la capacidad de generalización, como demuestran los avances en pruebas de razonamiento matemático. Sin embargo, las evaluaciones actuales de DFT están limitadas a conjuntos matemáticos y modelos con hasta 7 mil millones de parámetros, sin pruebas en otros dominios ni con modelos más grandes. También, el estudio se ha enfocado exclusivamente en texto, por lo que el equipo apunta a extender DFT a conjuntos más amplios, modelos mayores y tareas que involucren visión y lenguaje para validar su eficacia multimodal.



