Modelos de razonamiento con cadenas largas de pensamiento (long-CoT) han logrado resultados destacados en tareas matemáticas al generar secuencias de razonamiento que se verifican y refinan de forma iterativa. Sin embargo, los modelos open-source basados solo en razonamientos en lenguaje natural suelen ser muy costosos en cómputo y propensos a errores, ya que no cuentan con mecanismos efectivos de verificación. Por otro lado, los métodos que recurren a herramientas, como frameworks que incorporan intérpretes de código, mejoran la eficiencia y fiabilidad en cálculos numéricos complejos, aunque suelen tener dificultades para enfrentar razonamientos abstractos o de alta complejidad conceptual.
Un grupo de investigadores de la Universidad Carnegie Mellon ha propuesto DualDistill, un framework de destilación que combina trayectorias de razonamiento provenientes de dos maestros complementarios para entrenar un modelo estudiante unificado. En este caso, uno de los maestros se enfoca en razonamiento con lenguaje natural, y el otro está potenciado con herramientas para ejecutar código. Así nace Agentic-R1, un modelo que aprende a escoger dinámicamente la estrategia más adecuada según el tipo de problema: utiliza ejecución de código en tareas aritméticas o algorítmicas y aplica razonamiento en lenguaje natural para problemas más abstractos.
DualDistill realiza una composición de trayectorias para fusionar el conocimiento de ambos tipos de maestros, seguido de un proceso de auto-destilación. Para este estudio, usaron OpenHands como el maestro con capacidades de razonamiento agentic y DeepSeek-R1 como maestro basado en razonamiento textual.
Para evaluar este enfoque, lo probaron en varios benchmarks matemáticos como DeepMath-L y Combinatorics300, comparándolo con modelos base como DeepSeek-R1-Distill y Qwen-2.5-Instruct. Agentic-R1 logró mejoras significativas, superando a modelos similares especializados exclusivamente en razonamiento o en uso de herramientas. Este modelo demuestra ser eficiente, aplicando razonamiento natural cuando conviene, y ejecutando código cuando es necesario, lo que le permite optimizar tanto precisión como recursos computacionales en diversas tareas matemáticas.
Además, análisis cualitativos revelaron que Agentic-R1 maneja de forma inteligente el uso de herramientas. Por ejemplo, activa la ejecución de código en un 79.2% de los problemas más demandantes de Combinatorics300, pero reduce esta activación a un 52.0% en problemas más sencillos del conjunto AMC. Lo notable es que el modelo aprende esta gestión mediante afinamiento supervisado, sin necesidad de instrucciones explícitas, equilibrando así eficiencia y precisión.
El método también mostró robustez frente a maestros imperfectos. Aunque el maestro agentic alcanzó solo un 48.4% de exactitud en Combinatorics300, Agentic-R1 mejoró su propia precisión del 44.7% al 50.9%, superando incluso a su maestro.
En resumen, DualDistill combina exitosamente la fortaleza del razonamiento en lenguaje natural con la eficacia del uso de herramientas mediante la destilación de dos modelos expertos en un único modelo versátil. Gracias a la composición de trayectorias y la auto-destilación, Agentic-R1 aprende a seleccionar dinámicamente la estrategia óptima para cada problema, logrando un equilibrio entre precisión y eficiencia computacional. Las evaluaciones demuestran que supera tanto a modelos exclusivamente de razonamiento como a los basados solo en herramientas, incluso cuando aprende de maestros que no son perfectos. Este trabajo abre camino a agentes de IA adaptables capaces de integrar diversas estrategias para resolver problemas de forma más sólida y eficaz.



