Artículo destacado
OpenReasoning-Nemotron: LLMs optimizados para razonamiento complejo en IA
Escrito por
MIIA
Publicado
20 de julio de 2025
Lectura
4 min
NVIDIA AI acaba de presentar OpenReasoning-Nemotron, una nueva familia de modelos de lenguaje grandes (LLMs) diseñados para destacar en tareas complejas de razonamiento en áreas como matemáticas, ciencia y programación. Esta serie incluye versiones con 1.5B, 7B, 14B y 32B parámetros, que han sido destiladas a partir del modelo DeepSeek R1 0528, mucho más grande, con 671B parámetros. Gracias a esta destilación, logran capturar las habilidades avanzadas de razonamiento del modelo original en versiones mucho más pequeñas y eficientes.
Esta iniciativa posiciona a NVIDIA como uno de los principales aportantes dentro del ecosistema open source de modelos de lenguaje, ofreciendo soluciones que alcanzan un rendimiento de vanguardia y, además, cuentan con licencias comerciales permisivas para su uso generalizado a través de Hugging Face.
El núcleo de OpenReasoning-Nemotron es una estrategia de destilación que transfiere la capacidad de razonamiento del DeepSeek R1 a modelos más compactos. A diferencia de otras técnicas enfocadas solo en predecir tokens, aquí el objetivo principal es preservar la capacidad de razonamiento generalizado, lo que permite que estos modelos manejan con eficacia tareas complejas y estructuradas que requieren un alto nivel cognitivo. La selección de datos para entrenar está centrada en matemáticas, ciencia y lenguajes de programación, alineando así el modelo con las áreas clave donde se exige razonamiento.
Los diferentes tamaños y usos de los modelos son:
- OpenReasoning-Nemotron-1.5B: orientado a razonamiento e inferencia en nivel básico.
- OpenReasoning-Nemotron-7B: ideal para razonamiento intermedio, útil en código y matemáticas.
- OpenReasoning-Nemotron-14B: ofrece capacidades avanzadas de razonamiento.
- OpenReasoning-Nemotron-32B: se acerca al rendimiento de los modelos de frontera en tareas que demandan alta lógica.
Todos estos modelos son compatibles con arquitecturas transformer, soportan cuantización FP16 e INT8, y están optimizados para GPUs NVIDIA y el framework NeMo.
En cuanto a su desempeño, establecen nuevos estándares en varias pruebas de razonamiento para su categoría. Por ejemplo, en benchmarks como GPQA, MMLU-PRO, LiveCodeBench o competiciones de matemáticas como AIME y HMMT, estos modelos alcanzan puntajes destacados. Además, al usar un modo llamado GenSelect, que evalúa 64 opciones generativas, el rendimiento mejora aún más, especialmente en el modelo de 32B parámetros, que logra subir significativamente sus resultados en las pruebas más exigentes.
La base de datos para entrenar estos modelos proviene de una cuidadosa selección y destilación del conjunto original de DeepSeek R1 0528, con énfasis en tripas de razonamiento lógico, cadenas de pensamiento en múltiples pasos y razonamiento simbólico. Todo ello asegura una fuerte alineación con problemas reales que se encuentran en campos académicos y aplicaciones prácticas dentro del aprendizaje automático.
Además, los cuatro modelos están disponibles bajo una licencia abierta y permisiva para usos comerciales, con acceso a las tarjetas de modelo, scripts de evaluación y pesos listos para inferencia a través de Hugging Face. Son fácilmente integrables con la suite NeMo de NVIDIA y compatibles con herramientas como TensorRT-LLM, ONNX y el ecosistema Transformers de Hugging Face, facilitando su despliegue tanto en investigación como en entornos productivos.
Entre los casos de uso más destacados se encuentran tutores de matemáticas, agentes de preguntas y respuestas científicas, sistemas de razonamiento médico, asistentes para generación y depuración de código, soluciones para responder preguntas que requieren razonamiento en múltiples etapas, y generación de datos sintéticos en dominios estructurados.
En resumen, OpenReasoning-Nemotron representa una vía abierta y eficiente para escalar la capacidad de razonamiento en modelos de lenguaje sin necesidad de contar con costosos recursos de cómputo a escala de frontera. Gracias a la destilación del enorme DeepSeek R1 y su enfoque en dominios clave, estos modelos ofrecen un equilibrio ideal entre precisión, eficiencia y accesibilidad. Son una base sólida para desarrolladores, investigadores y empresas que buscan enfrentar desafíos de IA centrados en lógica intensiva, sin los inconvenientes típicos de modelos propietarios o demasiado generalistas.
Preguntas frecuentes:
- ¿Qué benchmarks están soportados? GPQA, MMLU-PRO, HLE, LiveCodeBench, SciCode, AIME 2024/25 y HMMT febrero 2025.
- ¿Cuánto datos se usaron? Se trabajó con un corpus de destilación de 5 millones de ejemplos de razonamiento en distintos dominios, generado por DeepSeek-R1-0528.
- ¿Usan aprendizaje por refuerzo? No, solo entrenamiento supervisado fino (SFT), lo que mantiene eficiencia y abre la puerta a futuras investigaciones con RL.
- ¿Se puede mejorar el razonamiento con GenSelect? Sí, por ejemplo, el modelo 32B aumenta su puntuación en HMMT de 73.8 a 96.7 usando GenSelect con 64 candidatos.
Este conjunto de modelos representa un avance importante para la comunidad de IA, con un compromiso claro hacia la apertura, la eficiencia y la especialización en razonamiento.