NVIDIA lanza Nemotron Nano 2: LLM híbridos con 6x mayor rendimiento de inferencia

NVIDIA lanza Nemotron Nano 2, modelos híbridos Mamba-Transformer con 9B parámetros que alcanzan precisión top y generan texto 6x más rápido. Soportan contextos de 128K tokens en GPUs medias y liberan datos y checkpoints para impulsar IA abierta. https://tinyurl.com/z6j9wpvu

M
MIIA
editorial
19 de agosto de 2025·4 min de lectura
NVIDIA lanza Nemotron Nano 2: LLM híbridos con 6x mayor rendimiento de inferencia

NVIDIA ha presentado la familia Nemotron Nano 2, una nueva línea de modelos híbridos que combinan arquitectura Mamba y Transformer para grandes modelos de lenguaje. Estos modelos no solo alcanzan una precisión de vanguardia en tareas de razonamiento, sino que también ofrecen hasta seis veces más velocidad en la generación de texto en comparación con otros modelos de tamaño similar. Además, NVIDIA destaca por su transparencia, al compartir gran parte de los datos utilizados para el entrenamiento, las recetas y los puntos de control de los modelos con la comunidad.

Una de las características más sorprendentes es su capacidad para manejar contextos extremadamente largos, de hasta 128.000 tokens, con una sola GPU de gama media, lo que facilita su uso en tareas que requieren análisis extensos y mejora considerablemente su aplicabilidad práctica.

Entre los puntos clave: - Los modelos Nemotron Nano 2 generan texto hasta 6,3 veces más rápido que modelos comparables, sin perder precisión. - Superan o igualan a otros modelos abiertos en pruebas de razonamiento, programación, uso de herramientas y manejo de múltiples idiomas, destacando especialmente en matemáticas y tareas con contextos largos. - Su arquitectura híbrida combina capas Mamba-2, que priorizan eficiencia y capacidad para mantener dependencias a largo plazo, con capas de autoatención en solo un 8% del total. - Gracias a un diseño eficiente, es posible ejecutar inferencias con contextos de 128.000 tokens en una GPU NVIDIA A10G con 22 GB de memoria. - NVIDIA libera gran parte de los conjuntos de datos empleados para preentrenamiento y ajuste fino, incluyendo información para matemáticas, código, idiomas y razonamiento, con licencias permisivas disponibles en Hugging Face.

El modelo principal de 9.000 millones de parámetros cuenta con 56 capas activas y un tamaño oculto de 4480, empleando atención agrupada en consultas y capas Mamba-2 que contribuyen tanto a la escalabilidad como al manejo de secuencias extensas. Esta arquitectura permite un rendimiento destacado en tareas que requieren “trazas de pensamiento”, es decir, generación prolongada basada en entradas muy extensas, donde los transformers tradicionales suelen ralentizarse o quedarse sin memoria.

El entrenamiento se basa en un modelo maestro de 12.000 millones de parámetros y utiliza un corpus masivo y diverso de más de 20 billones de tokens, que abarca múltiples áreas como matemáticas, programación, idiomas y STEM. Algunos de los conjuntos de datos principales publicados son: - Nemotron-CC-v2: datos multilingües con contenido web en 15 idiomas, preguntas y respuestas sintéticas y deduplicación. - Nemotron-CC-Math: más de 133 mil millones de tokens centrados en matemáticas, normalizados en LaTeX. - Nemotron-Pretraining-Code: código fuente depurado y filtrado de GitHub. - Nemotron-Pretraining-SFT: conjuntos sintéticos de instrucciones para STEM, razonamiento y otras áreas generales.

Además, se han compartido datos de ajuste fino supervisado por millones de tokens, optimizaciones de aprendizaje por refuerzo y conjuntos multilingües.

El proceso de optimización y compresión del modelo utiliza herramientas propias de NVIDIA llamadas Minitron y Mamba para reducir la complejidad manteniendo el rendimiento. Esto incluye destilación del conocimiento desde el modelo maestro, poda cuidadosa de capas y parámetros, y técnicas para controlar el presupuesto de tokens en inferencias, logrando una combinación eficiente de velocidad y capacidad de manejo de contextos largos.

En comparativas directas, Nemotron Nano 2 muestra un rendimiento superior en pruebas de razonamiento, matemáticas, programación y manejo multilingüe, además de mantener una velocidad de generación seis veces mayor en escenarios complejos de entrada y salida. Todo esto con la ventaja de poder usar contextos de hasta 128.000 tokens en GPUs accesibles para muchos usuarios.

En resumen, Nemotron Nano 2 representa un avance significativo para la comunidad de modelos de lenguaje abiertos, al permitir un rendimiento elevado y un manejo de contextos muy extensos en hardware relativamente asequible, todo mientras se promueve la transparencia y reproducibilidad mediante el acceso abierto a datos y modelos. Esta iniciativa promete impulsar la innovación en el ecosistema de inteligencia artificial.

fuente original
https://www.marktechpost.com/2025/08/19/nvidia-ai-releases-nemotron-nano-2-ai-models-a-production-ready-enterprise-ai-model-family-and-6x-faster-than-similar-sized-model/
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #modelos de lenguaje · #ia · #nvidia
Prueba MIIA gratis →
WhatsApp