NVIDIA ha presentado la familia Nemotron Nano 2, una nueva línea de modelos híbridos que combinan arquitectura Mamba y Transformer para grandes modelos de lenguaje. Estos modelos no solo alcanzan una precisión de vanguardia en tareas de razonamiento, sino que también ofrecen hasta seis veces más velocidad en la generación de texto en comparación con otros modelos de tamaño similar. Además, NVIDIA destaca por su transparencia, al compartir gran parte de los datos utilizados para el entrenamiento, las recetas y los puntos de control de los modelos con la comunidad.

Una de las características más sorprendentes es su capacidad para manejar contextos extremadamente largos, de hasta 128.000 tokens, con una sola GPU de gama media, lo que facilita su uso en tareas que requieren análisis extensos y mejora considerablemente su aplicabilidad práctica.

Entre los puntos clave: - Los modelos Nemotron Nano 2 generan texto hasta 6,3 veces más rápido que modelos comparables, sin perder precisión. - Superan o igualan a otros modelos abiertos en pruebas de razonamiento, programación, uso de herramientas y manejo de múltiples idiomas, destacando especialmente en matemáticas y tareas con contextos largos. - Su arquitectura híbrida combina capas Mamba-2, que priorizan eficiencia y capacidad para mantener dependencias a largo plazo, con capas de autoatención en solo un 8% del total. - Gracias a un diseño eficiente, es posible ejecutar inferencias con contextos de 128.000 tokens en una GPU NVIDIA A10G con 22 GB de memoria. - NVIDIA libera gran parte de los conjuntos de datos empleados para preentrenamiento y ajuste fino, incluyendo información para matemáticas, código, idiomas y razonamiento, con licencias permisivas disponibles en Hugging Face.

El modelo principal de 9.000 millones de parámetros cuenta con 56 capas activas y un tamaño oculto de 4480, empleando atención agrupada en consultas y capas Mamba-2 que contribuyen tanto a la escalabilidad como al manejo de secuencias extensas. Esta arquitectura permite un rendimiento destacado en tareas que requieren “trazas de pensamiento”, es decir, generación prolongada basada en entradas muy extensas, donde los transformers tradicionales suelen ralentizarse o quedarse sin memoria.

El entrenamiento se basa en un modelo maestro de 12.000 millones de parámetros y utiliza un corpus masivo y diverso de más de 20 billones de tokens, que abarca múltiples áreas como matemáticas, programación, idiomas y STEM. Algunos de los conjuntos de datos principales publicados son: - Nemotron-CC-v2: datos multilingües con contenido web en 15 idiomas, preguntas y respuestas sintéticas y deduplicación. - Nemotron-CC-Math: más de 133 mil millones de tokens centrados en matemáticas, normalizados en LaTeX. - Nemotron-Pretraining-Code: código fuente depurado y filtrado de GitHub. - Nemotron-Pretraining-SFT: conjuntos sintéticos de instrucciones para STEM, razonamiento y otras áreas generales.

Además, se han compartido datos de ajuste fino supervisado por millones de tokens, optimizaciones de aprendizaje por refuerzo y conjuntos multilingües.

El proceso de optimización y compresión del modelo utiliza herramientas propias de NVIDIA llamadas Minitron y Mamba para reducir la complejidad manteniendo el rendimiento. Esto incluye destilación del conocimiento desde el modelo maestro, poda cuidadosa de capas y parámetros, y técnicas para controlar el presupuesto de tokens en inferencias, logrando una combinación eficiente de velocidad y capacidad de manejo de contextos largos.

En comparativas directas, Nemotron Nano 2 muestra un rendimiento superior en pruebas de razonamiento, matemáticas, programación y manejo multilingüe, además de mantener una velocidad de generación seis veces mayor en escenarios complejos de entrada y salida. Todo esto con la ventaja de poder usar contextos de hasta 128.000 tokens en GPUs accesibles para muchos usuarios.

En resumen, Nemotron Nano 2 representa un avance significativo para la comunidad de modelos de lenguaje abiertos, al permitir un rendimiento elevado y un manejo de contextos muy extensos en hardware relativamente asequible, todo mientras se promueve la transparencia y reproducibilidad mediante el acceso abierto a datos y modelos. Esta iniciativa promete impulsar la innovación en el ecosistema de inteligencia artificial.

↗

fuente original

https://www.marktechpost.com/2025/08/19/nvidia-ai-releases-nemotron-nano-2-ai-models-a-production-ready-enterprise-ai-model-family-and-6x-faster-than-similar-sized-model/

ver →

etiquetas:modelos de lenguaje ia nvidia modelos híbridos procesamiento de lenguaje natural aplicaciones en matemáticas y programación modelos abiertos