Nvidia ha dado un gran paso en el desarrollo de inteligencia artificial para el reconocimiento y traducción de voz multilingüe con el lanzamiento de Granary, el conjunto de datos de voz en código abierto más grande para idiomas europeos, junto con dos modelos de última generación: Canary-1b-v2 y Parakeet-tdt-0.6b-v3. Esta iniciativa representa un importante avance para ofrecer recursos accesibles y de alta calidad en reconocimiento automático del habla (ASR) y traducción automática de voz (AST), especialmente para idiomas europeos con poca representación.

Granary, la base para la IA multilingüe de voz, es un corpus masivo desarrollado en colaboración con la Universidad Carnegie Mellon y la Fundación Bruno Kessler. Cuenta con alrededor de un millón de horas de audio, distribuidas en 650,000 para reconocimiento de voz y 350,000 para traducción. Este conjunto cubre 25 idiomas europeos, incluyendo casi todos los oficiales de la Unión Europea, además del ruso y el ucraniano, poniendo especial atención en lenguas con poca información anotada, como croata, estonio y maltés.

Entre sus características destacan:

- El dataset abierto más grande para 25 idiomas europeos. - Un sistema de pseudo-etiquetado que procesa datos de audio públicos no anotados con la tecnología Nvidia NeMo, creando estructura y mejorando la calidad sin dependencia de anotaciones manuales costosas. - Soporte tanto para tareas de reconocimiento de voz como de traducción. - Acceso abierto para la comunidad global, ideal para entrenar modelos a escala de producción.

Gracias a la calidad y limpieza de los datos, Granary permite entrenar modelos más rápido y con menos datos. Las pruebas muestran que se necesita solo la mitad de la cantidad de datos en Granary para alcanzar niveles de precisión similares a otros conjuntos, lo cual es crucial para idiomas con recursos limitados y para probar prototipos de forma ágil.

Por su parte, Canary-1b-v2 es un modelo de mil millones de parámetros con arquitectura Encoder-Decoder, entrenado con Granary. Ofrece transcripciones y traducciones de alta calidad entre inglés y 24 idiomas europeos, ampliando la cobertura de la versión anterior (que solo abarcaba cuatro). Destaca por su precisión, su capacidad multitarea (ASR y AST), velocidad de inferencia hasta 10 veces superior a modelos mucho mayores, y funciones como puntuación automática, mayúsculas, marcas temporales detalladas y traducción sincronizada con timestamps.

Detalles técnicos:

- Usa un codificador FastConformer y un decodificador Transformer, con un vocabulario unificado gestionado por SentencePiece. - Mantiene un rendimiento sólido incluso con ruido y evita errores de generación irreales. - Tasas de error en reconocimiento de voz (WER) de 7.15% en AMI y 10.82% en LibriSpeech Clean. - Puntuaciones COMET de 79.3 para traducción a inglés y 84.56 para inglés hacia otros idiomas. - Disponible bajo licencia abierta CC BY 4.0 y optimizado para sistemas con aceleración GPU de Nvidia, facilitando su uso en producción.

El modelo Parakeet-tdt-0.6b-v3, con 600 millones de parámetros, está diseñado para transcripciones en tiempo real y manejo de grandes volúmenes de audio en los mismos 25 idiomas. Incluye detección automática del idioma sin necesidad de indicaciones previas, puede procesar segmentos de hasta 24 minutos en una sola pasada y brinda salidas rápidas, precisas y con puntuación, mayúsculas y marcas temporales a nivel de palabra. Además, es resistente ante contenidos complejos como números o letras de canciones y condiciones acústicas adversas.

Esta suite de datos y modelos de Nvidia impulsa la democratización de la IA en voz para Europa, facilitando el desarrollo escalable de aplicaciones como chatbots multilingües, agentes de atención al cliente por voz y servicios de traducción casi en tiempo real. Investigadores, desarrolladores y empresas ahora cuentan con herramientas abiertas y de alta calidad para crear soluciones inclusivas que respeten la diversidad lingüística.

Nvidia comparte estos recursos para que la comunidad global pueda usarlos y seguir innovando en el campo de la inteligencia artificial de voz para múltiples idiomas europeos.

↗

fuente original

https://www.marktechpost.com/2025/08/15/nvidia-ai-just-released-the-largest-open-source-speech-ai-dataset-and-state-of-the-art-models-for-european-languages/

ver →

etiquetas:nvidia inteligencia artificial reconocimiento y traducción de voz conjunto de datos abierto modelos de lenguaje multilingüismo europa