NVIDIA acaba de presentar Canary-Qwen-2.5B, un innovador modelo híbrido que combina reconocimiento automático de voz (ASR) y modelos de lenguaje (LLM), y que ya lidera el ranking OpenASR de Hugging Face con un récord de tasa de error de palabras (WER) del 5.63%. Este modelo, disponible bajo licencia CC-BY, es de código abierto y permite usos comerciales, impulsando así soluciones de inteligencia artificial de voz listas para empresas sin restricciones en su uso. La gran novedad radica en su arquitectura unificada, que integra transcripción y comprensión del lenguaje en un solo sistema, facilitando tareas posteriores como resumir contenidos o responder preguntas directamente desde el audio.
Entre sus principales características destacan: - WER de 5.63%, el más bajo en el ranking OpenASR de Hugging Face. - RTFx de 418, que indica una velocidad de inferencia muy alta para un modelo con 2.5 mil millones de parámetros. - Funciona tanto en modo ASR como LLM, permitiendo flujos de trabajo de transcribir y luego analizar. - Licencia comercial abierta (CC-BY), ideal para implementaciones empresariales. - Código abierto mediante NeMo, lo que permite personalizarlo y ampliarlo para investigación y producción.
La clave de Canary-Qwen-2.5B está en su arquitectura híbrida. En lugar de separar la transcripción del procesamiento posterior, este modelo combina ambas funciones: - Un codificador FastConformer que procesa el audio de forma rápida y precisa para transcribirlo. - Un decodificador Qwen3-1.7B, un modelo de lenguaje grande preentrenado que recibe las transcripciones a través de adaptadores. Estos adaptadores facilitan la modularidad: se puede usar solo el codificador para ASR o el decodificador para tareas de texto, lo que aporta flexibilidad multimodal, enfocada tanto en entrada hablada como escrita.
En cuanto a rendimiento, consigue un WER récord del 5.63%, superando modelos más grandes y previos en la plataforma. Además, su RTFx de 418 significa que es capaz de procesar el audio 418 veces más rápido que en tiempo real, lo que es crucial para aplicaciones que requieren baja latencia, como la transcripción masiva o subtitulado en vivo.
El entrenamiento se realizó con 234,000 horas de audio en inglés, abarcando distintos acentos, estilos y contextos, lo que le da un gran margen de generalización frente a ruidos o variedad en la conversación. Se utilizó el framework NeMo de NVIDIA, con recetas abiertas para que la comunidad pueda adaptar o experimentar cambiando codificadores o decodificadores sin necesidad de entrenar todo desde cero.
Este modelo está optimizado para funcionar en diversas GPUs de NVIDIA, desde las de centros de datos como A100 y H100, hasta tarjetas para estaciones de trabajo y consumidores, incluyendo series como RTX 5090. Esto lo hace apto tanto para despliegues en la nube como para procesos en dispositivos locales o en el borde.
Al estar disponible bajo una licencia comercial abierta, Canary-Qwen-2.5B abre la puerta a múltiples usos empresariales, tales como servicios de transcripción, extracción de conocimiento desde audio, resúmenes de reuniones en tiempo real, agentes de inteligencia artificial controlados por voz o generación de documentación en áreas reguladas como salud, legal o finanzas. Su decodificación que incorpora modelos de lenguaje mejora también la puntuación, mayúsculas y contexto, aspectos que suelen ser débiles en sistemas convencionales de ASR y que son críticos para evitar errores costosos.
El lanzamiento público del código y la receta de entrenamiento busca fomentar el avance colaborativo en inteligencia artificial de voz, permitiendo combinar distintos codificadores o LLM compatibles con NeMo para adaptar el sistema a nuevos idiomas o dominios. Este modelo marca un precedente al apostar por una integración profunda donde los LLM no solo corrigen o procesan texto, sino que forman parte esencial desde la conversión de voz a texto, avanzando hacia sistemas que comprenden y actúan sobre múltiples modalidades de información.
En resumen, Canary-Qwen-2.5B representa mucho más que un modelo de reconocimiento de voz: es una propuesta integral para fusionar la comprensión del habla con modelos de lenguaje de propósito general. Su rendimiento líder, disponibilidad comercial y foco en la innovación abierta lo convierten en una herramienta clave para empresas, desarrolladores e investigadores que buscan desarrollar la próxima generación de aplicaciones basadas en voz.

