NVIDIA Streaming Sortformer: Real-Time, Low-Latency Speaker Diarization con Precisión Milisegundos

NVIDIA presenta Streaming Sortformer, modelo híbrido CNN-Conformer-Transformer optimizado en GPU para diarización en tiempo real con baja latencia: sigue 2-4 hablantes en inglés y mandarín con precisión milimétrica, integrable vía NeMo y Riva. https://tinyurl.com/ms7dfrss

M
MIIA
editorial
21 de agosto de 2025·5 min de lectura
NVIDIA Streaming Sortformer: Real-Time, Low-Latency Speaker Diarization con Precisión Milisegundos

NVIDIA ha presentado Streaming Sortformer, una innovación que permite identificar y etiquetar en tiempo real a los participantes en reuniones, llamadas y aplicaciones de voz, incluso en entornos ruidosos con varios interlocutores. Este modelo, diseñado para funcionar con baja latencia y acelerado por GPU, está optimizado principalmente para inglés y mandarín, y puede seguir simultáneamente hasta cuatro hablantes con una precisión de milisegundos. Esta tecnología representa un avance importante en inteligencia artificial conversacional, abriendo la puerta a nuevas aplicaciones en productividad, cumplimiento normativo e interacción por voz.

A diferencia de los sistemas tradicionales de diarización, que suelen requerir procesamiento en lote o hardware especializado, Streaming Sortformer realiza la identificación de hablantes a nivel de cada fragmento de audio en tiempo real. Así, cada intervención recibe una etiqueta de hablante (por ejemplo, spk_0, spk_1) y una marca temporal precisa mientras se desarrolla la conversación. Su baja latencia y el procesamiento en pequeños fragmentos superpuestos son fundamentales para aplicaciones como transcripciones en vivo, asistentes inteligentes y análisis en centros de contacto, donde cada milisegundo cuenta.

Este modelo puede identificar y etiquetar de forma dinámica a entre dos y cuatro interlocutores, manteniendo etiquetas constantes a medida que participan. Está completamente optimizado para funcionar con GPUs de NVIDIA e integra fácilmente con las plataformas NeMo y Riva, facilitando su implementación a escala. Aunque está calibrado para inglés, también ofrece muy buenos resultados en mandarín y otros idiomas, mostrando versatilidad para distintos contextos lingüísticos. Su precisión es superior a la de alternativas recientes, destacándose en benchmarks del mundo real.

Streaming Sortformer funciona gracias a una arquitectura híbrida que combina redes neuronales convolucionales, conformers y transformers. Primero, un módulo de preprocesamiento comprime el audio para preservar las características acústicas más relevantes y reducir el cómputo. Luego, un codificador Fast-Conformer extrae “embeddings” específicos de cada hablante, que se pasan a un codificador Transformer seguido de capas feedforward para generar una etiqueta en cada fragmento.

El verdadero secreto está en su memoria dinámica llamada Arrival-Order Speaker Cache (AOSC), que guarda representaciones de todos los hablantes detectados hasta el momento. Al llegar nuevos fragmentos de audio, el modelo los compara con esta memoria, asegurando que cada persona conserve su etiqueta original durante toda la conversación. Esta solución resuelve de forma eficiente el llamado "problema de permutación de hablantes" y permite un seguimiento en tiempo real sin procesos costosos adicionales.

A diferencia de otros sistemas que separan la detección de voz y el agrupamiento en diferentes etapas, Streaming Sortformer integra todo en una única red neuronal entrenada de extremo a extremo, mejorando la coherencia y robustez del proceso.

El modelo está pensado para su uso inmediato en aplicaciones de transcripción en vivo, cumplimiento normativo en centros de contacto, gestión de turnos en bots de voz, edición de medios y análisis empresariales, donde es fundamental saber “quién dijo qué y cuándo”.

Desde el punto de vista técnico, funciona con audio estándar de 16 kHz en mono y devuelve una matriz con probabilidades de actividad para cada hablante en cada fragmento, ideal para construir soluciones personalizadas de análisis o transcripción. Requiere GPUs de NVIDIA para aprovechar su aceleración y puede integrarse sin problemas a través de NeMo o Riva.

Entre sus aplicaciones prácticas destacan la generación de actas etiquetadas en reuniones, la separación de voces en centros de atención para supervisión, la mejora de la naturalidad en asistentes de voz, la automatización de etiquetado en grabaciones multimedia y la creación de registros auditables para cumplir con normativas legales.

En pruebas reales, Streaming Sortformer ofrece una tasa de error en diarización (DER) inferior a la de otros sistemas actuales, lo que demuestra su mayor precisión. Por ahora está optimizado para conversaciones con hasta cuatro interlocutores; ampliar esa capacidad será parte de futuros desarrollos. Además, su desempeño puede variar en ambientes acústicos complicados o con idiomas menos representados en sus datos de entrenamiento, aunque su arquitectura sugiere que podrá adaptarse fácilmente conforme se incorporen nuevos datos.

En resumen, Streaming Sortformer es una solución lista para producción que combina velocidad, precisión y facilidad de integración. Con ella, NVIDIA ofrece una tecnología que está transformando la forma en que las empresas y desarrolladores gestionan audio con múltiples participantes, convirtiéndose en una herramienta clave para la diarización en tiempo real desde ahora y en los próximos años.

Preguntas frecuentes:

¿Cómo logra Streaming Sortformer identificar varios hablantes en tiempo real?

Procesa el audio en pequeños fragmentos que se solapan y asigna etiquetas consistentes a medida que diferentes personas intervienen. Usa una memoria dinámica para recordar a cada hablante sin necesidad de esperar a procesar toda la grabación, lo que asegura una experiencia fluida y con baja latencia.

¿Qué hardware se recomienda para utilizarlo?

Está pensado para correr en GPUs de NVIDIA para lograr inferencia rápida. Trabaja con audio de 16 kHz en mono, y se integra mediante las plataformas de inteligencia artificial de NVIDIA como NeMo y Riva. Para producción, se aconseja una tarjeta gráfica moderna y un manejo del audio compatible con streaming continuo.

¿Funciona con idiomas diferentes al inglés y cuántos hablantes puede seguir?

Está optimizado para inglés, con validación sólida en mandarín, y puede rastrear entre dos y cuatro interlocutores en tiempo real. También puede adaptarse a otros idiomas, aunque la precisión dependerá de las condiciones acústicas y la variedad de datos de entrenamiento. Por el momento, para conversaciones con más de cuatro personas es recomendable segmentar o ajustar el sistema mientras se desarrollan variantes futuras.

En definitiva, Streaming Sortformer es una tecnología abierta y accesible que representa un salto adelante en análisis de voz, ideal para quienes trabajan en productos y servicios basados en interacción por voz.

fuente original
https://www.marktechpost.com/2025/08/21/nvidia-ai-just-released-streaming-sortformer-a-real-time-speaker-diarization-that-figures-out-whos-talking-in-meetings-and-calls-instantly/
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #inteligencia artificial · #diarización de hablantes · #procesamiento de audio en tiempo real
Prueba MIIA gratis →
WhatsApp