Los avances recientes en mejora de voz (SE) han dejado atrás los métodos tradicionales basados en máscaras o predicción de señales, enfocándose ahora en modelos de audio preentrenados que ofrecen características más ricas y transferibles. Modelos como WavLM extraen representaciones significativas del audio que mejoran el desempeño en tareas de mejora de voz. Algunos enfoques utilizan estas representaciones para predecir máscaras o las combinan con datos espectrales para aumentar la precisión. Otros exploran técnicas generativas, empleando vocoders neuronales para reconstruir directamente el habla limpia a partir de estas representaciones ruidosas. Si bien estas técnicas son efectivas, suelen involucrar congelar los modelos preentrenados o requieren un ajuste fino extenso, lo que limita su adaptabilidad y eleva los costos computacionales, dificultando su aplicación a otras tareas.
Un grupo de investigadores de MiLM Plus en Xiaomi Inc. propone una metodología ligera y flexible que usa modelos preentrenados para la mejora de voz. Primero, se extraen embeddings de audio de la señal ruidosa mediante un codificador congelado. Estos embeddings se limpian a través de un pequeño codificador encargado de reducir ruido y luego pasan a un vocoder que genera el habla limpia final. A diferencia de modelos diseñados para tareas específicas, el codificador de audio y el vocoder están preentrenados de forma independiente, lo que permite que el sistema se adapte a otras tareas como la eliminación de reverberación o la separación de fuentes. Los experimentos mostraron que los modelos generativos ofrecen mejor calidad de voz y mayor fidelidad del hablante en comparación con los modelos discriminativos. A pesar de su simplicidad, el sistema es muy eficiente y supera en pruebas de escucha a modelos líderes en mejora de voz.
El sistema de mejora de voz propuesto consta de tres componentes principales. Primero, la señal ruidosa se procesa con un audioencoder preentrenado, que genera embeddings ruidosos. Luego, un codificador de reducción de ruido refina estos embeddings para que sean más limpios, y finalmente un vocoder los convierte nuevamente en habla. Aunque el codificador de denoise y el vocoder se entrenan de forma separada, ambos dependen del mismo audioencoder congelado. Durante el entrenamiento, el codificador de reducción de ruido minimiza la diferencia entre embeddings ruidosos y limpios, obtenidos en paralelo de muestras de audio emparejadas, utilizando una pérdida de error cuadrático medio. Este codificador está construido con arquitectura ViT y emplea capas estándar de activación y normalización.
El vocoder se entrena en un esquema auto-supervisado usando solo datos de habla limpia. Aprende a reconstruir las formas de onda a partir de los embeddings, prediciendo coeficientes espectrales de Fourier que luego se convierten a audio mediante la transformada inversa de Fourier corta en el tiempo. Para esto, se utiliza una versión adaptada del marco Vocos, compatible con diferentes audioencoders. Además, se aplica una configuración de red generativa adversarial (GAN), donde el generador está basado en ConvNeXt y los discriminadores son de tipo multi-período y multi-resolución. El entrenamiento combina pérdidas adversariales, de reconstrucción y de coincidencia de características. Es importante destacar que durante todo el proceso, el audioencoder permanece congelado usando pesos de modelos públicos.
La evaluación demostró que los generadores de audio, como Dasheng, superan consistentemente a los discriminativos. En el conjunto de datos DNS1, Dasheng logró una puntuación de similitud de hablante de 0.881, mientras que WavLM y Whisper obtuvieron 0.486 y 0.489 respectivamente. En calidad de voz, métricas no intrusivas como DNSMOS y NISQAv2 mostraron mejoras significativas incluso con codificadores de reducción de ruido pequeños; por ejemplo, ViT3 alcanzó un DNSMOS de 4.03 y una puntuación NISQAv2 de 4.41. En pruebas subjetivas con 17 participantes, Dasheng obtuvo un puntaje MOS promedio de 3.87, superando a Demucs (3.11) y LMS (2.98), lo que respalda su alto desempeño perceptual.
En resumen, este estudio presenta un sistema práctico y adaptable para mejora de voz que aprovecha audioencoders y vocoders generativos preentrenados, evitando la necesidad de un ajuste fino completo. Al limpiar embeddings de audio ruidosos mediante un codificador ligero y reconstruir la voz con un vocoder preentrenado, el sistema logra eficiencia computacional y un rendimiento destacado. Las evaluaciones muestran que los modelos generativos superan ampliamente a los discriminativos en calidad y fidelidad. Además, el codificador de reducción de ruido compacto mantiene alta calidad perceptual incluso con pocos parámetros, y las pruebas de escucha subjetivas confirman que esta metodología ofrece mayor claridad perceptual que modelos actuales de referencia, destacando así su efectividad y versatilidad.


