Los avances recientes en el mejoramiento de voz han ido más allá de los métodos tradicionales basados en máscaras o predicción de señales, apostando por modelos de audio preentrenados que ofrecen características más ricas y transferibles. Estos modelos, como WavLM, extraen representaciones significativas del audio que mejoran el rendimiento en la mejora de voz. Algunas técnicas usan estas representaciones para predecir máscaras o combinarlas con datos espectrales para lograr una mayor precisión. Otras exploran métodos generativos, empleando vocoders neuronales capaces de reconstruir directamente el habla limpia a partir de representaciones ruidosas. Sin embargo, estas soluciones suelen congelar los modelos preentrenados o requieren un ajuste fino extenso, lo que limita su adaptabilidad, aumenta los costos computacionales y dificulta su aplicación en otras tareas.
Investigadores de MiLM Plus, Xiaomi Inc., han desarrollado un método ligero y flexible para el mejoramiento de voz basado en modelos preentrenados. El proceso comienza extrayendo representaciones de audio a partir del habla ruidosa mediante un audioencoder congelado. Luego, un pequeño encoder de eliminación de ruido limpia estas representaciones, que finalmente son convertidas en voz clara por un vocoder. La particularidad es que tanto el audioencoder como el vocoder están preentrenados por separado, permitiendo que el sistema se adapte con facilidad a otras tareas, como la eliminación de reverberación o la separación de fuentes de audio. Las pruebas realizadas mostraron que los modelos generativos superan a los discriminativos en cuanto a calidad del habla y fidelidad del hablante. A pesar de su simplicidad, el sistema es muy eficiente y supera a un modelo líder de mejora en pruebas de escucha.
El sistema propuesto consta de tres partes principales. Primero, el habla ruidosa pasa por un audioencoder preentrenado que genera representaciones con ruido. Luego, un encoder de eliminación de ruido las mejora para obtener versiones más limpias. Por último, un vocoder convierte estas representaciones limpias nuevamente en habla. Aunque el encoder de reducción de ruido y el vocoder se entrenan por separado, ambos dependen del mismo audioencoder congelado y preentrenado. Durante el entrenamiento, el encoder de eliminación de ruido minimiza la diferencia entre las representaciones ruidosas y las limpias, que se generan simultáneamente usando pares de muestras de audio, mediante una función de pérdida de error cuadrático medio. Este encoder está construido con una arquitectura ViT (Vision Transformer), que incluye capas estándar de activación y normalización.
El vocoder, por su parte, se entrena de manera auto supervisada utilizando solo datos de habla limpia. Aprende a reconstruir las formas de onda del habla a partir de las representaciones de audio prediciendo coeficientes espectrales de Fourier, que luego se transforman de nuevo en audio mediante la transformada de Fourier inversa de corta duración. El vocoder se basa en una versión modificada del marco Vocos, adaptado para trabajar con diferentes audioencoders. Se usa una configuración tipo Red Generativa Antagónica (GAN), donde el generador está basado en ConvNeXt y los discriminadores son tanto multi-período como multi-resolución. El entrenamiento combina pérdidas adversariales, de reconstrucción y de coincidencia de características. Es importante destacar que el audioencoder permanece congelado durante todo el proceso, utilizando pesos de modelos disponibles públicamente.
En las evaluaciones, los audioencoders generativos, como Dasheng, superaron consistentemente a los discriminativos. En el conjunto de datos DNS1, Dasheng logró una puntuación de similitud del hablante de 0.881, mientras que WavLM y Whisper obtuvieron 0.486 y 0.489, respectivamente. Respecto a la calidad del habla, métricas no intrusivas como DNSMOS y NISQAv2 indicaron mejoras notables, incluso usando encoders de eliminación de ruido más pequeños. Por ejemplo, el modelo ViT3 alcanzó un DNSMOS de 4.03 y una puntuación NISQAv2 de 4.41. Pruebas subjetivas de escucha con 17 participantes mostraron que Dasheng consiguió una puntuación media de opinión (MOS) de 3.87, superando a Demucs con 3.11 y LMS con 2.98, evidenciando su excelente desempeño perceptual.
En resumen, este estudio presenta un sistema de mejora de voz práctico y adaptable que se basa en audioencoders y vocoders generativos preentrenados, evitando la necesidad de ajustar todo el modelo. Al eliminar el ruido de las representaciones de audio con un encoder ligero y reconstruir el habla con un vocoder preentrenado, el sistema combina eficiencia computacional y un alto rendimiento. Las evaluaciones demuestran que los audioencoders generativos ofrecen una calidad y fidelidad de voz superiores a los discriminativos. Además, el encoder de eliminación de ruido compacto mantiene una gran calidad perceptual incluso con menos parámetros. Finalmente, las pruebas subjetivas confirman que esta metodología ofrece una claridad perceptual mejor que la de un modelo actual de referencia, resaltando su efectividad y versatilidad.



