Audio Flamingo 3: NVIDIA impulsa un salto en inteligencia auditiva general

Audio Flamingo 3 de NVIDIA mejora la IA auditiva con un modelo abierto que procesa 10 minutos de audio, integra múltiples sonidos y aplica razonamiento en cadena para análisis y conversaciones complejas. https://tinyurl.com/bddwftec

M
MIIA
editorial
15 de julio de 2025·4 min de lectura
Audio Flamingo 3: NVIDIA impulsa un salto en inteligencia auditiva general

¿Has oído hablar de la Inteligencia Artificial General (AGI)? Pues ahora llega su versión auditiva: la Inteligencia General de Audio. Con Audio Flamingo 3 (AF3), NVIDIA da un salto importante en cómo las máquinas entienden y razonan con los sonidos. Mientras que antes los modelos podían transcribir voces o clasificar sonidos, no podían interpretarlos en un contexto amplio y humano: comprender el habla, los sonidos ambientales y la música durante largos periodos. AF3 cambia completamente esa dinámica.

Audio Flamingo 3 es un modelo grande de audio y lenguaje totalmente abierto que no solo “oye”, sino que también entiende y razona. Basado en un entrenamiento en cinco etapas y potenciado por el codificador AF-Whisper, AF3 acepta audios largos de hasta 10 minutos, permite conversaciones con múltiples turnos y varios audios, razonamiento bajo demanda e incluso interacciones de voz a voz. Esto marca un nuevo estándar en cómo la IA puede interactuar con el sonido, acercándonos más a una inteligencia artificial general.

Las claves detrás de Audio Flamingo 3

AF-Whisper: Un codificador unificado de audio AF3 utiliza AF-Whisper, un codificador basado en Whisper-v3 que procesa simultáneamente el habla, los sonidos ambientales y la música con la misma arquitectura. Esto soluciona uno de los grandes problemas de modelos anteriores que usaban codificadores separados, lo que generaba inconsistencias. AF-Whisper se entrena con conjuntos de datos que vinculan audio y texto, incluyendo metadatos sintéticos, y trabaja en un espacio de representación denso de 1280 dimensiones para alinear el audio con el lenguaje.

Razonamiento en cadena para audio: Pensar bajo demanda A diferencia de sistemas tradicionales de preguntas y respuestas, AF3 puede “pensar”. Gracias al conjunto AF-Think con 250,000 ejemplos, el modelo realiza razonamientos paso a paso cuando se le solicita, explicando cómo llegó a su respuesta. Esto es fundamental para lograr una IA de audio transparente y comprensible.

Conversaciones con múltiples turnos y audios Gracias al dataset AF-Chat, que incluye 75,000 diálogos, AF3 puede mantener conversaciones contextuales que involucran varios audios a lo largo de múltiples turnos, parecido a cómo lo hacemos los humanos cuando recordamos sonidos previos. Además, permite chats voz a voz en tiempo real con un módulo de texto a voz en streaming.

Razonamiento con audios largos AF3 es pionero como modelo abierto capaz de analizar y razonar sobre audios de hasta 10 minutos de duración. Entrenado con LongAudio-XL (1.25 millones de ejemplos), puede realizar tareas complejas como resumir reuniones, entender podcasts, detectar sarcasmo y situar eventos en el tiempo.

Resultados de vanguardia y aplicaciones reales

Audio Flamingo 3 supera a modelos tanto abiertos como cerrados en más de 20 pruebas, destacando en: - MMAU con un promedio del 73.14% (2.14% más que Qwen2.5-O) - LongAudioBench con 68.6, evaluado con GPT-4o y superando a Gemini 2.5 Pro - LibriSpeech (reconocimiento de voz) con un índice de error del 1.57%, mejor que Phi-4-mm - ClothoAQA con un 91.1% frente al 89.2% de Qwen2.5-O Estas mejoras no son menores, sino que redefinen lo que esperamos de los sistemas de audio y lenguaje. Además, AF3 introduce evaluaciones en voz y generación de discurso, logrando una latencia de apenas 5.94 segundos, mucho más rápida que los 14.62 segundos de Qwen2.5, y también obtiene mejores puntajes de similitud.

Una nueva forma de entrenar: datos que enseñan a razonar con audio

NVIDIA no solo aumentó la potencia de cómputo, sino que diseñó nuevos datos para entrenar al modelo: - AudioSkills-XL: 8 millones de ejemplos que combinan razonamiento en sonidos ambientales, música y habla. - LongAudio-XL: audios largos de audiolibros, podcasts y reuniones. - AF-Think: fomenta razonamientos cortos en cadena. - AF-Chat: para conversaciones complejas con múltiples audios. Todos estos conjuntos son de código abierto, junto con el código de entrenamiento, para que otros puedan replicar y avanzar en la investigación.

Totalmente abierto para impulsar la investigación

NVIDIA no solo lanzó el modelo, sino que también puso a disposición: - Los pesos del modelo - Las recetas de entrenamiento - El código para inferencia - Los cuatro conjuntos de datos abiertos Esto hace que AF3 sea el modelo de audio y lenguaje más accesible y avanzado en abierto, abriendo puertas a nuevas investigaciones en razonamiento auditivo, agentes de audio con baja latencia, comprensión musical e interacción multimodal.

En resumen, Audio Flamingo 3 prueba que una comprensión profunda de audio no solo es posible, sino reproducible y abierta. Combinando escala, nuevas estrategias de entrenamiento y datos variados, NVIDIA presenta un modelo que escucha, entiende y razona de formas que antes no se habían visto en este campo.

fuente original
https://www.marktechpost.com/2025/07/15/nvidia-just-released-audio-flamingo-3-an-open-source-model-advancing-audio-general-intelligence/
Prueba MIIA

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

relacionado con #inteligencia artificial · #audio ai · #nvidia
Prueba MIIA gratis →
WhatsApp