¿Has oído hablar de la Inteligencia Artificial General (AGI)? Pues ahora llega su versión auditiva: la Inteligencia General de Audio. Con Audio Flamingo 3 (AF3), NVIDIA da un salto importante en cómo las máquinas entienden y razonan con los sonidos. Mientras que antes los modelos podían transcribir voces o clasificar sonidos, no podían interpretarlos en un contexto amplio y humano: comprender el habla, los sonidos ambientales y la música durante largos periodos. AF3 cambia completamente esa dinámica.

Audio Flamingo 3 es un modelo grande de audio y lenguaje totalmente abierto que no solo “oye”, sino que también entiende y razona. Basado en un entrenamiento en cinco etapas y potenciado por el codificador AF-Whisper, AF3 acepta audios largos de hasta 10 minutos, permite conversaciones con múltiples turnos y varios audios, razonamiento bajo demanda e incluso interacciones de voz a voz. Esto marca un nuevo estándar en cómo la IA puede interactuar con el sonido, acercándonos más a una inteligencia artificial general.

Las claves detrás de Audio Flamingo 3

AF-Whisper: Un codificador unificado de audio AF3 utiliza AF-Whisper, un codificador basado en Whisper-v3 que procesa simultáneamente el habla, los sonidos ambientales y la música con la misma arquitectura. Esto soluciona uno de los grandes problemas de modelos anteriores que usaban codificadores separados, lo que generaba inconsistencias. AF-Whisper se entrena con conjuntos de datos que vinculan audio y texto, incluyendo metadatos sintéticos, y trabaja en un espacio de representación denso de 1280 dimensiones para alinear el audio con el lenguaje.

Razonamiento en cadena para audio: Pensar bajo demanda A diferencia de sistemas tradicionales de preguntas y respuestas, AF3 puede “pensar”. Gracias al conjunto AF-Think con 250,000 ejemplos, el modelo realiza razonamientos paso a paso cuando se le solicita, explicando cómo llegó a su respuesta. Esto es fundamental para lograr una IA de audio transparente y comprensible.

Conversaciones con múltiples turnos y audios Gracias al dataset AF-Chat, que incluye 75,000 diálogos, AF3 puede mantener conversaciones contextuales que involucran varios audios a lo largo de múltiples turnos, parecido a cómo lo hacemos los humanos cuando recordamos sonidos previos. Además, permite chats voz a voz en tiempo real con un módulo de texto a voz en streaming.

Razonamiento con audios largos AF3 es pionero como modelo abierto capaz de analizar y razonar sobre audios de hasta 10 minutos de duración. Entrenado con LongAudio-XL (1.25 millones de ejemplos), puede realizar tareas complejas como resumir reuniones, entender podcasts, detectar sarcasmo y situar eventos en el tiempo.

Resultados de vanguardia y aplicaciones reales

Audio Flamingo 3 supera a modelos tanto abiertos como cerrados en más de 20 pruebas, destacando en: - MMAU con un promedio del 73.14% (2.14% más que Qwen2.5-O) - LongAudioBench con 68.6, evaluado con GPT-4o y superando a Gemini 2.5 Pro - LibriSpeech (reconocimiento de voz) con un índice de error del 1.57%, mejor que Phi-4-mm - ClothoAQA con un 91.1% frente al 89.2% de Qwen2.5-O Estas mejoras no son menores, sino que redefinen lo que esperamos de los sistemas de audio y lenguaje. Además, AF3 introduce evaluaciones en voz y generación de discurso, logrando una latencia de apenas 5.94 segundos, mucho más rápida que los 14.62 segundos de Qwen2.5, y también obtiene mejores puntajes de similitud.

Una nueva forma de entrenar: datos que enseñan a razonar con audio

NVIDIA no solo aumentó la potencia de cómputo, sino que diseñó nuevos datos para entrenar al modelo: - AudioSkills-XL: 8 millones de ejemplos que combinan razonamiento en sonidos ambientales, música y habla. - LongAudio-XL: audios largos de audiolibros, podcasts y reuniones. - AF-Think: fomenta razonamientos cortos en cadena. - AF-Chat: para conversaciones complejas con múltiples audios. Todos estos conjuntos son de código abierto, junto con el código de entrenamiento, para que otros puedan replicar y avanzar en la investigación.

Totalmente abierto para impulsar la investigación

NVIDIA no solo lanzó el modelo, sino que también puso a disposición: - Los pesos del modelo - Las recetas de entrenamiento - El código para inferencia - Los cuatro conjuntos de datos abiertos Esto hace que AF3 sea el modelo de audio y lenguaje más accesible y avanzado en abierto, abriendo puertas a nuevas investigaciones en razonamiento auditivo, agentes de audio con baja latencia, comprensión musical e interacción multimodal.

En resumen, Audio Flamingo 3 prueba que una comprensión profunda de audio no solo es posible, sino reproducible y abierta. Combinando escala, nuevas estrategias de entrenamiento y datos variados, NVIDIA presenta un modelo que escucha, entiende y razona de formas que antes no se habían visto en este campo.

↗

fuente original

https://www.marktechpost.com/2025/07/15/nvidia-just-released-audio-flamingo-3-an-open-source-model-advancing-audio-general-intelligence/

ver →

etiquetas:inteligencia artificial audio ai nvidia procesamiento de sonido razonamiento en audio modelos abiertos interacción multimodal

Audio Flamingo 3: NVIDIA impulsa un salto en inteligencia auditiva general

Las claves detrás de Audio Flamingo 3

Resultados de vanguardia y aplicaciones reales

Una nueva forma de entrenar: datos que enseñan a razonar con audio

Totalmente abierto para impulsar la investigación

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

CEO de NVIDIA recomienda paciencia antes de actualizar el hardware PC

Samsung lidera producción de memoria HBM4 para aceleradores NVIDIA

China autoriza compra de chips NVIDIA, pero con control exhaustivo riguroso