La generación de videos con inteligencia artificial está avanzando a pasos agigantados. En poco tiempo, hemos pasado de clips borrosos e incoherentes a videos generados con un realismo impresionante. Sin embargo, a pesar de estos avances, aún faltaba una capacidad clave: el control y la edición profesional. Crear un video hermoso es un logro, pero poder editarlo de forma realista —como cambiar la iluminación de día a noche, transformar un material de madera a metal o insertar un nuevo elemento en la escena sin que se note— seguía siendo un reto difícil y sin resolver. Esta limitación ha impedido que la IA se convierta en una herramienta fundamental para cineastas, diseñadores y creadores.

Pero eso cambió con la llegada de DiffusionRenderer.

Un equipo de investigadores de NVIDIA, la Universidad de Toronto, Vector Institute y la Universidad de Illinois Urbana-Champaign presentaron un sistema innovador en un reciente estudio que aborda este desafío. DiffusionRenderer representa un salto revolucionario, y va más allá de generar videos para ofrecer una solución integrada que entiende y manipula escenas en 3D a partir de un solo video. Así, une generación y edición en un solo proceso, desbloqueando todo el potencial creativo de los contenidos impulsados por IA.

Un cambio de paradigma frente a métodos anteriores

Durante décadas, el fotorealismo en gráficos digitales se ha basado en el PBR (Path-Based Rendering), una técnica que simula la luz con gran precisión. Aunque genera resultados sorprendentes, es un sistema delicado que depende de un plano digital perfecto: geometría 3D exacta, texturas detalladas y mapas de iluminación precisos. Obtener esta información del mundo real, un proceso conocido como renderizado inverso, es sumamente complicado y propenso a errores. Incluso pequeñas imperfecciones pueden arruinar el resultado final, lo que ha limitado el uso del PBR fuera de entornos muy controlados.

Otras técnicas de renderizado neuronal, como NeRFs, revolucionaron la creación de vistas estáticas, pero fracasan a la hora de editar porque “hornean” la luz y materiales en la escena, impidiendo modificaciones posteriores.

DiffusionRenderer aborda por primera vez de forma conjunta el “qué” (las propiedades de la escena) y el “cómo” (renderizarla), utilizando una arquitectura basada en difusión de video similar a la que emplean modelos como Stable Video Diffusion.

¿Cómo funciona? Usa dos modelos para procesar el video:

- Neural Inverse Renderer: Actúa como un detective de la escena. Analiza el video y estima inteligentemente las propiedades intrínsecas, generando datos esenciales que describen la geometría (normales, profundidad) y materiales (color, rugosidad, metalicidad) píxel por píxel. Cada atributo se calcula por separado para asegurar alta calidad.

- Neural Forward Renderer: Funciona como el artista. Toma esos datos y los combina con cualquier iluminación nueva para sintetizar un video fotorrealista. Ha sido entrenado para ser robusto, capaz de recrear efectos complejos de luz, sombras suaves y reflejos, incluso cuando la información de entrada es imperfecta o “ruidosa”.

Esta colaboración autorreguladora es la clave del éxito del sistema, preparado para lidiar con la imperfección del mundo real, donde los datos perfectos no existen.

La clave está en una estrategia novedosa de datos

Un buen modelo necesita datos inteligentes. Los investigadores crearon una estrategia en dos frentes para enseñar al modelo tanto las leyes físicas perfectas como las imperfecciones del mundo real.

Primero, generaron un enorme universo sintético con 150,000 videos elaborados a partir de miles de objetos 3D, materiales PBR y mapas de luz HDR, renderizados con trazado de rayos impecable. Así, el modelo aprendió con datos perfectos, casi de libro.

Luego, descubrieron que el modelo entrenado solo con estos datos sintéticos podía generalizar sorprendentemente bien a videos reales. Lo aplicaron a un conjunto de más de 10,000 videos reales, generando automáticamente etiquetas que describen la geometría y materiales, aunque con errores. Esto creó un dataset gigantesco de escenas reales con mapas intrínsecos imperfectos.

Al entrenar al modelo de renderizado hacia adelante combinando ambos tipos de datos, el sistema aprendió a salvar el “gap” entre mundo sintético y real. Para manejar las imperfecciones en las etiquetas reales, incorporaron una técnica llamada LoRA, que adapta el modelo sin perder lo aprendido con datos perfectos.

Resultados de primera línea

En comparaciones rigurosas con métodos tradicionales y neuronales, DiffusionRenderer superó consistentemente a todos:

- Renderizado hacia adelante: Genera imágenes desde datos y luces con gran realismo, especialmente en escenas complejas con múltiples objetos y reflejos. - Renderizado inverso: Estimó las propiedades de la escena con mayor precisión que las técnicas previas, mejorando notoriamente la predicción de metalicidad y rugosidad gracias a su enfoque en video y no en imágenes fijas. - Relighting: En la prueba clave de re-iluminación, produjo resultados más fieles y detallados que otros sistemas de vanguardia, con reflejos especulares y luces de alta calidad.

Lo que puedes hacer con DiffusionRenderer

Este avance abre una amplia gama de aplicaciones prácticas a partir de un video común:

- Cambiar la iluminación: Modificar la hora del día o el ambiente reemplazando el mapa de entorno, logrando sombras y reflejos realistas. - Editar materiales: Transformar propiedades, como convertir un cuero en cromo o un metal en piedra rugosa, ajustando parámetros de materiales con resultados fotorrealistas. - Insertar objetos nuevos: Integrar objetos virtuales en escenas reales, con sombras y reflejos coherentes, haciendo que parezcan parte natural del entorno.

Un nuevo cimiento para los gráficos por computadora

DiffusionRenderer marca un hito al resolver conjuntamente los procesos de renderizado inverso y directo en un solo marco sólido impulsado por datos. Con esto, derriba las barreras del PBR tradicional, democratizando el acceso al renderizado fotorrealista, que antes requería expertos y equipos muy potentes. Ahora, creadores, diseñadores y desarrolladores de AR/VR cuentan con una herramienta más accesible y poderosa.

Además, los autores mejoraron recientemente la tecnología para la eliminación y realce de iluminación en videos, obteniendo resultados aún más nítidos y precisos. A medida que los modelos de difusión de video continúan evolucionando, la calidad seguirá subiendo, haciendo esta tecnología cada vez más impresionante.

El código y el modelo están disponibles bajo licencias abiertas, para que la comunidad pueda aprovechar y seguir desarrollando esta innovadora herramienta.

↗

fuente original

https://www.marktechpost.com/2025/07/10/nvidia-ai-released-diffusionrenderer-an-ai-model-for-editable-photorealistic-3d-scenes-from-a-single-video/

ver →

etiquetas:inteligencia artificial edición de video renderizado 3d nvidia diffusionrenderer re-lighting creación de contenido

NVIDIA lanza DiffusionRenderer: edición editable de videos 3D realistas AI

Un cambio de paradigma frente a métodos anteriores

La clave está en una estrategia novedosa de datos

Resultados de primera línea

En comparaciones rigurosas con métodos tradicionales y neuronales, DiffusionRenderer superó consistentemente a todos:

Lo que puedes hacer con DiffusionRenderer

Este avance abre una amplia gama de aplicaciones prácticas a partir de un video común:

Un nuevo cimiento para los gráficos por computadora

Agentes de IA para WhatsApp, Instagram y Messenger. Configurados en 10 minutos.

Seguir leyendo

CEO de NVIDIA recomienda paciencia antes de actualizar el hardware PC

Samsung lidera producción de memoria HBM4 para aceleradores NVIDIA

China autoriza compra de chips NVIDIA, pero con control exhaustivo riguroso