En el ámbito de la inteligencia artificial multimodal, los modelos de edición de imágenes basados en instrucciones están revolucionando la forma en que los usuarios interactúan con el contenido visual. Recientemente, en agosto de 2025, el equipo Qwen de Alibaba lanzó Qwen-Image-Edit, una evolución del modelo Qwen-Image con 20 mil millones de parámetros, que ofrece capacidades avanzadas de edición. Este modelo destaca tanto en edición semántica (como transferencia de estilos y síntesis de nuevas perspectivas) como en edición de apariencia (modificaciones precisas de objetos), manteniendo además la habilidad de Qwen-Image para un renderizado complejo de texto en inglés y chino. Integrado con Qwen Chat y disponible en Hugging Face, facilita la creación profesional de contenido, desde diseño de propiedad intelectual hasta corrección de errores en obras generadas.
Qwen-Image-Edit amplía la arquitectura Multimodal Diffusion Transformer (MMDiT) utilizada en Qwen-Image. Esta estructura combina un modelo multimodal de lenguaje a gran escala (Qwen2.5-VL) para interpretar el texto, un codificador automático variacional (VAE) para dividir la imagen en tokens, y el núcleo MMDiT para modelar conjuntamente ambos. Para la edición, el modelo introduce una codificación dual: la imagen de entrada se procesa tanto en nivel semántico a través del Qwen2.5-VL, como en nivel reconstructivo mediante el VAE, y estos resultados se fusionan en el flujo de imagen de MMDiT. Esto permite mantener la coherencia semántica (por ejemplo, respetar la identidad de un objeto al cambiar su posición) y la fidelidad visual (preservando las áreas sin modificaciones).
La codificación posicional MSRoPE añade una dimensión de "frame" para distinguir claramente la imagen antes y después de la edición, lo cual es clave para tareas de edición basadas en texto e imagen al mismo tiempo. El VAE, ajustado con datos que incluyen texto, ofrece una reconstrucción superior, logrando puntajes PSNR de 33.42 en imágenes generales y 36.63 en aquellas con mucho texto, superando otros modelos como FLUX-VAE y SD-3.5-VAE. Gracias a esto, Qwen-Image-Edit puede editar texto bilingüe respetando la fuente, tamaño y estilo originales.
Entre sus principales funcionalidades destacan: la capacidad de editar tanto la apariencia visual (añadir, eliminar o modificar elementos sin afectar otras áreas) como el contenido semántico (crear nuevos elementos, rotar objetos, transferir estilos manteniendo la coherencia); la edición precisa de texto en chino e inglés, que permite agregar, borrar o modificar palabras conservando los detalles tipográficos originales; y un desempeño sobresaliente en diversos benchmarks públicos, consolidándolo como una sólida base para generación y manipulación de imágenes.
Para su entrenamiento, Qwen-Image-Edit partió del extenso conjunto de datos de Qwen-Image, con miles de millones de pares imagen-texto distribuidos en dominios como naturaleza, diseño, personas y contenido sintético. Se aplicó un enfoque de aprendizaje multitarea que integra objetivos de texto a imagen (T2I), imagen a imagen (I2I) y texto e imagen a imagen (TI2I). Los datos pasaron por un riguroso proceso de filtrado en siete etapas para garantizar calidad y equilibrio, incluyendo diversas estrategias para representar texto en chino y cubrir casos poco frecuentes. El entrenamiento utilizó técnicas de seguimiento de flujo y un esquema Productor-Consumidor para escalar, junto con un ajuste supervisado y aprendizaje por refuerzo para alinear preferencias. Para tareas específicas de edición, incorporó síntesis de nuevas perspectivas y estimación de profundidad, apoyándose en un modelo maestro llamado DepthPro. Esto da como resultado un desempeño robusto, como la corrección iterativa de errores en caligrafía.
En cuanto a sus capacidades prácticas, Qwen-Image-Edit permite, por ejemplo, crear personajes temáticos como emojis basados en rasgos MBTI a partir de una mascota, manteniendo la coherencia visual; realizar giros de 180 grados en objetos o escenas con alta fidelidad, superando modelos especializados; y transformar retratos en estilos artísticos reconocibles como los de Studio Ghibli, todo sin perder la esencia del sujeto. En edición de apariencia, puede añadir detalles realistas como letreros con reflejos o eliminar elementos finos como mechones de cabello sin modificar el fondo. La edición de texto bilingüe es muy exacta, permitiendo desde cambiar palabras en carteles hasta corregir caracteres chinos en caligrafía mediante cajas delimitadoras. Además, la edición encadenada posibilita realizar correcciones paso a paso hasta la calidad deseada.
En evaluaciones, Qwen-Image-Edit lidera múltiples benchmarks. En GEdit-Bench, alcanza puntuaciones generales de 7.56 en inglés y 7.52 en chino, superando a otros modelos como GPT Image 1 y FLUX.1 Kontext [Pro]. En ImgEdit logra un puntaje de 4.27, destacándose especialmente en reemplazo de objetos y cambio de estilos. En estimación de profundidad, obtiene un error absoluto relativo competitivo en KITTI, comparable a DepthAnything v2. Evaluaciones humanas lo sitúan como el tercer mejor modelo API para renderizado de texto, confirmando su capacidad para seguir instrucciones con precisión y mantener fidelidad multilingüe.
Qwen-Image-Edit está disponible para su uso a través de Hugging Face Diffusers y Alibaba Cloud Model Studio, que ofrecen API para inferencia escalable. Su código de entrenamiento es abierto y se distribuye bajo licencia Apache 2.0.
Este modelo representa un avance relevante en interfaces visión-lenguaje, facilitando una manipulación fluida y detallada de contenido para creadores. Su enfoque unificado sugiere futuras extensiones a video y 3D, abriendo paso a aplicaciones innovadoras en diseño asistido por IA.



