Los modelos de visión y lenguaje (VLM) combinan la comprensión de texto con imágenes, pero su desempeño depende mucho de la resolución de las imágenes, especialmente al procesar datos llenos de texto y gráficos. Incrementar la resolución plantea varios desafíos. Primero, los codificadores de visión preentrenados suelen tener dificultades con imágenes de alta resolución porque esto exige más recursos durante el preentrenamiento. Además, procesar imágenes en alta resolución aumenta los costos computacionales y la latencia al generar los tokens visuales, ya sea procesando una sola imagen de alta resolución o dividiéndola en partes más pequeñas. Segundo, al incrementar la resolución, aumenta el número de tokens generados, lo que alarga el tiempo necesario para que el modelo de lenguaje se prepare (prefilling) y el tiempo total hasta que se genera el primer token (TTFT), que es la suma de la latencia del codificador visual y ese tiempo de preparación.

Modelos multimodales grandes como Frozen y Florence integran las representaciones de imagen y texto mediante atención cruzada en capas intermedias del modelo de lenguaje. Arquitecturas autoregresivas como LLaVA, mPLUG-Owl, MiniGPT-4 y Cambrian-1 también ofrecen resultados efectivos. Para codificar imágenes con eficiencia, los transformadores de visión preentrenados en CLIP son muy usados, con variantes como SigLIP, EVA-CLIP, InternViT y DFNCLIP. Se han explorado métodos para reducir dinámicamente la cantidad de tokens, como LLaVA-PruMerge y muestreo basado en Matryoshka, mientras que arquitecturas jerárquicas tipo ConvNeXT y FastViT disminuyen el conteo de tokens mediante muestreos progresivos. Recientemente, ConvLLaVA propuso un codificador visual basado exclusivamente en convoluciones para modelos de visión y lenguaje.

Investigadores de Apple han desarrollado FastVLM, un modelo que logra un equilibrio optimizado entre resolución, latencia y precisión analizando cómo la calidad de imagen, tiempo de procesamiento, número de tokens y tamaño del modelo de lenguaje se afectan entre sí. Este modelo emplea FastViTHD, un codificador visual híbrido diseñado para generar menos tokens y reducir el tiempo de codificación de imágenes de alta resolución. Simplemente ajustando la resolución de entrada, FastVLM logra un balance óptimo entre cantidad de tokens visuales y calidad de imagen. En pruebas con LLaVA1.5, reduce el TTFT 3.2 veces y supera a LLaVA-OneVision en los principales benchmarks usando el mismo modelo de lenguaje de 0.5 mil millones de parámetros pero con resolución máxima. Además, entrega un TTFT 85 veces más rápido mientras utiliza un codificador visual 3.4 veces más pequeño.

Todos los modelos FastVLM se entrenaron en un solo nodo con 8 GPUs NVIDIA H100 de 80 GB, donde la primera fase de entrenamiento con un decodificador Qwen2-7B es rápida, durando alrededor de 30 minutos. FastViTHD mejora la arquitectura base FastViT añadiendo una etapa con una capa de reducción de muestreo (downsampling) para que la autoatención trabaje sobre tensores 32 veces más pequeños en lugar de 16, lo que reduce la latencia y produce cuatro veces menos tokens para el decodificador de lenguaje. FastViTHD consta de cinco etapas: las tres primeras usan bloques RepMixer para un procesamiento eficiente, y las dos últimas emplean bloques de autoatención multi-cabezal, buscando el mejor equilibrio entre eficiencia computacional y comprensión de imágenes de alta resolución.

En comparación con ConvLLaVA usando el mismo modelo de lenguaje y datos similares, FastVLM mejora el rendimiento un 8.4% en TextVQA y un 12.5% en DocVQA, operando además un 22% más rápido. Esta ventaja se amplía en resoluciones mayores, donde FastVLM mantiene velocidades de procesamiento el doble de rápidas en varios benchmarks. Con preentrenamiento intermedio usando 15 millones de muestras para escalar resolución, FastVLM iguala o supera el rendimiento de MM1 en diferentes pruebas, siendo capaz de generar cinco veces menos tokens visuales. También supera a Cambrian-1 y corre 7.9 veces más rápido. Tras ajustar la instrucción a mayor escala, entrega mejores resultados utilizando 2.3 veces menos tokens visuales.

En resumen, FastVLM es un avance significativo en modelos de visión y lenguaje al aprovechar el backbone FastViTHD para codificar imágenes de alta resolución de manera eficiente. Esta arquitectura híbrida preentrenada con datos reforzados de imagen y texto reduce la cantidad de tokens visuales mientras mantiene una precisión casi sin pérdidas en comparación con otros métodos. FastVLM ofrece un rendimiento competitivo en benchmarks de VLM y una mejora destacada en eficiencia, tanto en TTFT como en la cantidad de parámetros del codificador visual. Pruebas exhaustivas en hardware M1 MacBook Pro muestran que FastVLM consigue una combinación superior de resolución, latencia y precisión frente a métodos actuales.

↗

fuente original

https://www.marktechpost.com/2025/07/30/apple-researchers-introduce-fastvlm-achieving-state-of-the-art-resolution-latency-accuracy-trade-off-in-vision-language-models/

ver →

etiquetas:visión y lenguaje modelos multimodales procesamiento de imágenes de alta resolución eficiencia computacional fastvlm apple codificador visual