Los modelos de incrustación funcionan como un puente entre diferentes tipos de datos al codificar información multimodal diversa en un espacio compartido de representaciones densas. En los últimos años, estos modelos han avanzado gracias al progreso en grandes modelos base. Sin embargo, los modelos multimodales actuales suelen entrenarse con conjuntos de datos como MMEB y M-BEIR, que se enfocan principalmente en imágenes naturales y fotografías provenientes de bases como MSCOCO, Flickr e ImageNet. Estas fuentes no abarcan formatos visuales más amplios como documentos, PDFs, sitios web, videos o diapositivas, lo que limita el rendimiento de los modelos en tareas reales como búsqueda de artículos, sitios web o videos en YouTube.
Los benchmarks para incrustaciones multimodales originales, como MSCOCO, Flickr30K y Conceptual Captions, se centraban en pares estáticos de imagen y texto para tareas como generación de descripciones y recuperación de imágenes. Posteriormente, benchmarks más recientes como M-BEIR y MMEB introdujeron evaluaciones multitarea, pero siguen limitándose a imágenes estáticas y contextos breves. En cuanto al aprendizaje para representación de video, modelos como VideoCLIP y VideoCoCa combinan aprendizaje contrastivo con objetivos de generación de descripciones. En el ámbito de documentos visuales, avances como ColPali y VisRAG utilizan modelos de lenguaje visual para recuperación. También existen métodos unificados como GME y Uni-Retrieval que logran buen desempeño en benchmarks universales, pero ninguno integra en un solo marco la recuperación de imágenes, videos y documentos visuales.
Frente a estas limitaciones, un equipo de investigadores de Salesforce Research, UC Santa Barbara, Universidad de Waterloo y la Universidad de Tsinghua propuso VLM2Vec-V2, un modelo que unifica la recuperación de imágenes, videos y documentos visuales en un único sistema. Para ello, primero crearon MMEB-V2, una extensión del benchmark MMEB que añade cinco nuevas tareas: recuperación de documentos visuales, recuperación de videos, anclaje temporal, clasificación de videos y preguntas sobre videos. Luego, desarrollaron VLM2Vec-V2 como un modelo de incrustación generalista capaz de manejar múltiples modalidades y que muestra un rendimiento destacado tanto en estas nuevas tareas como en los benchmarks tradicionales de imágenes. Esto sienta las bases para un aprendizaje de representaciones más flexible y escalable, aplicable en investigación y casos prácticos.
VLM2Vec-V2 se apoya en Qwen2-VL como modelo base, elegido por sus habilidades especializadas en procesamiento multimodal. Qwen2-VL cuenta con tres características claves para el aprendizaje unificado de incrustaciones: resolución dinámica sencilla, un embebido posicional rotatorio multimodal (M-RoPE) y un marco que combina convoluciones en 2D y 3D. Para entrenar de forma efectiva en múltiples tareas y conjuntos de datos diversos, VLM2Vec-V2 implementa una pipeline flexible de muestreo de datos con dos elementos principales: (a) mezcla en tiempo real de lotes basada en tablas de pesos que controlan la probabilidad relativa de cada conjunto de datos, y (b) una estrategia de sub-loteo entrelazado que divide los lotes completos en sub-lotes independientes para mejorar la estabilidad del aprendizaje contrastivo.
En pruebas, VLM2Vec-V2 alcanzó un puntaje promedio total de 58.0 sobre 78 conjuntos de datos que incluyen tareas con imágenes, videos y documentos visuales. Esto supera a baselines robustos como GME, LamRA y el propio VLM2Vec sobre la misma base Qwen2-VL. En tareas de imágenes, el modelo supera ampliamente a la mayoría de competidores y ofrece un rendimiento comparable a VLM2Vec-7B, a pesar de tener solo 2 mil millones de parámetros. En tareas de video, obtiene resultados competitivos aunque se entrenó con cantidades limitadas de datos de video. En recuperación de documentos visuales, supera todas las variantes VLM2Vec, aunque todavía queda detrás de ColPali, que está especialmente optimizado para esta tarea.
En resumen, VLM2Vec-V2 es un sólido modelo base entrenado mediante aprendizaje contrastivo en una amplia variedad de tareas y combinaciones multimodales. Este modelo se construyó sobre el benchmark MMEB-V2 y utiliza Qwen2-VL como base. MMEB-V2 no solo permite evaluar modelos multimodales en diversas modalidades —texto, imágenes, videos y documentos visuales—, sino que también aporta valor diagnóstico para futuras investigaciones. Los resultados experimentales demuestran la efectividad de VLM2Vec-V2 al lograr un desempeño equilibrado en múltiples modalidades, consolidándose como una referencia para desarrollos posteriores.



