Contrastive Language-Image Pre-training, conocido como CLIP, se ha vuelto fundamental en los modelos modernos de visión artificial y multimodales, permitiendo aplicaciones como la clasificación de imágenes sin necesidad de entrenamiento previo (zero-shot) y funcionando como codificadores visuales en modelos de lenguaje multimodal (MLLMs). Sin embargo, la mayoría de las variantes de CLIP, incluido Meta CLIP, se han desarrollado únicamente con datos en inglés, dejando de lado una gran cantidad de contenido no anglófono que existe en la web global.

Ampliar CLIP para incluir datos multilingües presenta dos desafíos principales: primero, la falta de métodos eficientes para recopilar datos masivos en otros idiomas; y segundo, el deterioro del rendimiento en inglés al añadir datos multilingües, un problema conocido como "la maldición del multilingüismo". Estos obstáculos limitan el desarrollo de modelos unificados que funcionen bien tanto en inglés como en otros idiomas.

Modelos como OpenAI CLIP y Meta CLIP dependen de conjuntos de datos centrados en inglés, mientras que métodos basados en distilación incorporan sesgos de modelos externos. Algunas alternativas como SigLIP y SigLIP 2 intentan aprovechar datos de búsquedas en Google Images, pero dependen de fuentes propietarias, lo que limita su escalabilidad. Por otro lado, modelos multilingües como M-CLIP y mCLIP usan técnicas de distilación con encoders visuales en inglés y entrenan codificadores de texto multilingües con datos de calidad variable. También hay enfoques híbridos como SLIP y LiT, que combinan supervisión lingüística con aprendizaje auto-supervisado para equilibrar la alineación semántica y la representación visual. Aunque estas propuestas representan avances, ninguna ha logrado superar los problemas fundamentales.

Un grupo de investigadores de Meta, MIT, Princeton y NYU presentó Meta CLIP 2, el primer modelo CLIP entrenado desde cero con pares de imágenes y texto que provienen de todo el mundo, sin depender de recursos externos como datos privados, traducción automática o distilación. Esta propuesta elimina la disyuntiva entre el rendimiento en inglés y otros idiomas a través de un diseño conjunto que escala metadatos, curación de datos, capacidad del modelo y el proceso de entrenamiento. Además, Meta CLIP 2 mantiene una alta compatibilidad con la arquitectura original de OpenAI CLIP, facilitando su aplicación a CLIP y sus variantes.

Entre las innovaciones clave para escalar a nivel global destacan: (a) metadatos escalables que abarcan más de 300 idiomas, (b) un algoritmo de curación por idioma que equilibra la distribución de conceptos, y (c) un marco de entrenamiento avanzado.

Para superar el primer desafío, los investigadores usaron datos globalmente curados; para el segundo, implementaron un marco de entrenamiento que sigue las configuraciones y arquitectura de OpenAI y Meta CLIP, agregando un tokenizador de texto multilingüe, ampliando la cantidad de pares de entrenamiento y analizando la capacidad mínima necesaria del modelo. Para asegurar la generalización, el entrenamiento se realizó con los modelos ViT-L/14 de OpenAI y ViT-H/14 de Meta CLIP, adaptados al soporte multilingüe. Además, sus análisis revelan que modelos con menor capacidad, como ViT-L/14, siguen sufriendo la maldición del multilingüismo, mientras que ViT-H/14 marca un punto de inflexión con mejoras significativas tanto en tareas en inglés como en otros idiomas.

Entrenado con datos globales y un mayor volumen de pares, Meta CLIP 2 supera a sus versiones enfocadas solo en inglés o solo en idiomas no ingleses en ambas tareas. Sin embargo, la "maldición" persiste cuando no se escala correctamente o se usan modelos más pequeños. Pasar de metadatos centrados en inglés a metadatos globales es fundamental; por ejemplo, eliminar el filtro que privilegia el inglés en textos alternativos reduce la precisión en ImageNet en un 0.6%, evidenciando cómo el aislamiento lingüístico afecta el rendimiento. Reemplazar metadatos en inglés por una mezcla global inicialmente baja el desempeño en inglés, pero mejora la capacidad multilingüe. Evaluaciones sobre clasificación zero-shot y localización geográfica con pocos ejemplos confirman que aumentar los pares de 13 mil millones en inglés a 29 mil millones globales mejora los resultados, salvo en benchmarks donde el desempeño está saturado.

En resumen, Meta CLIP 2 representa el primer modelo CLIP entrenado desde cero con pares imagen-texto globales. Demuestra que al escalar metadatos, curación y capacidad de entrenamiento es posible romper la maldición del multilingüismo y lograr beneficios mutuos para el inglés y otros idiomas. En su configuración ViT-H/14, mejora el desempeño en zero-shot ImageNet (del 80.5% al 81.3%) y sobresale en benchmarks multilingües como XM3600, Babel-IN y CVQA con un modelo unificado. Además, al liberar el código, los metadatos y métodos de curación, este trabajo abre la puerta para que la comunidad de investigación supere enfoques centrados únicamente en el inglés y aproveche todo el potencial de la web multimodal global.

↗

fuente original

https://www.marktechpost.com/2025/08/08/meta-clip-2-the-first-contrastive-language-image-pre-training-clip-trained-with-worldwide-image-text-pairs-from-scratch/

ver →

etiquetas:clip visión artificial modelos multimodales multilingüismo meta clip 2 datos globales aprendizaje automático