Los modelos multimodales de base (MFMs), como GPT-4o, Gemini y Claude, han avanzado rápidamente en los últimos tiempos, especialmente en demostraciones públicas. Aunque sus habilidades lingüísticas están bien documentadas, su verdadera capacidad para comprender información visual aún no está del todo clara. Gran parte de los actuales benchmarks se enfocan en tareas basadas en texto, como preguntas visuales o clasificación, que tienden a reflejar más las fortalezas en lenguaje que sus aptitudes visuales. Además, estas pruebas suelen exigir salidas en texto, lo que dificulta hacer una evaluación justa de las competencias visuales o comparar los MFMs con modelos especializados en visión. Aspectos fundamentales como la percepción 3D, la segmentación y el agrupamiento —elementos clave para la comprensión visual— todavía son poco explorados en las evaluaciones actuales.

Aunque los MFMs han mostrado un desempeño destacado en tareas que combinan visión y lenguaje, como la generación de descripciones o la respuesta a preguntas visuales, su capacidad para comprender detalles visuales complejos no está completamente comprobada. La mayoría de las evaluaciones actuales dependen de salidas textuales, limitando las comparaciones con modelos dedicados exclusivamente a visión. Algunos trabajos intentan adaptar conjuntos de datos visuales para los MFMs mediante la conversión de anotaciones a texto, pero esto restringe la evaluación a resultados en lenguaje. También se han explorado técnicas de prompting para dividir las tareas visuales en subtareas más manejables, aunque la reproducibilidad aún presenta desafíos.

Investigadores del EPFL evaluaron varios modelos multimodales populares, como GPT-4o, Gemini 2.0 Flash y Claude 3.5 Sonnet, en tareas centrales de visión por computadora, incluyendo segmentación, detección de objetos y predicción de profundidad, usando datasets como COCO e ImageNet. Dado que la mayoría de estos modelos están diseñados para generar texto y se acceden a través de APIs, desarrollaron un sistema de encadenamiento de prompts para transformar estas tareas visuales en formatos compatibles con texto. Los resultados muestran que, aunque los MFMs son competentes como generalistas, aún quedan claramente por detrás de modelos especializados en visión, especialmente en tareas geométricas. Entre ellos, GPT-4o destacó al obtener el mejor desempeño en 4 de 6 tareas evaluadas. El conjunto de herramientas utilizado para la evaluación será liberado como código abierto.

Para evaluar a los MFMs en tareas visuales, el estudio implementó una estrategia de encadenamiento de prompts que divide los desafíos complejos en subtareas más simples y adaptadas al lenguaje. Por ejemplo, en lugar de predecir directamente cajas delimitadoras, el modelo identifica primero los objetos presentes y luego los ubica mediante recortes iterativos de la imagen. Para segmentación y agrupamiento, se fragmentan las imágenes en “superpíxeles”, que son unidades más fáciles de etiquetar y comparar. La estimación de profundidad y normales de superficie se basa en comparaciones por pares entre regiones de estos superpíxeles. Este enfoque modular aprovecha las fortalezas de los MFMs en clasificación y medida de similitud, y emplea controles de calibración para asegurar comparaciones justas. Además, la metodología es flexible y mejora su rendimiento al emplear prompts más detallados.

El análisis abarcó varios MFMs, incluidos GPT-4o, Gemini Flash y Claude 3.5, evaluados en tareas como clasificación de imágenes, detección de objetos y segmentación. Usando conjuntos de datos como ImageNet, COCO e Hypersim, GPT-4o alcanzó un 77.2% en ImageNet y 60.62 AP50 en detección de objetos, cifras que quedaron por debajo de modelos especialistas como ViT-G (90.94%) y Co-DETR (91.30%). En segmentación semántica, GPT-4o obtuvo un mIoU de 44.89, mientras que OneFormer lideró con 65.52. Si bien los MFMs muestran cierta resistencia a cambios en la distribución de los datos, presentan dificultades para el razonamiento visual detallado. El estudio también propuso líneas base con encadenamientos de prompts y oráculos para evaluar el rendimiento máximo posible.

En resumen, este trabajo presenta un marco de evaluación para medir las habilidades visuales de MFMs como GPT-4o, Gemini y Claude, convirtiendo tareas estándar de visión en formatos basados en prompts. Los resultados indican que estos modelos son mejores en tareas semánticas que en geométricas, con GPT-4o como líder general. Sin embargo, todos los MFMs quedan rezagados frente a modelos específicos de visión por tarea. A pesar de ser generalistas entrenados mayormente con datos imagen-texto, muestran avances prometedores, especialmente los modelos más recientes con capacidades de razonamiento, como o3, en tareas 3D. Entre sus limitaciones están el alto costo de inferencia y la sensibilidad a la formulación de prompts. De todos modos, este enfoque propone una vía unificada para evaluar la comprensión visual de los MFMs, sentando las bases para futuras mejoras.

↗

fuente original

https://www.marktechpost.com/2025/07/23/gpt-4o-understands-text-but-does-it-see-clearly-a-benchmarking-study-of-mfms-on-vision-tasks/

ver →

etiquetas:modelos multimodales evaluación de visión por computadora gpt-4o gemini claude tareas visuales benchmarking