El razonamiento multimodal, que permite a los modelos integrar y entender información proveniente de diversas fuentes como texto, imágenes y diagramas, representa un desafío clave en la inteligencia artificial. VL-Cogito es un modelo multimodal de lenguaje grande (MLLM) desarrollado por DAMO Academy (Alibaba Group) y sus colaboradores, que destaca por implementar una nueva técnica de aprendizaje por refuerzo que mejora significativamente las habilidades de razonamiento en áreas como matemáticas, ciencias, lógica, gráficos y comprensión general.
Innovaciones principales El enfoque de VL-Cogito gira en torno a un marco llamado Aprendizaje por Refuerzo con Currículo Progresivo (PCuRL), diseñado para superar problemas de inestabilidad y diferencias entre dominios que suelen afectar al razonamiento multimodal. Este marco introduce dos mecanismos clave:
- Ponderación suave de dificultad en línea (ODSW): en lugar de descartar muestras de entrenamiento consideradas muy fáciles o difíciles, este método asigna pesos dinámicos a los ejemplos según su nivel de dificultad y la capacidad actual del modelo. Así, el modelo avanza gradualmente, comenzando con casos claros y progresando hacia los más complejos mediante un currículo continuo. ODSW ajusta el enfoque para etapas fáciles, medias o difíciles basándose en la precisión obtenida, siguiendo teorías de aprendizaje y distribución empírica de la dificultad.
- Recompensa dinámica de longitud (DyLR): a diferencia de las recompensas tradicionales que establecen una longitud fija para las respuestas, DyLR calcula una longitud ideal por prompt basándose en la media de respuestas correctas previas. Esto favorece respuestas breves y rápidas para tareas sencillas, mientras que para las más complejas incentiva cadenas de razonamiento más largas y detalladas, equilibrando eficiencia y precisión.
Proceso de entrenamiento El entrenamiento de VL-Cogito usando aprendizaje por refuerzo no requiere un ajuste supervisado previo (SFT). Parte directamente del modelo base Qwen2.5-VL-Instruct-7B y se estructura en tres etapas secuenciales: fácil, media y difícil. En cada fase:
- Se baraja el conjunto de datos para desafiar la capacidad de generalización del modelo.
- La función de ponderación ODSW orienta el aprendizaje hacia la dificultad objetivo de la etapa.
- En la fase difícil, se activa DyLR para fomentar respuestas adaptativas y extensas.
Aspectos técnicos incluyen el uso del optimizador AdamW con una tasa de aprendizaje de 1e-6, un tamaño de lote de rollout de 512, secuencias largas de hasta 4096 tokens, y una serie de hiperparámetros calibrados para las recompensas.
Datos para entrenamiento El dataset de entrenamiento está cuidadosamente seleccionado, combinando 23 conjuntos de datos multimodales de código abierto que cubren seis categorías: razonamiento matemático, lógico, conteo, científico, comprensión de gráficos y comprensión general de imágenes. Todos los ejemplos se reformulan en formato de preguntas abiertas para evitar pistas superficiales propias de opciones múltiples. Además, se descartan muestras que el modelo base supera con más del 50% de precisión en múltiples intentos, asegurando así que solo se entrenen ejemplos realmente desafiantes.
Resultados en evaluación VL-Cogito fue probado en diez conjuntos de tareas variadas, incluyendo Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, entre otros. Frente al modelo base, mejoró la precisión absoluta en varios benchmarks clave: +7.6% en Geometry@3K, +5.5% en MathVista y +4.9% en LogicVista, por ejemplo. Obtuvo resultados de vanguardia en 6 de los 10 conjuntos, especialmente en tareas rigurosas de matemáticas y ciencias. Incluso modelos que fueron entrenados inicialmente con ajuste supervisado o que usan técnicas de replanteamiento no lograron superar el rendimiento robusto que ofrece este aprendizaje por refuerzo con currículo progresivo.
Análisis de componentes Al evaluar el impacto de cada componente, se observó que:
- El currículo por refuerzo mejora el rendimiento promedio en +0.8% respecto al aprendizaje estándar.
- La recompensa dinámica de longitud potencia especialmente el desempeño en matemáticas complejas.
- ODSW supera de forma constante a métodos binarios tradicionales que filtran muestras difíciles, siendo más efectivo cuando los datos están desequilibrados.
Eficiencia y dinámica de entrenamiento Las recompensas adaptativas lograron una mejor precisión y eficiencia en el uso de tokens, ajustando la extensión de las respuestas según el tipo de tarea: respuestas más largas en matemáticas y lógica, más breves en ciencias y comprensión general. Durante la fase difícil, el modelo amplía su cadena de razonamiento y mejora su precisión, a diferencia de los métodos con recompensas estáticas que tienden a estancarse.
Ejemplos de funcionamiento VL-Cogito demuestra razonamientos detallados y auto-reflexivos. En matemáticas, descompone las soluciones en pasos claros y corrige errores en el proceso, gracias al aprendizaje por refuerzo y la estimación de ventajas. En tareas de clasificación, como identificar elementos en imágenes, evalúa cuidadosamente cada opción antes de elegir la respuesta, mostrando una comprensión sólida y confiable en entornos multimodales.
Conclusiones e impacto Las claves que aporta VL-Cogito incluyen:
- El valor de adaptar el nivel de dificultad a las capacidades del modelo para optimizar su aprendizaje.
- La importancia de abordar desafíos crecientes para fomentar un razonamiento profundo y duradero.
- La necesidad de recompensas detalladas que contemplen precisión, formato y extensión para respuestas contextuales.
- Que es viable y eficaz iniciar el aprendizaje por refuerzo sin una etapa previa de ajuste supervisado costoso.
En resumen, la arquitectura y las innovaciones de entrenamiento de VL-Cogito marcan un nuevo referente para el razonamiento multimodal, proponiendo una ruta clara hacia modelos más robustos y versátiles en entender y razonar con diferentes tipos de información.



