Aunque los modelos de lenguaje visual (VLMs) son muy buenos entendiendo textos e imágenes, suelen basar su razonamiento solo en texto, lo que limita su capacidad para resolver tareas que requieren pensamiento visual, como los rompecabezas espaciales. Las personas, por lo general, visualizamos soluciones en lugar de describir cada detalle, pero estos modelos tienen dificultades para hacerlo. Algunos modelos recientes pueden generar texto e imágenes, pero entrenarlos para crear imágenes a menudo afecta negativamente su habilidad para razonar. Además, producir imágenes no facilita un razonamiento visual paso a paso. Por eso, aprovechar todo el potencial de los VLMs para pensar de forma compleja y visual sigue siendo un reto importante.
El método conocido como CoT (Chain-of-Thought) anima a los modelos a razonar paso a paso mediante ejemplos que incluyen explicaciones intermedias. Esta idea se ha adaptado a tareas multimodales, integrando información visual en el proceso de razonamiento. Por ejemplo, técnicas como ICoT insertan regiones de imagen dentro de secuencias de texto, mientras que Visual CoT usa anotaciones visuales para mejorar la comprensión espacial. Algunos modelos recientes pueden generar texto e imágenes al mismo tiempo, pero requieren mucha supervisión y alto costo computacional. Por otro lado, hay investigaciones que buscan incorporar el razonamiento directamente dentro del modelo, guiando sus estados internos con tokens o representaciones latentes en lugar de pasos explícitos.
Un grupo de investigadores de la Universidad de Massachusetts Amherst y el MIT propone un enfoque inspirado en cómo los humanos utilizan imágenes mentales para pensar, es decir, crear internamente visuales simples y relevantes para la tarea. Presentan Mirage, un marco que permite a los VLMs integrar razonamiento visual directamente en sus textos sin generar imágenes completas. En lugar de eso, el modelo inserta pequeñas señales visuales extraídas de sus estados internos. Su entrenamiento consta de dos fases: primero, con supervisión conjunta de texto e imágenes, y luego solo con orientación textual. Una etapa final de aprendizaje por refuerzo mejora aún más su capacidad para razonar. Mirage ayuda a los VLMs a pensar más parecido a las personas, elevando su desempeño en tareas multimodales complejas.
Mirage funciona usando señales visuales compactas, llamadas tokens latentes, dentro del proceso de razonamiento sin necesidad de renderizar imágenes completas. Primero, el modelo asocia estas representaciones comprimidas a características reales de imágenes mediante supervisión conjunta y ayudas visuales. Después, se relaja esta restricción para que el modelo genere sus propios tokens latentes y los utilice para guiar su razonamiento, permitiendo así un pensamiento multimodal intercalado. Finalmente, con aprendizaje por refuerzo, se ajusta para obtener respuestas correctas y un razonamiento estructurado.
El equipo evaluó Mirage en cuatro tareas de razonamiento espacial, como rompecabezas visuales y problemas de geometría, usando un conjunto de datos pequeño de 1,000 ejemplos. Para apoyar el razonamiento, genera imágenes y pasos de pensamiento sintéticos, imitándo cómo los humanos usan bocetos y señales para facilitar el proceso mental. El modelo superó consistentemente a las versiones solo de texto o multimodales convencionales, incluso en tareas que requieren planificación extensa, como resolver laberintos. Una versión más pequeña del modelo también obtuvo buenos resultados, demostrando la robustez del enfoque. Estudios de ablación confirmaron que la clave está en fijar primero los tokens latentes visuales y luego permitir un entrenamiento flexible. En resumen, alternar el razonamiento visual y textual sin generar imágenes reales mejora tanto la comprensión como la precisión.
En conclusión, guiados por la forma en que las personas usan imágenes mentales para razonar, estos investigadores desarrollaron un método ligero que permite a los VLMs pensar visualmente sin producir imágenes completas. El modelo aprende a combinar señales visuales compactas con texto durante la generación, atravesando dos fases de entrenamiento: primero anclando esas señales a imágenes reales y después dejándolas evolucionar libremente para apoyar el razonamiento. Una etapa final de aprendizaje por refuerzo optimiza su desempeño. Probado en tareas de razonamiento espacial, el método supera a los modelos tradicionales basados solo en texto. Sin embargo, aún quedan desafíos para extenderlo a otras tareas y mejorar la calidad de los datos sintéticos usados en el entrenamiento.



