Las tareas de razonamiento visual representan un gran desafío para los modelos de inteligencia artificial, pues requieren interpretar y procesar información visual combinando percepción y lógica. Estas tareas abarcan desde diagnósticos médicos hasta problemas matemáticos visuales, acertijos simbólicos o respuestas basadas en imágenes. No basta con reconocer objetos: los modelos necesitan adaptarse, abstraer y hacer inferencias contextuales. Es fundamental que puedan analizar imágenes, detectar elementos relevantes y, muchas veces, generar explicaciones o soluciones que impliquen varios pasos de razonamiento vinculados a lo que ven.
El principal obstáculo surge cuando se les pide a estos sistemas que apliquen lógica o ajusten sus estrategias para distintos tipos de tareas visuales. La mayoría de los modelos actuales carecen de flexibilidad, suelen basarse en patrones o rutinas predefinidas, y tienen dificultades para descomponer problemas nuevos o crear soluciones fuera de lo que ya saben hacer. También fallan cuando se requiere razonamiento abstracto o mirar más allá de las características superficiales de la imagen. Por eso, el desarrollo de un sistema capaz de adaptarse de forma autónoma y construir nuevas herramientas para razonar se ha vuelto una necesidad crucial.
Hasta ahora, la mayoría de los modelos usaban conjuntos de herramientas fijos y procesaban la información en un solo paso. Soluciones como Visual ChatGPT, HuggingGPT o ViperGPT integran módulos de segmentación o detección, pero están limitadas a flujos de trabajo preestablecidos, lo que restringe su creatividad y capacidad de adaptación. Estos sistemas no pueden modificar ni ampliar sus herramientas en medio de una tarea y trabajan de forma lineal, lo que dificulta su aplicación en escenarios que requieren razonamiento iterativo y análisis más profundo.
Para superar estas limitaciones, un equipo conjunto de Shanghai AI Lab, Rice University, CUHK, NUS y SII desarrolló PyVision, un marco que permite a grandes modelos multimediales de lenguaje (MLLMs) crear y ejecutar de forma autónoma herramientas basadas en Python, adaptadas a problemas específicos de razonamiento visual. A diferencia de otros enfoques, PyVision no depende de módulos estáticos: utiliza Python como lenguaje central y construye herramientas dinámicamente en un ciclo de múltiples pasos. Esto le permite al sistema modificar su estrategia durante la tarea, tomar decisiones, analizar resultados y ajustar su código o razonamiento a lo largo de varios pasos.
En la práctica, PyVision comienza recibiendo una consulta del usuario junto con una imagen. El modelo MLLM, como GPT-4.1 o Claude-4.0-Sonnet, genera código en Python según el pedido, que se ejecuta en un entorno aislado. Los resultados—ya sean texto, imágenes o datos numéricos—se retroalimentan al modelo, que puede así revisar su plan, escribir nuevo código y repetir este proceso hasta encontrar la solución adecuada. Este esquema permite mantener el estado entre interacciones, posibilitando un razonamiento secuencial. Además, PyVision incluye mecanismos internos de seguridad, como la ejecución en procesos aislados y una entrada/salida estructurada, asegurando un desempeño sólido incluso con razonamientos complejos. Para trabajar con imágenes, utiliza librerías populares de Python como OpenCV, NumPy y Pillow, que le permiten hacer segmentación, reconocimiento óptico de caracteres (OCR), mejoras visuales y análisis estadístico.
Los benchmarks cuantitativos confirman la efectividad de PyVision. En la prueba de búsqueda visual V*, mejoró el desempeño de GPT-4.1 del 68.1% al 75.9%, un aumento de 7.8 puntos porcentuales. En razonamiento visual simbólico VLMsAreBlind-mini, Claude-4.0-Sonnet pasó del 48.1% al 79.2%, ganando 31.1 puntos. Otros incrementos observados incluyen +2.4% en MMMU y +2.5% en VisualPuzzles para GPT-4.1; y +4.8% en MathVista y +8.3% en VisualPuzzles para Claude-4.0-Sonnet. Estas mejoras dependen de las fortalezas de cada modelo: los que destacan en percepción sacan más provecho en tareas visuales, mientras que los más fuertes en razonamiento se benefician en desafíos abstractos. PyVision potencia las capacidades del modelo base, sin reemplazarlas ni ocultarlas.
Esta investigación representa un avance importante en el razonamiento visual. PyVision elimina una barrera fundamental al permitir que los modelos creen herramientas específicas para cada problema en tiempo real, transformándolos de sistemas estáticos en agentes capaces de resolver problemas de forma iterativa y reflexiva. Al integrar dinámicamente la percepción con el razonamiento, PyVision marca un paso clave hacia una inteligencia artificial más inteligente y adaptable para enfrentar desafíos visuales complejos del mundo real.



