Los grandes modelos multimodales (LMMs) han revolucionado la forma en que los sistemas interpretan imágenes, responden preguntas visuales y acceden a información factual combinando diversas modalidades. Gracias a estos avances, asistentes virtuales y sistemas de inteligencia artificial utilizados en el mundo real han mejorado notablemente sus capacidades. Sin embargo, pese a manejar grandes volúmenes de datos durante su entrenamiento, estos modelos suelen tener dificultades para incorporar información dinámica o actualizada, especialmente cuando se trata de hechos que surgen después de su formación o que están protegidos por restricciones de acceso.
Una de las principales limitaciones de los LMMs actuales es su incapacidad para responder consultas que requieren datos en tiempo real o información poco común. Al enfrentarse a imágenes inéditas o hechos recientes, estos modelos tienden a inventar respuestas en lugar de reconocer sus límites o buscar ayuda externa. Este problema es especialmente serio en contextos donde la precisión es fundamental, como en preguntas sobre eventos actuales o detalles específicos de una materia. Estas carencias comprometen la confiabilidad de los LMMs y los hacen poco adecuados para tareas que necesitan verificación factual o actualización constante.
Para superar estos obstáculos, se han desarrollado herramientas que permiten a los modelos conectarse con fuentes externas de conocimiento. Por ejemplo, Retrieval-Augmented Generation (RAG) recupera datos de bases de información estáticas antes de generar respuestas, mientras que agentes basados en búsquedas guiadas interactúan con fuentes online siguiendo pasos predefinidos de razonamiento. Sin embargo, RAG suele traer demasiada información y asume que todos los datos necesarios ya existen, mientras que los agentes de búsqueda guiada no pueden optimizar cómo realizan sus búsquedas a lo largo del tiempo. Estas limitaciones dificultan que ambos enfoques se adapten completamente a la imprevisibilidad del mundo real y que faciliten interacciones eficientes.
Ante esto, investigadores de ByteDance y el S-Lab de la Universidad Tecnológica de Nanyang desarrollaron MMSearch-R1, un nuevo marco que mejora el desempeño de los LMMs mediante aprendizaje por refuerzo. Esta metodología no solo permite que los modelos busquen información, sino que también los entrena para decidir cuándo buscar, qué buscar y cómo interpretar los resultados de manera efectiva. MMSearch-R1 es el primer sistema de aprendizaje por refuerzo de principio a fin que habilita a los LMMs a realizar búsquedas por demanda y en múltiples etapas dentro del entorno real de internet. Cuenta con herramientas para búsquedas tanto de imágenes como de texto, activadas según el juicio del modelo en lugar de seguir un proceso fijo.
El corazón de este sistema es Group Relative Policy Optimization (GRPO), una variante del algoritmo PPO. MMSearch-R1 aplica un sistema de recompensas que premia las respuestas correctas y penaliza las búsquedas innecesarias. El modelo lleva a cabo múltiples rondas de interacción, evaluando si es necesario obtener más información y eligiendo entre búsqueda textual o visual. Por ejemplo, usa SerpApi para obtener las cinco mejores imágenes o páginas web relacionadas y emplea Jina Reader junto a Qwen3-32B para recuperar y sintetizar contenido relevante. El modelo está entrenado para organizar sus razonamientos en formatos predefinidos, lo que ayuda a estructurar las respuestas, las acciones de búsqueda y el contenido recuperado a lo largo de las interacciones.
En las pruebas, MMSearch-R1-7B superó a otros modelos con recuperación de información del mismo tamaño y casi igualó el rendimiento de un modelo RAG de 32 mil millones de parámetros, mucho más grande. Además, logró esto reduciendo en más de un 30% el número de búsquedas realizadas, lo que indica que ofrece respuestas precisas de manera más eficiente. El desempeño del marco se evaluó en diversas tareas que requieren conocimiento profundo, y el comportamiento de búsqueda aprendido demostró ser tanto eficiente como confiable. Los investigadores también crearon y compartieron un conjunto de datos completo, llamado FactualVQA (FVQA), que incluye ejemplos donde se requiere o no búsqueda externa, lo que fue fundamental para enseñar al modelo a distinguir cuándo necesita información adicional.
En resumen, esta investigación aborda una limitación importante de los LMMs actuales al entrenarlos para que usen la búsqueda externa de forma selectiva y deliberada. En lugar de recuperar información de manera pasiva, MMSearch-R1 fomenta que los modelos actúen con intención, mejorando tanto la calidad como la eficiencia de sus respuestas. Esta solución representa un cambio en cómo se diseñan los sistemas de IA para interactuar con el mundo, enseñándoles a reconocer qué no saben y a actuar en consecuencia.



