Volver al blog
Artículo destacado

MIRIX: Modular Memory System to Boost Long-Term Reasoning in LLM Agents

Escrito por

MIIA

Publicado

21 de julio de 2025

Lectura

5 min

MIRIX: Modular Memory System to Boost Long-Term Reasoning in LLM Agents
Los avances recientes en agentes de modelos de lenguaje grande (LLM) se han centrado principalmente en mejorar su capacidad para cumplir tareas complejas. Sin embargo, un aspecto fundamental que aún está poco explorado es la “memoria”: la habilidad de estos agentes para almacenar, recordar y razonar sobre información específica del usuario a lo largo del tiempo. Sin una memoria persistente, la mayoría de estos agentes son estatales y solo pueden trabajar con el contexto de una sola interacción, lo que limita mucho su utilidad en aplicaciones reales donde la consistencia y la personalización son clave. Para superar esta limitación, MIRIX AI ha desarrollado MIRIX, un sistema modular de memoria para agentes que busca dotar a los agentes basados en LLM con una memoria a largo plazo sólida. A diferencia de sistemas planos y centrados solo en texto, MIRIX integra distintos tipos de memoria estructurada, incluyendo entradas visuales, y está basado en una arquitectura coordinada de múltiples agentes que gestionan la memoria de forma eficiente. La arquitectura principal de MIRIX está compuesta por seis memorias especializadas, cada una controlada por un administrador particular: - Memoria Central: Guarda información persistente tanto del agente (perfil, tono y comportamiento) como del usuario (nombre, preferencias, relaciones). - Memoria Episódica: Registra eventos y interacciones con atributos estructurados como tipo de evento, resumen, detalles, participantes y fecha. - Memoria Semántica: Codifica conceptos abstractos, grafos de conocimiento y entidades nombradas organizadas por tipo, resumen, detalles y fuente. - Memoria Procedimental: Contiene flujos de trabajo y secuencias de tareas bien definidas, a menudo en formato JSON para facilitar su manipulación. - Memoria de Recursos: Mantiene referencias a documentos, imágenes y audios, con títulos, resúmenes, tipo de recurso y contenido o enlaces. - Bóveda de Conocimiento: Resguarda datos verbales y sensibles como credenciales, contactos y claves API, con controles estrictos de acceso y etiquetas de sensibilidad. Un administrador meta coordina estos seis managers, facilitando el enrutamiento inteligente de mensajes, almacenamiento jerárquico y consultas específicas según el tipo de memoria. Además, otros agentes complementarios con funciones de chat e interfaz colaboran en esta arquitectura. Uno de los avances más destacados de MIRIX es su mecanismo de Recuperación Activa. Cuando el usuario ingresa un comando, el sistema primero infiere automáticamente el tema, luego busca información relevante en las seis memorias, y finalmente etiqueta estos datos para integrarlos en el contexto de la respuesta. Esto disminuye la dependencia en el conocimiento estático del modelo y fortalece la precisión y fundamentación de las respuestas. MIRIX utiliza diversas estrategias de recuperación —como embedding_match, bm25_match y string_match— para asegurar un acceso exacto y sensible al contexto, y la arquitectura está diseñada para incorporar nuevas técnicas de búsqueda según se requiera. En cuanto a la implementación, MIRIX se presenta como una aplicación asistente multiplaforma creada con React-Electron para la interfaz y Uvicorn para el backend API. El asistente monitorea la pantalla realizando capturas de imagen cada 1.5 segundos; solo conserva las imágenes únicas y actualiza la memoria en lotes tras acumular 20 capturas (aproximadamente cada minuto). La carga hacia la API Gemini se realiza de forma continua, lo que permite procesar datos visuales eficazmente y actualizar la memoria con una latencia inferior a 5 segundos. Los usuarios interactúan a través de un chat que accede dinámicamente a las memorias para generar respuestas personalizadas y ajustadas al contexto. Las memorias semánticas y procedimentales se muestran como árboles o listas desplegables, otorgando transparencia y permitiendo a los usuarios revisar lo que el agente recuerda sobre ellos. MIRIX ha sido evaluado en dos tareas rigurosas: - ScreenshotVQA: Un benchmark de preguntas visuales sobre capturas de pantalla de alta resolución que requiere memoria persistente. MIRIX superó en un 35% la precisión de los sistemas basados en generación aumentada con recuperación (RAG), como SigLIP y Gemini, y redujo en un 99.9% el almacenamiento necesario en comparación con métodos basados en texto. - LOCOMO: Una prueba textual que evalúa la memoria en conversaciones prolongadas. MIRIX alcanzó un 85.38% de precisión promedio, superando en más de 8 puntos a otros sistemas abiertos como LangMem y Mem0, acercándose al límite superior de contexto completo. Gracias a su diseño modular, MIRIX ofrece un desempeño destacado tanto en dominios multimodales como puramente textuales. Entre sus aplicaciones prácticas, MIRIX está pensado para integrarse en dispositivos de IA livianos, como gafas inteligentes o pines, gracias a su arquitectura eficiente y modular. Permite implementaciones híbridas que combinan memoria en el dispositivo y en la nube, y soporta funcionalidades como resúmenes en tiempo real de reuniones, recuerdo detallado de ubicaciones y contextos, y modelos dinámicos de hábitos de usuario. Una característica innovadora es el Mercado de Memorias, un ecosistema descentralizado que facilita compartir memorias de forma segura, monetizarlas y personalizar colaborativamente la IA entre usuarios. Este mercado incorpora controles de privacidad detallados, cifrado de extremo a extremo y almacenamiento descentralizado para garantizar el control total del usuario sobre sus datos. En resumen, MIRIX representa un avance importante para dotar a los agentes basados en LLM con una memoria más parecida a la humana. Su arquitectura composicional y multiagente soporta abstracción robusta, multimodalidad y razonamiento contextualmente fundamentado en tiempo real. Con resultados sobresalientes en benchmarks exigentes y una interfaz accesible en múltiples plataformas, MIRIX establece un nuevo estándar en sistemas de IA potenciados con memoria. Preguntas frecuentes: 1. ¿Qué diferencia a MIRIX de otros sistemas de memoria como Mem0 o Zep? MIRIX ofrece memoria composicional y multi-componente que va más allá del simple almacenamiento de fragmentos de texto, incluye soporte multimodal (como visión), y una arquitectura multiagente para gestionar la memoria a largo plazo de forma más escalable, precisa y rica en contexto. 2. ¿Cómo logra MIRIX actualizaciones rápidas de memoria visual? Gracias a la combinación de cargas continuas y el uso de las APIs Gemini, MIRIX puede incorporar información visual de capturas de pantalla con una latencia menor a cinco segundos, incluso durante sesiones activas. 3. ¿Es compatible MIRIX con modelos cerrados como GPT-4? Sí. Al operar externamente y no como un plugin interno del modelo, MIRIX puede complementar cualquier LLM, independientemente de su arquitectura o licencia, incluyendo GPT-4, Gemini y otros modelos propietarios.