En un futuro, los robots domésticos podrían encargarse de las tareas diarias de forma autónoma, aprendiendo con el tiempo las rutinas del hogar. Imagina que te sirvan el café en la mañana sin necesidad de decírselo, simplemente porque han registrado tus hábitos. Para que un agente multimodal logre esta inteligencia, debe (a) observar el entorno a través de diversos sensores, (b) almacenar sus experiencias en memorias a largo plazo y (c) razonar sobre esa memoria para tomar decisiones. Aunque la investigación actual se centra en agentes basados en modelos de lenguaje, los agentes multimodales trabajan con diferentes tipos de información, creando recuerdos más complejos que plantean nuevos retos para mantener la coherencia en el tiempo. No basta con guardar descripciones; estos agentes deben construir un conocimiento interno del mundo, similar a cómo aprendemos los humanos.
Hasta ahora, algunas soluciones consisten en agregar directamente a la memoria las acciones o diálogos del agente, mejorados en ciertos casos con resúmenes o representaciones estructuradas. En agentes multimodales, crear memoria se conecta con entender videos en línea; métodos tempranos para ampliar la información visual suelen fallar al manejar secuencias largas. Almacenar características visuales codificadas ayuda a escalar, pero complica mantener la coherencia a largo plazo. Por otro lado, el marco Socratic Models emplea memorias basadas en lenguaje para describir videos, lo que mejora la escalabilidad, aunque enfrenta dificultades para seguir eventos y objetos que evolucionan con el tiempo.
Investigadores de ByteDance Seed, la Universidad de Zhejiang y la Universidad Jiao Tong de Shanghái han desarrollado M3-Agent, un agente multimodal con memoria a largo plazo. Este sistema procesa en tiempo real imágenes y sonidos para construir y actualizar su memoria, imitando cómo los humanos recuerdan. A diferencia de memorias episódicas tradicionales, M3-Agent también crea memorias semánticas que acumulan conocimiento del mundo a lo largo del tiempo. Su memoria está organizada en una estructura multimodal centrada en entidades, lo que garantiza una comprensión más profunda y coherente del entorno. Cuando recibe indicaciones, el agente realiza razonamientos en múltiples etapas y recupera información relevante de forma autónoma. Además, se diseñó M3-Bench, una herramienta para evaluar la capacidad del agente en responder preguntas sobre videos extensos.
M3-Agent integra un modelo multimodal de lenguaje y un módulo de memoria a largo plazo que funcionan en paralelo mediante dos procesos: la memorización y el control. La memoria a largo plazo es una base de datos externa que guarda datos estructurados en un grafo, donde cada nodo representa un ítem con un identificador único, su modalidad, contenido original, representaciones internas y metadatos. Durante la memorización, M3-Agent analiza secuencias de video fragmento por fragmento, creando memorias episódicas con el contenido bruto y memorias semánticas con conocimiento abstracto, como identidades y relaciones. En la fase de control, realiza razonamientos en varias etapas, buscando en la memoria la información más útil hasta un límite predefinido. El entrenamiento se optimiza con aprendizaje por refuerzo, y los modelos de memorización y control se entrenan por separado para mejorar el rendimiento.
Al probar M3-Agent en los conjuntos M3-Bench-robot y M3-Bench-web, el agente mostró un rendimiento destacado. En M3-Bench-robot, superó al mejor competidor, MA-LLM, con una mejora de 6.3% en precisión. En M3-Bench-web y VideoMME-long, aventajó a GeminiGPT4o-Hybrid en 7.7% y 5.3%, respectivamente. También destacó en comprensión humana y razonamiento multimodal, superando a MA-LMM y Gemini-GPT4o-Hybrid con mejoras significativas en ambas áreas. Estos resultados demuestran la capacidad de M3-Agent para mantener la coherencia en sus descripciones, mejorar la comprensión y fusionar información de distintas modalidades de forma efectiva.
En resumen, M3-Agent es un marco multimodal con memoria duradera que procesa video y audio en tiempo real para generar memorias episódicas y semánticas, acumulando conocimiento y manteniendo la coherencia contextual a lo largo del tiempo. Sus resultados superan a todos los modelos comparados en varios benchmarks, y sus estudios de caso revelan áreas a mejorar, como los mecanismos de atención para memoria semántica y la eficiencia en sistemas visuales. Estos avances abren el camino hacia agentes de inteligencia artificial más parecidos a humanos y con mayor utilidad práctica.



