Los agentes basados en modelos de lenguaje grande (LLM) han evolucionado hasta manejar tareas complejas como la investigación en la web, generación de informes, análisis de datos y flujos de trabajo de software que requieren varios pasos. Sin embargo, aún enfrentan dificultades con la memoria procedimental, que suele ser rígida, diseñada manualmente o está encapsulada dentro de los pesos del modelo, lo que los hace vulnerables a interrupciones inesperadas como fallos de red o cambios en la interfaz. A diferencia de los humanos, que aprenden reutilizando experiencias pasadas como rutinas, los agentes actuales carecen de un método sistemático para construir, perfeccionar y reaprovechar habilidades procedimentales. Los marcos existentes ofrecen ciertas abstracciones, pero no resuelven completamente la optimización en el ciclo de vida de la memoria.
La memoria es clave para estos agentes, ya que les permite recordar interacciones previas en contextos a corto, medio y largo plazo. Aunque se usan técnicas como incrustaciones vectoriales, búsquedas semánticas y estructuras jerárquicas para almacenar y recuperar información, la gestión eficiente de la memoria, especialmente la procedimental, sigue siendo un desafío. Esta memoria es esencial para que los agentes automaticen tareas recurrentes, pero aún falta desarrollar estrategias claras para su creación, actualización y reutilización. Asimismo, aunque los agentes mejoran con métodos como aprendizaje por refuerzo, imitación o reproducción de experiencias, enfrentan problemas de eficiencia baja, poca generalización y olvido.
Investigadores de la Universidad de Zhejiang y el grupo Alibaba han presentado Memp, un marco diseñado para dotar a los agentes de una memoria procedimental adaptable y de larga duración. Memp convierte las trayectorias pasadas en instrucciones detalladas a nivel de cada paso y en guiones de mayor nivel, incorporando estrategias para construir, recuperar y actualizar esta memoria. En lugar de enfoques estáticos, el sistema mejora continuamente el conocimiento mediante procesos de adición, validación, reflexión y eliminación, garantizando relevancia y eficiencia. Probado en las plataformas ALFWorld y TravelPlanner, Memp logró aumentar la precisión, reducir exploraciones innecesarias y optimizar el uso de tokens. Además, la memoria creada por modelos más potentes se transfirió con éxito a modelos más simples, mejorando su desempeño, lo que demuestra que Memp permite a los agentes aprender, adaptarse y generalizar entre distintas tareas.
Cuando un agente interactúa con su entorno ejecutando acciones y refinando su comportamiento paso a paso, esta dinámica puede ser vista como un Proceso de Decisión de Markov. En cada paso se generan estados, acciones y retroalimentación, formando trayectorias que también otorgan recompensas según el éxito alcanzado. Sin embargo, al abordar tareas nuevas en entornos desconocidos, los agentes a menudo repiten acciones exploratorias ya realizadas, desperdiciando recursos. Inspirado en la memoria procedimental humana, Memp incorpora un módulo que almacena, recupera y actualiza el conocimiento procedimental, permitiendo reutilizar experiencias previas, evitar repeticiones y mejorar la eficiencia en tareas complejas.
Los experimentos en TravelPlanner y ALFWorld mostraron que almacenar las trayectorias tanto como pasos detallados o guiones abstractos aumenta la precisión y reduce el tiempo de exploración. Las estrategias de recuperación basadas en similitud semántica mejoran aún más el uso de la memoria. Al mismo tiempo, mecanismos dinámicos de actualización como validación, ajuste y reflexión permiten corregir errores, eliminar conocimientos obsoletos y perfeccionar habilidades constantemente. Los resultados indican que la memoria procedimental no solo mejora las tasas de éxito y la eficiencia, sino que además puede transferirse de modelos más robustos a otros más pequeños, otorgándoles un significativo impulso en rendimiento. También se observó que aumentar la recuperación de memoria mejora los resultados hasta cierto límite, después del cual una cantidad excesiva puede saturar el contexto y disminuir la efectividad. Esto reafirma la memoria procedimental como una herramienta poderosa para hacer a los agentes más adaptativos, eficientes y con una forma de aprendizaje más parecida a la humana.
En resumen, Memp es un marco independiente de la tarea que coloca la memoria procedimental como un elemento central para optimizar agentes basados en LLM. Al diseñar de forma sistemática estrategias para construir, recuperar y actualizar esta memoria, Memp permite a los agentes destilar, refinar y reutilizar experiencias previas, mejorando la eficiencia y precisión en tareas de largo alcance como TravelPlanner y ALFWorld. A diferencia de las memorias estáticas o diseñadas manualmente, Memp evoluciona dinámicamente, actualizando y descartando conocimientos obsoletos continuamente. Los resultados demuestran mejoras sostenidas en el desempeño, un aprendizaje más eficiente y beneficios transferibles al migrar memoria entre modelos de distinta potencia. De cara al futuro, métodos más sofisticados de recuperación y mecanismos de autoevaluación podrían fortalecer aún más la capacidad de adaptación de los agentes en escenarios reales.



