Crear agentes de inteligencia artificial efectivos va mucho más allá de elegir un modelo de lenguaje potente. El proyecto Manus ha demostrado que el diseño y la gestión del "contexto"—la información que la IA utiliza para tomar decisiones—son fundamentales. Este trabajo, al que llaman "ingeniería del contexto", influye directamente en la velocidad, el costo, la confiabilidad y la inteligencia del agente.
Al principio, la decisión fue clara: aprovechar el aprendizaje en contexto de los modelos más avanzados, en lugar de recurrir a ajustes finos lentos y repetitivos. Esto facilita mejoras rápidas, permitiendo actualizar el producto en horas en vez de en semanas, y así adaptarse mejor a la evolución de la inteligencia artificial. Sin embargo, no fue un camino sencillo y requirió reconstrucciones constantes del marco de trabajo, un proceso que describen con humor como “Descenso Estocástico Graduado”, una forma de tanteo experimental.
Estas son las lecciones clave que aprendieron en Manus para una ingeniería efectiva del contexto:
1. Diseñar pensando en el KV-Cache El KV-cache es crucial para el rendimiento del agente, ya que reduce la latencia y el costo. Los agentes van acumulando acciones y observaciones en el contexto, lo que hace que la entrada sea mucho más extensa que la salida. El KV-cache reutiliza prefijos idénticos en el contexto, disminuyendo drasticamente el tiempo de procesamiento y el gasto, como lograron con un ahorro de hasta 10 veces en costos usando Claude Sonnet.
Para aprovecharlo al máximo, conviene: - Mantener prefijos de prompts estables: incluso cambiar un solo token al inicio puede invalidar la caché, por lo que hay que evitar elementos dinámicos como marcas exactas de tiempo. - Usar contexto solo para agregar información nueva, sin modificar acciones u observaciones previas, y serializar datos de manera determinística para no romper la caché de manera inadvertida. - Insertar manualmente puntos explícitos para romper la caché cuando el sistema lo requiere, idealmente justo después del prompt del sistema.
2. Enmascarar, no eliminar A medida que el agente gana más herramientas, el espacio de acción se vuelve complejo y puede dificultarle elegir correctamente, lesionando su desempeño. Aunque cargar herramientas dinámicamente parece lógico, esto desactiva el KV-cache y confunde al modelo si el contexto anterior hace referencia a herramientas que ya no están presentes.
Manus maneja esto con una máquina de estados consciente del contexto, que enmascara los tokens de acciones no disponibles durante la generación. Así, el agente no puede escoger opciones inapropiadas, sin cambiar las definiciones básicas de las herramientas, manteniendo estable el contexto y enfocado al agente.
3. Usar el sistema de archivos como contexto Aunque los modelos manejan grandes ventanas de contexto (más de 128,000 tokens), las observaciones reales—como páginas web o PDF—pueden exceder fácilmente esos límites, afectar el rendimiento y elevar costos. Comprimir datos de forma irreversible puede hacer perder información clave para etapas futuras.
Por eso, Manus considera el sistema de archivos como un contexto ilimitado y definitivo. El agente aprende a leer y escribir archivos bajo demanda, usando el sistema de archivos como una memoria estructurada externa. Las estrategias de compresión que emplean son siempre reversibles, por ejemplo, conservando la URL pero descartando contenido pesado, reduciendo así la longitud del contexto sin perder datos importantes.
4. Manipular la atención mediante recitación Los agentes pueden perder el foco o olvidar sus objetivos a largo plazo durante tareas complejas y con múltiples pasos. Manus contrarresta esto obligando al agente a reescribir constantemente un archivo llamado todo.md, donde repasa tareas y avances. Al incorporar este resumen al final del contexto, el modelo dirige su atención a su plan global, evitando perderse “en el medio” y alineando mejor sus metas. Esta técnica usa lenguaje natural para guiar el foco del agente sin modificar la arquitectura.
5. Conservar los errores en el contexto Los agentes cometen errores: generan información falsa, fallan o actúan incorrectamente. La reacción natural es eliminar esas fallas del contexto, pero Manus descubrió que mantenerlas ayuda al modelo a actualizar sus creencias internas. Al ver sus propios errores, el agente aprende y reduce la probabilidad de repetirlos, haciendo de la capacidad para recuperarse de fallos un síntoma clave de verdadero comportamiento autónomo.
6. Evitar el few-shot excesivo Aunque el few-shot prompting ayuda a los modelos de lenguaje, en agentes puede llevar a imitar de forma rígida y repetir conductas poco óptimas. Si el contexto está saturado de ejemplos y observaciones uniformes, el agente puede quedarse estancado, desviarse o generar falsas respuestas.
La solución está en introducir diversidad controlada: Manus añade pequeñas variaciones en plantillas, frases o formatos dentro del contexto. Este “ruido” rompe patrones repetitivos y redirige la atención del modelo para que no caiga en imitaciones rígidas de acciones pasadas.
En resumen, la ingeniería del contexto es un campo emergente pero vital para los agentes de IA. Más allá de la potencia del modelo en sí, define cómo un agente maneja su memoria, se relaciona con su entorno y aprende de la experiencia. Dominar estos principios es fundamental para construir agentes inteligentes, robustos y escalables.



