El creciente panorama de amenazas para los modelos de lenguaje (LLMs) está evolucionando rápidamente, con ataques como la inyección de comandos, el jailbreak y la extracción de datos sensibles. Dada la naturaleza dinámica de estas amenazas, es fundamental implementar mecanismos de defensa que vayan más allá de las protecciones estáticas tradicionales. Actualmente, las técnicas de seguridad para LLMs dependen demasiado de intervenciones estáticas durante el entrenamiento, lo que las hace vulnerables. Los filtros estáticos o las barreras de seguridad son frágiles ante pequeñas modificaciones adversas, y los ajustes hechos solo en la fase de entrenamiento no se adaptan bien a ataques nuevos que surgen tras la implementación. Además, el proceso de “desaprendizaje” automático no siempre elimina completamente el conocimiento sensible, lo que deja la puerta abierta a posibles filtraciones. Hasta ahora, la mayoría de las estrategias de seguridad se enfocan en la etapa de entrenamiento, con poco desarrollo en mecanismos de protección durante la inferencia o a nivel del sistema completo.

¿Por qué los métodos actuales de seguridad para LLMs son insuficientes? Técnicas como el entrenamiento fino con retroalimentación humana (RLHF) intentan alinear los modelos durante su entrenamiento, pero resultan poco efectivas frente a ataques novedosos que aparecen después de poner el modelo en producción. Las barreras a nivel sistema y la realización de pruebas de penetración (red-teaming) agregan capas adicionales de protección, pero siguen siendo vulnerables a pequeñas perturbaciones maliciosas. El desaprendizaje de comportamientos inseguros tiene cierto potencial en casos específicos, pero no logra suprimir completamente ciertos conocimientos. Por otro lado, aunque las arquitecturas multiagente permiten distribuir tareas complejas de manera eficiente, su aplicación directa a la seguridad de LLMs aún no se ha explorado a fondo. Algunos métodos de optimización basados en agentes, como TEXTGRAD y OPTO, que usan retroalimentación estructurada para mejorar iterativamente, o DSPy para optimizar procesos multi-etapa, tampoco se han utilizado de forma sistemática para reforzar la seguridad durante la inferencia.

AegisLLM: un enfoque adaptativo para la seguridad durante la inferencia Un grupo de investigadores de la Universidad de Maryland, el Laboratorio Nacional Lawrence Livermore y Capital One ha propuesto AegisLLM (Adaptive Agentic Guardrails for LLM Security), un marco de trabajo que mejora la seguridad de los LLM mediante un sistema multiagente cooperativo que opera en tiempo real durante la inferencia. Este sistema utiliza agentes autónomos basados en LLM que monitorean, analizan y mitigan continuamente amenazas adversarias. Los componentes principales de AegisLLM son el Orquestador, el Desviador, el Respondedor y el Evaluador. Gracias a la optimización automática de los mensajes de control (prompts) y al aprendizaje bayesiano, el sistema perfecciona sus capacidades defensivas sin necesidad de volver a entrenar el modelo. Esto permite adaptarse a las estrategias de ataque que van apareciendo, ofreciendo una seguridad escalable y efectiva en tiempo real, sin comprometer la utilidad del LLM.

Una línea de trabajo coordinada y optimización de prompts AegisLLM funciona a través de una cadena de agentes especializados, cada uno con funciones claras que colaboran para garantizar que las respuestas sean seguras. Cada agente sigue instrucciones específicas codificadas en mensajes de control, pero estos prompts hechos manualmente suelen no ser suficientes para escenarios de seguridad complejos. Por eso, el sistema optimiza automáticamente los prompts de cada agente mediante un proceso iterativo, en el que prueba distintas configuraciones y evalúa su desempeño con un conjunto de consultas para encontrar la más efectiva.

Evaluación de AegisLLM: defensa ante ataques y precisión En el benchmark WMDP con el modelo Llama-3-8B, AegisLLM logró las peores tasas de respuesta correcta en temas restringidos, lo que indica un bloqueo efectivo de contenido sensible, con resultados cercanos al límite teórico del 25% en las categorías WMDP-Cyber y WMDP-Bio. En el benchmark TOFU mostró una precisión casi perfecta al detectar consultas problemáticas en modelos como Llama-3-8B, Qwen2.5-72B y DeepSeek-R1, alcanzando casi el 100% en todos los casos con Qwen2.5-72B. Respecto a la defensa contra el jailbreak, mantuvo un rendimiento sólido bloqueando intentos maliciosos, mientras respondía de forma adecuada a consultas legítimas en los tests StrongREJECT y PHTest. AegisLLM obtuvo una puntuación de 0.038 en StrongREJECT, comparable con los mejores métodos actuales, y una tasa de cumplimiento del 88.5% sin necesidad de entrenamiento extenso, lo que mejora claramente las capacidades defensivas.

Conclusión: una nueva visión para la seguridad de LLMs basada en la coordinación multiagente durante la inferencia En resumen, AegisLLM introduce un enfoque innovador que concibe la seguridad en LLMs como un sistema dinámico formado por agentes especializados que operan durante la inferencia, no solo como una propiedad estática del modelo. Este cambio de paradigma, desde intervenciones fijas en la etapa de entrenamiento hacia defensas adaptativas en tiempo real, supera las limitaciones de los métodos tradicionales y ofrece una protección flexible frente a amenazas en constante evolución. Marcos como AegisLLM, que facilitan una seguridad dinámica y escalable, serán cada vez más clave para el despliegue responsable de modelos de lenguaje a medida que estas tecnologías siguen avanzando.

↗

fuente original

https://www.marktechpost.com/2025/07/18/aegisllm-scaling-llm-security-through-adaptive-multi-agent-systems-at-inference-time/

ver →

etiquetas:seguridad en modelos de lenguaje ia adaptativa ciberseguridad ataques a llms sistemas multiagente aegisllm protección en inferencia