OWASP Agent Memory Guard: Evita que los agentes de IA sean utilizados como arma a través de su propia memoria
El envenenamiento de la memoria de agentes de IA explota el hecho de que los agentes mantienen estado. A diferencia de una llamada API tradicional que procesa la entrada y devuelve la salida sin recordar nada, un agente conserva un estado persistente entre interacciones. Ese estado reside en varios lugares: búferes de historial de conversación, almacenes vectoriales consultados para contexto mediante búsqueda semántica, blocs de notas donde el agente escribe razonamientos intermedios e índices RAG que conectan el agente con repositorios documentales empresariales.
Cualquier atacante con acceso de escritura a una de estas capas de almacenamiento obtiene un canal de comando hacia el comportamiento futuro del agente. El ataque no requiere comprometer el código del agente, los pesos del modelo ni las credenciales API utilizadas para invocar el modelo. Solo necesita la capacidad de colocar una cadena cuidadosamente diseñada en un almacenamiento que el agente leerá después.
La clasificación ASI06 de OWASP distingue el envenenamiento de memoria de la inyección de prompt estándar al centrarse en la persistencia. Una inyección de prompt directa ocurre en una sola sesión y termina cuando esa sesión se cierra. El envenenamiento de memoria sobrevive a los límites de sesión, reinicios del agente e incluso nuevas implementaciones si el almacenamiento subyacente no se borra. Las herramientas de seguridad convencionales no tienen visibilidad sobre lo que un agente almacena entre llamadas.
5 conclusiones clave
1. La memoria de los agentes de IA es una superficie de ataque desprotegida en la mayoría de las empresas.
Los historiales de conversación, almacenes vectoriales, blocs de notas e índices RAG aceptan escrituras sin autenticación ni verificación de integridad por defecto. Un atacante con acceso de escritura a cualquiera de estas capas de almacenamiento obtiene un canal de comando persistente hacia el comportamiento futuro del agente, que sobrevive a los límites de sesión, reinicios del agente y nuevas implementaciones si el almacenamiento subyacente no se borra. OWASP formalizó esto como ASI06 en su Top 10 para aplicaciones agenticas. Los marcos de gobernanza de datos aún no han alcanzado este modelo de amenaza.
2. OWASP Agent Memory Guard logra un 92,5% de recall, 100% de precisión y una latencia mediana de 59 microsegundos.
Cinco detectores — inyección de prompt, filtración de PII/PHI y secretos, manipulación de claves, verificación de integridad SHA-256 y detección de anomalías de tamaño — se ejecutan en línea en cada lectura y escritura de memoria. Cero falsos positivos significa que nunca se bloquean operaciones legítimas de memoria. Una latencia mediana de 59 microsegundos permite su uso en producción sin afectar el rendimiento. Estas cifras lo hacen viable para implementaciones en línea, no solo para análisis fuera de banda.
3. El envenenamiento de memoria permite la exfiltración a través de flujos de trabajo de IA que parecen completamente normales.
Un agente manipulado puede exfiltrar archivos, llamar APIs externas y reenviar contenido a puntos finales controlados por atacantes, todo mientras parece funcionar normalmente desde la interfaz de usuario. Esto es especialmente relevante cuando los agentes de IA interactúan con sistemas de uso compartido seguro de archivos y flujos MFT que contienen contratos, datos regulados y propiedad intelectual. Las herramientas de seguridad que monitorean comportamientos humanos anómalos no pueden detectar esta clase de ataque.
4. La aplicación de ABAC limita el alcance del daño incluso si el envenenamiento de memoria tiene éxito.
Un agente con memoria envenenada que intenta leer desde un almacén de datos al que nunca estuvo autorizado a acceder es bloqueado en el punto de aplicación de políticas: la instrucción envenenada simplemente no puede ejecutarse. Los principios de confianza cero exigen que cada acceso a recursos sea explícitamente autorizado, sin importar si la entidad solicitante es un usuario humano o un agente de IA. La defensa de memoria detiene el envenenamiento; el control de acceso limita el daño si de todos modos tiene éxito.
5. El envenenamiento de memoria que provoca exfiltración de datos regulados es una brecha notificable.
Un almacén de memoria que contiene registros de pacientes, CUI o datos personales está sujeto a HIPAA, CMMC y GDPR, independientemente de si es una base de datos tradicional o un índice vectorial. El envenenamiento de memoria que hace que un agente exfiltre datos regulados constituye un incidente notificable bajo cualquiera de estos marcos. Toda implementación de IA que maneje datos regulados necesita una capa de seguridad de memoria antes de que esa capa sea puesta a prueba bajo presión de ataque.
Confías en que tu organización es segura. Pero ¿puedes comprobarlo?
Lee ahora
Cómo funciona Agent Memory Guard
OWASP Agent Memory Guard actúa como una capa de interceptación en tiempo de ejecución entre el agente de IA y sus sistemas de memoria. Cada lectura y cada escritura pasan por un canal de evaluación de políticas antes de completarse. Ese canal ejecuta cinco detectores distintos en secuencia:
El detector de inyección de prompt analiza el contenido en busca de patrones que intentan sobrescribir instrucciones del sistema o inyectar comandos en el contexto del agente. El detector de filtración de PII/PHI y secretos señala contenido que contiene datos personales, credenciales o tokens. El detector de manipulación de claves identifica modificaciones en material criptográfico. El detector de integridad SHA-256 verifica que el contenido de la memoria no haya sido alterado desde su escritura inicial. El detector de anomalías de tamaño detecta escrituras inusualmente grandes que pueden indicar intentos de inyección masiva.
La política se define en YAML y admite cuatro disposiciones: permitir, redactar, poner en cuarentena y bloquear. Cuando se detecta y bloquea un intento de envenenamiento, Agent Memory Guard permite revertir a un estado de memoria conocido como bueno, algo que los enfoques convencionales de registros de auditoría no ofrecen. El registro documenta lo ocurrido; la reversión realmente restaura el agente a un estado operativo limpio.
El riesgo empresarial: la memoria como vector de exfiltración
Los profesionales de seguridad suelen pensar en los riesgos de los agentes de IA en términos de lo que el agente podría decir — alucinaciones, violaciones de privacidad, sesgos en las respuestas. El envenenamiento de memoria introduce una categoría de riesgo diferente: lo que el agente podría hacer. Un agente manipulado puede exfiltrar archivos, llamar APIs externas, reenviar contenido a puntos finales controlados por atacantes y escalar privilegios, todo mientras parece funcionar normalmente desde la perspectiva de la interfaz de usuario.
Esta vía de exfiltración es especialmente relevante cuando los agentes de IA interactúan con sistemas de uso compartido seguro de archivos, flujos de transferencia de archivos gestionada y repositorios documentales estructurados. Un agente que lee de un repositorio confidencial de contratos y escribe resúmenes en una herramienta de colaboración está cumpliendo su función. El mismo agente, tras un envenenamiento de memoria, podría leer de ese repositorio y escribir el contenido original — no solo resúmenes — en un punto final controlado por el atacante.
La Red de Contenido Privado de Kiteworks aborda esto en la capa de control de acceso. La aplicación de ABAC significa que incluso un agente completamente comprometido no puede acceder a datos fuera de los permisos definidos por política: la identidad del agente, el rol asignado y el contexto operativo deben coincidir con la política de acceso del recurso antes de que cualquier lectura o escritura proceda.
Implementando una defensa en capas para la memoria de agentes de IA
Las organizaciones que implementan agentes de IA en entornos regulados enfrentan un reto específico: los marcos regulatorios que rigen el manejo de datos — GDPR, HIPAA, CMMC 2.0 — no fueron diseñados pensando en la IA agentica. Un almacén de memoria que contiene registros de pacientes, CUI o datos personales está sujeto a esas regulaciones, independientemente de si es una base de datos tradicional o un índice vectorial.
OWASP Agent Memory Guard proporciona protección en tiempo de ejecución. La puerta de enlace de datos IA de Kiteworks ofrece un canal gobernado para las interacciones de IA con datos empresariales, asegurando que el contenido confidencial no fluya hacia sistemas o memorias de IA por rutas no controladas. El servidor MCP seguro controla qué herramientas de IA pueden interactuar con los datos empresariales. La gobernanza de datos de IA en la práctica significa tratar la memoria de los agentes de IA igual que cualquier otro almacén de datos empresarial: clasificarla, aplicar controles de acceso, monitorear patrones de acceso y verificar la integridad.
Para saber más sobre cómo proteger tus datos confidenciales en flujos de trabajo de agentes de IA, agenda una demo personalizada hoy.
Preguntas frecuentes
ASI06 es la clasificación de OWASP para ataques de manipulación de memoria y estado contra agentes de IA. Cubre escenarios donde un atacante modifica el estado persistente que un agente lee — historial de conversación, contenidos de almacenes vectoriales, datos de blocs de notas e índices RAG — para alterar el comportamiento en interacciones posteriores. Distingue el envenenamiento de memoria de la inyección de prompt transitoria al centrarse en la persistencia a través de los límites de sesión. OWASP Agent Memory Guard es la implementación de referencia. Las organizaciones que desarrollan IA agentica deben tratar ASI06 como una amenaza de primer nivel junto con la inyección de prompt y la exfiltración de datos.
ABAC evalúa cada acceso a recursos según una política que considera los atributos de la entidad solicitante, el recurso y el entorno operativo. Un agente con memoria envenenada que intenta leer de un almacén de datos al que nunca estuvo autorizado a acceder es bloqueado en el punto de aplicación de políticas: la instrucción envenenada no puede ejecutarse. La aplicación de ABAC de Kiteworks opera en la capa de protocolo, por lo que la restricción se mantiene independientemente del modelo de IA o marco de orquestación que use el agente. Esto crea una limitación significativa del alcance del daño que complementa la defensa de memoria en tiempo de ejecución.
La mayoría de las herramientas de seguridad convencionales no tienen visibilidad sobre los almacenes de memoria de agentes de IA. Los sistemas SIEM detectan patrones anómalos de llamadas API, pero no pueden inspeccionar el contenido semántico de una escritura en una base de datos vectorial para determinar si contiene un comando inyectado. Las soluciones DLP detectan patrones conocidos de datos sensibles, pero no fueron diseñadas para analizar sintaxis de inyección de prompt incrustada en fragmentos de documentos. Agent Memory Guard cubre esta brecha con detectores diseñados específicamente. La verificación de integridad SHA-256 es especialmente valiosa: detecta contenido manipulado que no coincide con ningún patrón malicioso conocido, simplemente porque cambió después de ser escrito.
Cualquier dato regulado al que un agente de IA pueda acceder es un objetivo. En salud, los agentes con acceso a PHI exponen a las entidades cubiertas por HIPAA a responsabilidad por brechas. En contratos de defensa, los agentes que procesan CUI enfrentan requisitos CMMC que presuponen integridad de datos: la exfiltración de CUI es un incidente notificable bajo DFARS. En servicios financieros, los agentes que manejan datos PCI DSS tienen la misma exposición. El envenenamiento de memoria convierte un flujo de trabajo de IA legítimo y autorizado en un evento de acceso no autorizado a datos.
OWASP Agent Memory Guard inspecciona y aplica políticas sobre lo que entra y sale de los almacenes de memoria de los agentes. La puerta de enlace de datos IA de Kiteworks y el servidor MCP seguro controlan a qué fuentes de datos empresariales pueden acceder los agentes de IA, qué herramientas pueden invocar y qué salidas pueden generar. Una implementación bien configurada utiliza Agent Memory Guard para evitar que la memoria sea envenenada y la arquitectura de confianza cero de Kiteworks para limitar lo que un agente envenenado puede lograr si se elude la defensa de memoria.
Recursos adicionales
- Artículo del Blog
Estrategias Zero‑Trust para una protección de privacidad de IA asequible - Artículo del Blog
Cómo el 77% de las organizaciones falla en la seguridad de datos de IA - eBook
Análisis de distancia en gobernanza de IA: por qué el 91% de las pequeñas empresas juega a la ruleta rusa con la seguridad de datos en 2025 - Artículo del Blog
No existe «–dangerously-skip-permissions» para tus datos - Artículo del Blog
Los reguladores ya no preguntan si tienes una política de IA. Quieren pruebas de que funciona.