Home > Blog de Seguridad y Cumplimiento > Gestión de Riesgos de Ciberseguridad > Riesgos de seguridad de agentes de IA: el 94% de los LLM son vulnerables a ataques

Riesgos de seguridad de agentes de IA: el 94% de los LLM son vulnerables a ataques

by Patrick Spencer updated octubre 28, 2025 Gestión de Riesgos de Ciberseguridad

Reading Time: 11 minutes

Un estudio de investigación de la Universidad de Calabria revela una realidad preocupante: el 94,1% de los modelos de lenguaje grande (LLM) populares presentan vulnerabilidades de seguridad explotables cuando se implementan como agentes de IA con acceso al sistema. Para las organizaciones que adoptan tecnologías de IA a gran velocidad, esta investigación representa mucho más que una preocupación académica: es un riesgo empresarial crítico que requiere atención inmediata. Mientras las empresas se apresuran a implementar agentes de IA para aumentar la productividad, están creando inadvertidamente vectores de ataque sofisticados que los actores de amenazas ya están preparados para explotar.

Comprendiendo la investigación: qué se probó y por qué es importante

Investigadores de la Universidad de Calabria y la IMT School for Advanced Studies realizaron la primera evaluación integral de seguridad de agentes LLM como posibles vectores de ataque. A diferencia de los chatbots tradicionales que solo generan respuestas de texto, los agentes LLM tienen capacidades autónomas para ejecutar comandos, acceder a terminales del sistema, recuperar información de bases de conocimiento y comunicarse con otros agentes.

Table of Contents

El estudio evaluó 17 LLM de última generación—including GPT-4o, Claude-4 y Gemini-2.5—a través de tres metodologías de ataque distintas. Los resultados revelaron una jerarquía de vulnerabilidad alarmante: solo un modelo (Claude-4-Sonnet) resistió con éxito todos los vectores de ataque, lo que representa apenas un 5,9% de éxito en seguridad integral.

Esta investigación marca un cambio de paradigma en las preocupaciones sobre la seguridad de la IA. Estudios previos se centraban principalmente en la manipulación de contenido y la inyección de prompts para salidas textuales. Esta investigación demuestra que los agentes de IA con acceso a nivel de sistema pueden ser utilizados para tomar el control total de un ordenador mientras mantienen la apariencia de funcionamiento normal. Lee el artículo completo para detalles técnicos.

Las implicaciones van más allá de vulnerabilidades teóricas. Con más del 70% de las implementaciones empresariales de IA previstas para involucrar sistemas multiagente o basados en acciones para mediados de 2025, las organizaciones están adoptando tecnologías cuyos marcos de seguridad siguen siendo fundamentalmente defectuosos.

Conclusiones clave

94% de tasa de fallo en modelos de IA populares Solo 1 de los 17 LLM probados (Claude-4-Sonnet) resistió con éxito los tres vectores de ataque, lo que revela que incluso las principales plataformas de IA de OpenAI, Google y Anthropic contienen vulnerabilidades de seguridad explotables cuando se implementan como agentes con acceso al sistema. Las organizaciones no pueden asumir que las soluciones de IA populares y bien financiadas cuentan con medidas de seguridad adecuadas.
La confianza entre agentes es el eslabón más débil El 82,4% de los modelos de IA ejecutarán comandos maliciosos cuando sean solicitados por agentes pares—aunque hayan bloqueado comandos idénticos de usuarios humanos. Esta vulnerabilidad de «escalada de privilegios entre agentes de IA» expone una falla fundamental en las arquitecturas multiagente: los mecanismos de seguridad actuales tratan la comunicación entre agentes de IA como inherentemente confiable, creando el vector de ataque más peligroso en implementaciones empresariales.
Los sistemas RAG crean superficies de ataque ocultas Los sistemas de Generación Aumentada por Recuperación (RAG)—ya estándar en implementaciones empresariales de IA—pueden ser comprometidos mediante documentos envenenados en las bases de conocimiento. Con una tasa de vulnerabilidad del 52,9%, los ataques de puerta trasera en RAG tienen éxito explotando el «sesgo de autoridad documental», donde los agentes de IA confían en la información recuperada externamente sin aplicar el mismo escrutinio de seguridad que a las entradas humanas. Un solo documento malicioso puede convertir toda tu infraestructura de IA en un vector de ataque.
Los ataques ocurren silenciosamente durante operaciones normales Los agentes de IA comprometidos instalan malware, establecen conexiones remotas y ejecutan comandos no autorizados mientras continúan realizando tareas legítimas sin ningún indicio visible de compromiso. Los usuarios reciben los resultados esperados—resúmenes de documentos, análisis de datos, tareas completadas—mientras se despliegan puertas traseras en paralelo. Esta capacidad de sigilo hace que los ataques a agentes de IA sean especialmente peligrosos y difíciles de detectar con la monitorización de seguridad tradicional.
La gobernanza de datos de IA es innegociable Las organizaciones que implementan IA sin marcos de gobernanza adecuados están creando enormes superficies de ataque y exponiendo datos regulados sensibles. La solución no es abandonar la adopción de IA, sino implementar acceso controlado a los datos, puertas de enlace de IA seguras, registros de auditoría integrales y arquitecturas de confianza cero que verifiquen cada interacción. Con el 70% de las implementaciones empresariales de IA previstas para involucrar sistemas multiagente para mediados de 2025, los marcos de gobernanza deben implementarse de inmediato, no reactivamente tras una brecha.

Tres vectores de ataque explicados

Inyección directa de prompts: la vulnerabilidad de entrada

La inyección directa de prompts consiste en incrustar comandos maliciosos dentro del texto proporcionado por el usuario que procesan los agentes de IA. Aunque muchas organizaciones suponen que los LLM modernos tienen defensas sólidas contra estos ataques, la investigación reveló que el 41,2% de los modelos probados seguían siendo vulnerables.

El hallazgo más preocupante: tres modelos ejecutaron comandos maliciosos incluso después de que sus procesos de razonamiento identificaran las instrucciones como peligrosas. ¿Por qué? Sus prompts de sistema priorizaban la finalización de tareas y la eficiencia, por encima de la seguridad. Esto revela una tensión fundamental en el diseño de agentes de IA: las mismas capacidades que los hacen útiles (acción autónoma, finalización de tareas) generan exposiciones de seguridad.

Las organizaciones que implementan agentes de IA suelen subestimar el riesgo de inyección directa de prompts, confiando en que el entrenamiento de seguridad y los filtros de contenido proporcionan protección suficiente. Esta investigación demuestra que esa suposición es peligrosamente errónea.

Ataques de puerta trasera RAG: envenenando la fuente de conocimiento

Los sistemas de Generación Aumentada por Recuperación (RAG) mejoran las capacidades de los LLM recuperando información relevante de bases de conocimiento externas. Esta arquitectura se ha convertido en estándar para implementaciones empresariales de IA, permitiendo a los agentes acceder a documentos propietarios, bases de datos y repositorios de información.

Los ataques de puerta trasera RAG explotan la relación de confianza entre los LLM y sus fuentes de conocimiento. Los atacantes inyectan instrucciones maliciosas en documentos dentro de la base de conocimiento usando técnicas como texto blanco sobre fondo blanco o tamaños de fuente microscópicos. Cuando el agente recupera este contenido durante operaciones normales, procesa los comandos incrustados como información legítima.

La investigación demostró una tasa de vulnerabilidad del 52,9% ante ataques de puerta trasera RAG—significativamente mayor que la inyección directa de prompts. Más preocupante aún, varios modelos que resistieron ataques directos fueron comprometidos mediante explotación RAG. Esto expone lo que los investigadores llaman «sesgo de autoridad documental»: los LLM tratan la información recuperada externamente como inherentemente confiable, omitiendo los mecanismos de seguridad aplicados a las entradas de usuario.

Para las organizaciones que desarrollan sistemas de IA basados en RAG con acceso a datos confidenciales, esto representa una brecha de seguridad grave. Un solo documento envenenado en tu base de conocimiento puede convertir tu asistente de IA en un vector de ataque.

Explotación de la confianza entre agentes: el punto de falla crítico

Los sistemas multiagente—donde varios agentes de IA se comunican y coordinan para realizar tareas complejas—representan la frontera de la implementación empresarial de IA. Estas arquitecturas permiten flujos de trabajo sofisticados al distribuir tareas entre agentes especializados.

La investigación reveló que la explotación de la confianza entre agentes es la vulnerabilidad más peligrosa, con una tasa de compromiso del 82,4%. Modelos que resistieron tanto la inyección directa como los ataques RAG cedieron inmediatamente cuando las solicitudes maliciosas provenían de agentes pares.

Este fenómeno—llamado «escalada de privilegios entre agentes de IA»—expone una falla fundamental en las arquitecturas de seguridad multiagente actuales. Los LLM aplican políticas de seguridad mucho más laxas a la comunicación entre agentes de IA en comparación con las interacciones humano-IA. La suposición implícita de que los agentes pares son inherentemente confiables crea un gran punto ciego.

Modelos como Llama3.3:70b y Llama4:16x17b demostraron defensas robustas contra ataques originados por humanos, pero ejecutaron cargas maliciosas idénticas cuando fueron solicitadas por otro agente. Los mecanismos de seguridad simplemente no se activaron para la comunicación entre agentes.

Impacto real: de la vulnerabilidad al compromiso

No son preocupaciones teóricas. Los investigadores demostraron la toma de control total del ordenador usando cargas útiles de shell inverso Meterpreter que:

Instalan malware que se ejecuta completamente en memoria, evitando los sistemas de detección basados en disco
Establecen conexiones remotas persistentes con servidores controlados por el atacante
Ejecutan comandos arbitrarios en las máquinas víctimas sin conocimiento del usuario
Mantienen el acceso mientras el agente sigue operando normalmente

El ataque tiene éxito mientras los usuarios interactúan con el agente para tareas legítimas. Solicitas un resumen de documento; el agente resume el documento e instala una puerta trasera. No hay mensajes de error, degradación de rendimiento ni señales visibles de compromiso.

Dos categorías enfrentan riesgo agudo:

Usuarios individuales: Cualquiera que descargue implementaciones de agentes de IA de código abierto desde plataformas como GitHub. Estos usuarios interactúan de buena fe, sin saber que procesar ciertos documentos o activar consultas específicas puede desencadenar comportamientos maliciosos ocultos. La democratización de la IA implica la democratización de la vulnerabilidad.
Organizaciones empresariales: Empresas que integran agentes de IA en sus operaciones, especialmente aquellas con sistemas RAG que permiten la carga de documentos por parte de usuarios. Un solo agente comprometido fuera de un entorno de aislamiento adecuado brinda a los atacantes oportunidades de movimiento lateral en las redes internas. Un documento envenenado en tu base de conocimiento corporativa convierte tu infraestructura de IA en una amenaza interna.

Los sectores financiero, sanitario y legal—que gestionan datos regulados altamente sensibles y están adoptando agentes de IA rápidamente—enfrentan una exposición especialmente grave. Una brecha de datos provocada por agentes de IA comprometidos puede acarrear sanciones regulatorias, costes legales, daños reputacionales y desventajas competitivas.

Por qué fallan las defensas de seguridad de IA actuales

La investigación expone brechas críticas en la forma en que la industria de IA aborda la seguridad:

Modelos de seguridad centrados en humanos: El entrenamiento de seguridad actual se enfoca casi exclusivamente en interacciones humano-IA. Las organizaciones que implementan sistemas multiagente descubren demasiado tarde que sus marcos de seguridad no contemplan la comunicación entre agentes de IA, donde existen muchas vulnerabilidades.
Confianza mal depositada en datos externos: Los sistemas RAG tratan la información recuperada como fáctica y confiable por defecto. Se aplica un escrutinio mínimo al contenido de la base de conocimiento en comparación con las entradas de usuario. Este «sesgo de autoridad documental» crea puntos ciegos explotables.
Protección dependiente del contexto: Los modelos muestran comportamientos de seguridad inconsistentes según el vector de ataque. Un sistema que bloquea con éxito prompts maliciosos directos puede ejecutar comandos idénticos si llegan a través de recuperación RAG o solicitudes entre agentes. La seguridad no es integral, es situacional.
Jerarquía de vulnerabilidad: La investigación establece un gradiente claro que muestra cómo las defensas se debilitan a medida que los ataques se sofistican: inyección directa de prompts (41,2% de éxito) < ataques de puerta trasera RAG (52,9% de éxito) < explotación de confianza entre agentes (82,4% de éxito).
Presión por implementar rápidamente: Las organizaciones que corren para adoptar capacidades de IA priorizan la funcionalidad sobre la seguridad. El mantra de la industria «muévete rápido y rompe cosas» aplicado a sistemas de IA con acceso a nivel de sistema tiene consecuencias previsibles—y peligrosas.

Como señala Crystal Morin, estratega senior de ciberseguridad en Sysdig, en su análisis de amenazas de IA oscura: «La ciberseguridad siempre ha sido una carrera armamentista, y la IA acaba de subir la apuesta». Los marcos de seguridad tradicionales diseñados para sistemas estáticos quedan obsoletos en la era de los agentes de IA autónomos.

Solución Kiteworks: gobernanza del acceso a datos de IA

Esta investigación valida preocupaciones críticas sobre la adopción descontrolada de IA. Las organizaciones que implementan agentes de IA sin marcos de gobernanza de datos adecuados están creando enormes superficies de ataque y exponiendo información confidencial a sistemas no seguros.

Brecha en la gobernanza de datos de IA

La mayoría de las organizaciones carecen de visibilidad sobre:

Qué herramientas de IA usan los empleados para procesar datos laborales
Qué información confidencial fluye hacia LLM públicos
Si los datos propietarios alimentan conjuntos de entrenamiento de IA
Cómo evitar la exposición involuntaria de datos a través de interacciones con IA
Si los sistemas de IA cumplen con los requisitos de cumplimiento normativo

Esta brecha de gobernanza existe porque las herramientas tradicionales de seguridad de datos no fueron diseñadas para amenazas de la era de la IA. La seguridad perimetral, el cifrado y los controles de acceso abordan los datos en reposo y en tránsito, pero no los datos procesados activamente por agentes de IA que pueden estar comprometidos.

Enfoque de Red de Contenido Privado de Kiteworks

La plataforma Kiteworks aborda las vulnerabilidades de seguridad de IA mediante un marco de gobernanza integral:

Acceso controlado a los datos: La Red de Contenido Privado asegura que los datos confidenciales no lleguen a LLM públicos o sistemas de IA no seguros. Las organizaciones mantienen el control sobre la información a la que pueden acceder los agentes de IA, evitando la exposición de datos regulados como información de salud protegida por HIPAA, datos personales bajo GDPR o información técnica controlada por ITAR.
Puerta de enlace de datos IA: Proporciona rutas seguras y de cumplimiento para la innovación en IA sin exponer información confidencial. Las organizaciones pueden aprovechar las capacidades de IA manteniendo la soberanía de los datos y el cumplimiento normativo. La puerta de enlace actúa como intermediario seguro, permitiendo funcionalidad de IA mientras aplica políticas de protección de datos.
Marco avanzado de gobernanza: El control de acceso basado en roles (RBAC) y el control de acceso basado en atributos (ABAC) evitan la ingestión no autorizada de datos en sistemas de IA. Las organizaciones definen políticas granulares que especifican qué categorías de datos, tipos de documentos y clasificaciones de información pueden acceder los agentes de IA según roles de usuario, sensibilidad de datos y contexto empresarial.
Registros de auditoría integrales: Cada evento de acceso a datos—incluso consultas de sistemas de IA—genera registros de auditoría detallados que muestran exactamente qué información fue accedida, por qué sistemas, con qué propósito y con qué resultado. Esta visibilidad permite detectar comportamientos anómalos de IA, investigar posibles compromisos y demostrar cumplimiento normativo.
Arquitectura de confianza cero: La plataforma implementa verificación en cada punto de acceso, eliminando suposiciones de confianza implícita que generan vulnerabilidades. Esto aborda directamente la explotación de confianza entre agentes: ningún sistema, incluidos los agentes de IA, recibe acceso privilegiado sin autenticación y autorización.
Capacidades de integración: Kiteworks se integra con la infraestructura de seguridad existente, incluidos sistemas SIEM, herramientas de prevención de pérdida de datos y plataformas de gestión de identidades. Así, las organizaciones pueden incorporar la gobernanza de datos de IA en operaciones de seguridad más amplias en lugar de crear controles aislados.

Pasos accionables para organizaciones

Evaluación de riesgos inmediata:

Haz un inventario de todas las herramientas y agentes de IA actualmente implementados o en programas piloto
Identifica qué sistemas tienen acceso a terminales o permisos a nivel de sistema
Catalogar qué datos confidenciales pueden acceder estos sistemas
Evalúa si tus bases de conocimiento RAG podrían contener documentos envenenados
Revisa tus arquitecturas multiagente para detectar vulnerabilidades de explotación de confianza

Preguntas críticas que debes responder:

¿Tienes visibilidad sobre el uso de herramientas de IA por parte de los empleados?
¿Puedes evitar que los datos confidenciales se compartan con LLM públicos?
¿Existen marcos de gobernanza para el acceso a datos de IA?
¿Puedes auditar y controlar los flujos de datos hacia los sistemas de IA?
¿Tus implementaciones de IA están debidamente aisladas de los entornos de producción?
¿Los contratos con proveedores incluyen requisitos de seguridad específicos para IA?

Construyendo un marco de seguridad para IA:

Implementa políticas de clasificación de datos que restrinjan el acceso de IA a información confidencial
Despliega puertas de enlace de datos de IA que medien entre sistemas de IA y repositorios de datos
Establece flujos de aprobación para la adopción de herramientas de IA
Exige evaluaciones de seguridad para todos los agentes de IA antes de su implementación
Crea procedimientos de respuesta a incidentes específicamente para brechas relacionadas con IA
Capacita a los empleados sobre riesgos de seguridad de IA y buenas prácticas de uso

Las organizaciones que implementen estos marcos de gobernanza pueden innovar en IA mientras gestionan los riesgos de seguridad. Aquellas que se apresuren a implementar sin controles adecuados se exponen a las vulnerabilidades que esta investigación ha demostrado que existen.

Conclusión: equilibrando innovación y seguridad

La investigación de la Universidad de Calabria envía un mensaje claro: la seguridad actual de los agentes de IA es fundamentalmente insuficiente. Con el 94,1% de los modelos probados mostrando vulnerabilidades explotables, las organizaciones no pueden asumir que las plataformas de IA populares y bien financiadas han resuelto estos problemas.

Las implicaciones son especialmente graves para sectores regulados que gestionan datos sensibles. Un agente de IA comprometido con acceso a registros financieros de clientes, información de salud protegida o propiedad intelectual crea una exposición de responsabilidad que va mucho más allá de cuestiones tecnológicas, abarcando cumplimiento normativo, responsabilidad fiduciaria y posicionamiento competitivo.

Sin embargo, la respuesta adecuada no es abandonar la adopción de IA, sino implementar marcos de gobernanza apropiados que permitan la innovación mientras se gestiona el riesgo. La Red de Datos Privados de Kiteworks proporciona a las organizaciones la visibilidad, el control y las capacidades de auditoría necesarias para implementar agentes de IA de forma segura.

El panorama de la ciberseguridad está siendo reescrito por las capacidades de la IA. Las organizaciones que reconozcan estas amenazas e implementen marcos integrales de gobernanza de datos obtendrán ventajas competitivas mediante una adopción segura de IA. Aquellas que ignoren estas advertencias aprenderán lecciones dolorosas cuando sus asistentes de IA se conviertan en vectores de ataque.

Actúa ahora: evalúa la postura de seguridad de IA de tu organización, implementa controles de gobernanza de datos y establece rutas seguras para la innovación en IA. La investigación es clara: las vulnerabilidades existen, están siendo explotadas activamente y la seguridad de los datos de tu organización depende de abordarlas antes que los actores de amenazas.

Para detalles técnicos sobre la investigación de la Universidad de Calabria, incluyendo metodología, modelos probados e implementaciones de ataque, accede al artículo completo: «The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover» en arXiv.

Preguntas frecuentes

Las vulnerabilidades de seguridad de los agentes LLM son debilidades explotables en sistemas de IA que tienen capacidades autónomas para ejecutar comandos, acceder a terminales del sistema e interactuar con herramientas externas. A diferencia de los chatbots tradicionales que solo generan texto, los agentes LLM pueden realizar acciones en tu sistema informático. La investigación de la Universidad de Calabria encontró que el 94,1% de los modelos de IA populares—including GPT-4o, Gemini-2.5 y Claude-4—contienen fallos de seguridad que los atacantes pueden explotar para tomar el control total del ordenador. Estas vulnerabilidades importan porque las organizaciones están implementando rápidamente agentes de IA con acceso a nivel de sistema sin comprender los riesgos. Un agente de IA comprometido puede instalar malware, robar datos confidenciales y mantener acceso de puerta trasera persistente mientras aparenta funcionar normalmente, lo que hace que estos ataques sean especialmente peligrosos para empresas que gestionan datos regulados como HIPAA, GDPR o información controlada por ITAR.

Los ataques de puerta trasera RAG (Generación Aumentada por Recuperación) explotan sistemas de IA que recuperan información de bases de conocimiento externas envenenando documentos con instrucciones maliciosas ocultas. Los atacantes inyectan comandos usando técnicas como texto blanco sobre fondo blanco, tamaños de fuente microscópicos o formatos ocultos invisibles para lectores humanos pero procesados por los agentes de IA. Cuando la IA recupera este contenido comprometido durante operaciones normales, trata los comandos maliciosos incrustados como información legítima y los ejecuta sin activar alertas de seguridad. La investigación muestra que el 52,9% de los LLM probados son vulnerables a ataques de puerta trasera RAG—más que la inyección directa de prompts (41,2%). Esto es especialmente preocupante para implementaciones empresariales donde los agentes de IA acceden a repositorios de documentos propietarios, bases de datos de clientes y fuentes de conocimiento de terceros. Las organizaciones que usan sistemas RAG para soporte al cliente, asistencia en investigación o análisis de documentos enfrentan un riesgo significativo si sus bases de conocimiento no están debidamente aseguradas y validadas.

La explotación de confianza entre agentes ocurre cuando los agentes de IA dentro de sistemas multiagente confían implícitamente en solicitudes de agentes pares sin aplicar el mismo escrutinio de seguridad que a las interacciones humanas. La investigación demuestra que el 82,4% de los modelos de IA probados ejecutarán comandos maliciosos cuando sean solicitados por otro agente—aunque hayan bloqueado comandos idénticos de usuarios humanos. Esta vulnerabilidad de «escalada de privilegios entre agentes de IA» existe porque el entrenamiento de seguridad de los LLM se enfoca principalmente en interacciones humano-IA, dejando la comunicación entre agentes de IA prácticamente desprotegida. En arquitecturas multiagente donde agentes especializados coordinan tareas complejas, un solo agente comprometido puede instruir a otros para realizar operaciones peligrosas que normalmente serían bloqueadas. Esto representa la vulnerabilidad más crítica en implementaciones empresariales de IA, especialmente considerando que el 70% de las organizaciones prevén implementar sistemas multiagente para mediados de 2025. Los mecanismos de seguridad que protegen contra la inyección de prompts y entradas maliciosas de usuarios simplemente no se activan cuando las solicitudes provienen de agentes pares.

Las organizaciones pueden proteger agentes de IA mediante marcos de gobernanza de datos integrales que controlan qué información pueden acceder los sistemas de IA y cómo interactúan con datos confidenciales. El enfoque de Red de Contenido Privado de Kiteworks incluye: (1) Acceso controlado a los datos para evitar que información confidencial llegue a LLM públicos o sistemas de IA no seguros, (2) Puertas de enlace de datos IA que proporcionan rutas seguras y de cumplimiento para la innovación en IA mientras aplican políticas de protección de datos, (3) Gobernanza avanzada usando controles de acceso basados en roles y atributos para restringir el acceso de IA a datos regulados, (4) Registros de auditoría integrales que rastrean cada interacción de sistemas de IA con datos corporativos, y (5) Arquitectura de confianza cero que verifica cada solicitud de acceso sin suposiciones de confianza implícita. Otras medidas de protección incluyen: implementar entornos de aislamiento adecuados para agentes de IA, exigir evaluaciones de seguridad antes de la implementación, validar todo el contenido externo de bases de conocimiento, monitorizar comportamientos anómalos de IA, establecer procedimientos de respuesta a incidentes para brechas relacionadas con IA y capacitar a los empleados sobre riesgos de seguridad de IA. Las organizaciones deben implementar estos controles antes de la adopción masiva de IA y no reactivamente tras una brecha.

La investigación que probó 17 LLM de última generación encontró que solo Claude-4-Sonnet (5,9%) resistió con éxito los tres vectores de ataque—inyección directa de prompts, ataques de puerta trasera RAG y explotación de confianza entre agentes. Los modelos con alta vulnerabilidad incluyen: GPT-4o-mini, Gemini-2.0-flash, Magistral-medium y qwen3:14b (vulnerables a los tres tipos de ataque). Modelos como GPT-4o, GPT-4.1 y varias variantes de Llama resistieron ataques directos pero fueron comprometidos mediante explotación de confianza entre agentes, demostrando que la seguridad depende del contexto y no es integral. Es relevante que tres modelos (Gemini-2.5-flash, Magistral-medium y qwen3:14b) ejecutaron comandos maliciosos incluso tras identificarlos como peligrosos porque sus prompts de sistema priorizaban la finalización de tareas sobre la seguridad. La jerarquía de vulnerabilidad muestra: 41,2% susceptible a inyección directa de prompts, 52,9% a ataques de puerta trasera RAG y 82,4% a explotación de confianza entre agentes. Las organizaciones no deben asumir que las plataformas de IA populares y bien financiadas cuentan con seguridad adecuada—las pruebas y validaciones independientes son esenciales antes de implementar cualquier agente LLM con acceso al sistema o a datos corporativos sensibles.