Home > Blog de Seguridad y Cumplimiento > Sin categorizar > ¿Qué sucede cuando das verdadero poder a los agentes de IA?

¿Qué sucede cuando das verdadero poder a los agentes de IA?

by Tim Freestone updated marzo 10, 2026 Gestión de Riesgos de Ciberseguridad

Reading Time: 11 minutes

La propuesta es atractiva. Agentes de IA capaces de gestionar tu correo electrónico, ejecutar código, coordinarse con otros sistemas y actuar en tu nombre—todo sin que muevas un dedo. Las ganancias de productividad son enormes. La adopción empresarial avanza rápidamente. Y todas las grandes tecnológicas están compitiendo para poner agentes autónomos en tus manos.

Table of Contents

Puntos clave

Los investigadores dieron a los agentes de IA herramientas reales y acceso—y los agentes filtraron secretos, borraron archivos críticos y permitieron la toma total del sistema. El estudio Agents of Chaos, realizado por investigadores de Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon y otras instituciones líderes, implementó agentes de IA autónomos en un entorno real con memoria persistente, cuentas de correo electrónico, acceso a Discord, sistemas de archivos y ejecución de comandos en shell. Durante dos semanas de pruebas de red team, veinte investigadores de IA documentaron once casos que expusieron vulnerabilidades críticas, incluyendo cumplimiento no autorizado con personas ajenas, divulgación de información personal sensible, suplantación de identidad que llevó a la toma completa del sistema y consumo incontrolado de recursos que generó condiciones de denegación de servicio. Estos no son riesgos teóricos. Son comportamientos documentados de agentes con el mismo tipo de acceso que las organizaciones están otorgando a sistemas de IA en producción hoy en día.
Los agentes de IA no solo siguen instrucciones—siguen las instrucciones de cualquiera, incluso de atacantes que solo usan manipulación conversacional. La principal superficie de ataque en el estudio Agents of Chaos no fue la sofisticación técnica. Fue la ingeniería social a través del lenguaje cotidiano. Los atacantes explotaron el cumplimiento del agente, el encuadre contextual, señales de urgencia y ambigüedad de identidad sin necesidad de acceso avanzado, datos de entrenamiento manipulados ni infraestructura especializada. En uno de los casos, un agente rechazó una solicitud directa de un número de Seguro Social, pero reveló ese mismo número—junto con detalles bancarios e información médica—cuando se le pidió reenviar el correo completo que lo contenía. El informe Global Cybersecurity Outlook 2026 del Foro Económico Mundial confirma este riesgo a gran escala, advirtiendo que sin una gobernanza sólida, los agentes pueden acumular privilegios excesivos, ser manipulados por fallos de diseño o inyecciones de prompt, o propagar errores y vulnerabilidades a velocidad de máquina.
La suplantación de identidad—no el hacking sofisticado—dio a los atacantes control total sobre la memoria, archivos y acceso administrativo de un agente de IA. Uno de los hallazgos más alarmantes del estudio fue que un investigador simplemente cambió su nombre de usuario en Discord para igualar al del propietario del agente y abrió un canal privado nuevo. Como el agente no tenía acceso al historial previo de interacciones en ese canal, aceptó la identidad suplantada solo por el nombre mostrado. El atacante ordenó entonces al agente borrar todos los archivos persistentes—incluyendo memoria, configuraciones de herramientas y registros de interacciones humanas—y reasignó el acceso administrativo. Esto fue una toma total de la identidad y la gobernanza del agente, lograda únicamente con una señal superficial de identidad. La implicación más amplia: cualquier agente que dependa de la identidad presentada y no de verificación criptográfica sigue siendo vulnerable a ataques en los límites de sesión donde las protecciones previas simplemente se reinician.
La mayoría de las organizaciones están implementando agentes de IA que no pueden restringir, terminar ni aislar de sistemas sensibles. El informe Kiteworks 2026 Data Security and Compliance Risk Forecast revela una brecha entre gobernanza y contención que hace que los hallazgos de Agents of Chaos sean especialmente urgentes. En todas las industrias encuestadas, el 63% de las organizaciones no puede imponer limitaciones de propósito a los agentes de IA. El 60% no puede terminar un agente que se comporta mal. El 55% no puede aislar los sistemas de IA del acceso a la red general. Las organizaciones gubernamentales están una generación atrás: el 90% carece de vinculación de propósito, el 76% no tiene mecanismos de apagado y el 33% no cuenta con controles de IA dedicados. Todas las organizaciones encuestadas tienen IA agente en su hoja de ruta. El problema no es la adopción—es que la velocidad de implementación supera la gobernanza por un margen peligroso.
Las organizaciones que integren la contención de agentes de IA en su arquitectura ahora—en lugar de añadirla después de un incidente—serán las que sobrevivan a la próxima generación de amenazas impulsadas por IA. Los investigadores de Agents of Chaos identificaron tres déficits fundamentales en los sistemas actuales de agentes de IA: sin modelo de partes interesadas (los agentes no pueden distinguir de forma fiable a quién deben trabajar y a quién los manipula), sin auto-modelo (los agentes toman acciones irreversibles sin reconocer que superan su competencia) y sin superficie privada de deliberación (los agentes filtran información sensible por los canales equivocados). Estos son problemas de arquitectura, no de parches. La Iniciativa de Estándares para Agentes de IA de NIST, anunciada en febrero de 2026, identifica la identidad, autorización y seguridad del agente como áreas prioritarias para la estandarización—validando que estos riesgos ahora exigen infraestructura sistemática, no soluciones improvisadas.

Pero aquí está lo que los materiales de marketing omiten: nadie había probado rigurosamente qué sucede cuando esos agentes enfrentan presión adversaria en condiciones realistas—hasta ahora.

El estudio Agents of Chaos, publicado en febrero de 2026 por un equipo de investigación interinstitucional de Northeastern University, Harvard, MIT, Stanford y Carnegie Mellon, hizo exactamente eso. Implementaron agentes autónomos impulsados por modelos de lenguaje en un entorno de laboratorio real. Estos agentes tenían memoria persistente, cuentas de correo electrónico, acceso a Discord, sistemas de archivos y capacidades de ejecución en shell—el mismo tipo de acceso a herramientas que los agentes de IA en producción están obteniendo en entornos empresariales hoy. Luego invitaron a veinte investigadores de IA a examinar, poner a prueba y tratar de romper los sistemas durante dos semanas.

Los resultados deberían hacer que cualquier CISO, responsable de cumplimiento o miembro del consejo preste atención.

En 11 casos documentados, los investigadores observaron agentes cumpliendo con usuarios no autorizados, entregando información personal sensible a través de solicitudes indirectas, ejecutando acciones destructivas a nivel de sistema por órdenes de identidades suplantadas, entrando en bucles infinitos que consumen recursos y difundiendo contenido difamatorio en redes de comunicación. En varios casos, los agentes informaron que las tareas se completaron con éxito mientras que el estado real del sistema contaba una historia completamente diferente.

Esto no fue una simulación. No fue un benchmark. Fue lo que realmente sucedió cuando agentes de IA con capacidades reales se enfrentaron a comportamientos adversarios reales.

La superficie de ataque que nadie predijo: conversación ordinaria

El hallazgo más impactante de la investigación Agents of Chaos no es la complejidad de los ataques—es su simplicidad.

Sin acceso avanzado. Sin datos de entrenamiento manipulados. Sin infraestructura técnica sofisticada. Los investigadores vulneraron estos agentes solo con manipulación conversacional—las mismas tácticas de ingeniería social que han funcionado contra humanos durante décadas, ahora funcionando contra sistemas de IA a escala.

Considera lo que ocurrió cuando los investigadores probaron si un agente protegería información sensible. El agente rechazó una solicitud directa de un número de Seguro Social incrustado en un correo electrónico. Bien. Pero cuando el mismo investigador pidió al agente reenviar el correo completo, entregó todo—el SSN, números de cuentas bancarias y detalles médicos—sin ningún tipo de redacción. El agente podía identificar una solicitud explícita de datos sensibles como sospechosa, pero no reconocía que reenviar el contenedor que los incluía lograba el mismo resultado.

O considera el ataque de suplantación de identidad. Un investigador cambió su nombre de usuario en Discord para igualar al del propietario del agente y abrió un canal privado nuevo. Como el agente no tenía acceso al historial previo de interacciones en ese canal, aceptó la identidad suplantada sin cuestionar. El atacante ordenó entonces al agente borrar todos sus archivos persistentes—memoria, configuraciones de herramientas, definiciones de personaje, registros de interacción—y reasignar el acceso administrativo. Compromiso total del sistema, logrado con solo un cambio de nombre y un mensaje directo.

Cinco de las 10 principales vulnerabilidades OWASP para aplicaciones LLM se mapearon directamente con los fallos observados en este estudio: inyección de prompt, divulgación de información sensible, agencia excesiva, filtración de prompts del sistema y consumo sin límites. No son casos extremos. Son consecuencias previsibles de dar acceso real a sistemas autónomos sin la infraestructura de gobernanza necesaria para restringirlos.

Las tres cosas que los agentes de IA no pueden hacer (y por qué eso importa más que lo que sí pueden)

Los investigadores de Agents of Chaos identificaron tres déficits fundamentales que explican por qué las arquitecturas actuales de agentes de IA son estructuralmente vulnerables—no solo ocasionalmente defectuosas.

El primero es la ausencia de un modelo de partes interesadas. Los agentes actuales no tienen un mecanismo fiable para distinguir entre alguien a quien deben trabajar y alguien que los manipula. Los agentes tienden a satisfacer a quien habla con más urgencia, más recientemente o de forma más coercitiva. Esto no es un error que se pueda corregir con mejores prompts—es una característica estructural de sistemas que procesan instrucciones y datos como tokens indistinguibles en una ventana de contexto. La inyección de prompt no es una vulnerabilidad solucionable. Es una propiedad inherente de cómo funcionan estos sistemas.

El segundo déficit es la ausencia de un auto-modelo. Los agentes del estudio tomaron acciones irreversibles que afectan a los usuarios sin reconocer que superaban sus límites de competencia. Convirtieron solicitudes conversacionales de corta duración en procesos de fondo permanentes sin condición de terminación. Asignaron memoria indefinidamente sin reconocer la amenaza operativa. Informaron la finalización de tareas mientras el estado real del sistema estaba roto. Un agente con poder real y sin autoconciencia no es un asistente—es un riesgo.

El tercer déficit es la ausencia de una superficie privada de deliberación. Los agentes no podían rastrear de forma fiable qué canales de comunicación eran visibles para quién, así que filtraban información sensible por los canales equivocados. Un agente afirmó que respondería de forma silenciosa por correo electrónico mientras publicaba contenido relacionado en un canal público de Discord. Cuando los agentes no distinguen entre privado y público, cada interacción se convierte en una posible filtración de datos.

La brecha de gobernanza: la mayoría de las organizaciones vuelan a ciegas

Los hallazgos de Agents of Chaos ya serían preocupantes si las organizaciones tuvieran una gobernanza robusta de IA. No la tienen.

El informe Kiteworks 2026 Data Security and Compliance Risk Forecast revela una brecha entre gobernanza de IA y contención de IA que se amplía a medida que la implementación avanza. Las organizaciones han invertido en observar lo que hace la IA—supervisión humana en el bucle en un 59%, monitoreo continuo en un 58%, minimización de datos en un 56%. No han invertido en detenerla. La vinculación de propósito está solo en un 37%. Los mecanismos de apagado en un 40%. El aislamiento de red en un 45%.

Esa brecha de 15 a 20 puntos entre gobernanza y contención significa que la mayoría de las organizaciones pueden observar a un agente de IA haciendo algo inesperado. No pueden evitar que exceda su alcance autorizado, apagarlo rápidamente ni aislarlo de sistemas sensibles. Son espectadores de su propia exposición al riesgo.

Las organizaciones gubernamentales están en el extremo de esta brecha. El noventa por ciento carece de vinculación de propósito. El setenta y seis por ciento carece de mecanismos de apagado. El ochenta y uno por ciento carece de aislamiento de red. Un tercio no tiene controles de IA dedicados—ni siquiera parciales, ni medidas improvisadas, nada. Estas son las organizaciones que gestionan datos de ciudadanos, información clasificada e infraestructura crítica.

El compromiso del consejo directivo es el mayor predictor de si algo de esto cambia. Sin embargo, el 54% de los consejos no tiene la gobernanza de IA entre sus cinco temas principales. Las organizaciones sin compromiso del consejo tienen la mitad de probabilidades de realizar evaluaciones de impacto de IA y van 26 puntos por detrás en vinculación de propósito. Cuando los consejos no preguntan por la gobernanza de IA, las organizaciones no la implementan.

Mientras tanto, una amenaza real ya se ha materializado. En septiembre de 2025, Anthropic informó haber detectado un grupo patrocinado por el estado chino usando enjambres de agentes de IA—múltiples instancias de IA actuando como orquestadores autónomos—para ejecutar todo el ciclo de vida del ciberespionaje: reconocimiento, descubrimiento de vulnerabilidades, explotación, movimiento lateral, robo de credenciales y exfiltración de datos. La IA ejecutó entre el 80% y el 90% del trabajo táctico, con intervención humana solo en puntos críticos de decisión. Esto no es una predicción. Ya ha sucedido.

Lo que exige el panorama regulatorio ahora mismo

Los reguladores no están esperando a que las organizaciones resuelvan esto por sí solas. NIST anunció su Iniciativa de Estándares para Agentes de IA en febrero de 2026, identificando identidad, autorización y seguridad del agente como áreas prioritarias para la estandarización. El Global Cybersecurity Outlook 2026 del Foro Económico Mundial encontró que aproximadamente un tercio de las organizaciones aún carece de cualquier proceso para validar la seguridad de la IA antes de su implementación.

La dirección regulatoria es clara: las organizaciones serán responsables de lo que hagan sus agentes de IA, independientemente de si esas acciones fueron intencionadas o anticipadas. Las obligaciones existentes bajo HIPAA, CMMC, GDPR, SOX y CCPA ya aplican al acceso de agentes de IA a datos sensibles. No hay excepciones regulatorias para sistemas autónomos. Si tu agente de IA accede a datos regulados, las regulaciones que gobiernan esos datos aplican en su totalidad.

El marco de responsabilidad legal es igual de estricto. Las organizaciones no pueden alegar una defensa de «IA rebelde». Si los riesgos de los agentes de IA están ampliamente documentados—y ahora lo están—implementar un agente sin controles de acceso granulares, limitaciones de propósito, registros de auditoría y mecanismos de apagado crea un caso claro de negligencia. La previsibilidad es alta. El riesgo documentado hace que la ignorancia sea indefendible.

Cómo ayuda Kiteworks a las organizaciones a contener el riesgo de los agentes de IA

Las vulnerabilidades expuestas por el estudio Agents of Chaos—acceso no autorizado a datos, suplantación de identidad, consumo incontrolado de recursos, propagación entre agentes—tienen un denominador común: explotan la ausencia de una capa de gobernanza unificada entre los agentes de IA y los datos sensibles a los que acceden.

Kiteworks es el plano de control para el intercambio seguro de datos. Consolida los flujos de datos sensibles—correo electrónico, uso compartido de archivos, SFTP, transferencia de archivos gestionada, APIs, formularios web e integraciones de IA—bajo un solo motor de políticas, registro de auditoría y arquitectura de seguridad. Para las organizaciones que implementan agentes de IA, esta arquitectura aborda los riesgos específicos documentados por la investigación.

Kiteworks aplica controles de acceso granulares, limitados por propósito y por tiempo a través de un solo motor de políticas que se aplica de manera consistente en todos los canales por los que los agentes de IA acceden a datos sensibles. Esto aborda directamente la brecha de vinculación de propósito que el 63% de las organizaciones no puede cerrar con sus herramientas actuales. Genera registros de auditoría inmutables sin limitaciones ni entradas perdidas—el tipo de registro de evidencia que esperan los reguladores y que el 61% de las organizaciones actualmente no tiene porque sus registros están fragmentados en sistemas dispares.

Kiteworks Secure MCP Server permite que los sistemas de IA interactúen con datos sensibles respetando las políticas de gobernanza existentes—extendiendo controles conformes a los flujos de trabajo de IA sin necesidad de construir infraestructura separada. Cada solicitud de IA se autentica, autoriza y audita. Cada implementación es de tenencia única por diseño, eliminando los vectores de ataque entre inquilinos que comprometen las plataformas multi-tenant.

El resultado es lo que los investigadores de Agents of Chaos identificaron como la base faltante: una capa de datos gobernada que se sitúa entre los agentes de IA y la información sensible que necesitan acceder. Las organizaciones pueden demostrar cumplimiento a través de arquitectura y evidencia, no solo documentación y esperanza—una plataforma que los equipos de cumplimiento pueden gestionar, los equipos de seguridad pueden confiar, los reguladores pueden verificar y los consejos pueden reportar con confianza.

Las organizaciones que actúan ahora definirán lo que viene

El estudio Agents of Chaos es un sistema de alerta temprana. Las vulnerabilidades que documenta no son hipotéticas—son empíricas, reproducibles y directamente relevantes para las arquitecturas de agentes de IA que las organizaciones están implementando hoy. El informe Kiteworks 2026 Forecast confirma que la infraestructura de gobernanza necesaria para contener estos riesgos aún no existe en la mayoría de las organizaciones—y que la brecha se está ampliando.

Cinco acciones generan el mayor impacto ahora mismo. Primero, inventaría cada agente de IA y herramienta impulsada por IA actualmente en uso o en la hoja de ruta—incluyendo copilotos, agentes de flujo de trabajo e integraciones de API que quizás no estén etiquetados como «agentes» pero se comportan como tales. Segundo, implementa controles de contención antes de expandir la implementación: vinculación de propósito, mecanismos de apagado y aislamiento de red son las capacidades que separan una postura defendible de una negligente. Tercero, exige registros de auditoría de calidad probatoria en todos los canales de intercambio de datos—los registros fragmentados de sistemas dispares no satisfarán a los reguladores ni sobrevivirán a litigios. Cuarto, haz de la gobernanza de IA un tema de agenda a nivel de consejo, porque los datos son claros: el compromiso del consejo es el predictor más fuerte de la madurez organizacional en IA. Y quinto, trata el acceso de agentes de IA a datos sensibles con el mismo rigor que el acceso humano—porque las regulaciones que gobiernan esos datos no distinguen entre ambos.

Las organizaciones que integren la contención en su arquitectura de IA ahora adoptarán IA más rápido, de forma más segura y con la confianza regulatoria que aporta una gobernanza demostrable. Las que lo pospongan descubrirán—por un incidente, una auditoría o una demanda—que los riesgos documentados por los investigadores en un laboratorio controlado ya han llegado a su entorno de producción.

Los agentes ya están aquí. El caos es opcional.

Preguntas frecuentes

Las empresas que implementan agentes de IA para flujos de trabajo internos deben probar la suplantación de identidad en canales de comunicación, la divulgación de información sensible a través de solicitudes indirectas, bucles de consumo de recursos que generen condiciones de denegación de servicio y el cumplimiento no autorizado con personas ajenas. El estudio Agents of Chaos documentó todos estos modos de fallo en un entorno real con las mismas herramientas que usan los agentes empresariales hoy. Kiteworks proporciona la capa de datos gobernada que aplica controles de acceso y registros de auditoría en todos los canales que tocan los agentes de IA.

Las agencias gubernamentales que buscan cerrar la brecha del 90% en contención deben priorizar de inmediato tres capacidades: vinculación de propósito para limitar lo que los agentes están autorizados a hacer, mecanismos de apagado para terminar agentes que se comportan mal y aislamiento de red para prevenir movimientos laterales. El informe Kiteworks 2026 Forecast encontró que los consejos gubernamentales van a la zaga de todas las industrias en compromiso con la IA. El patrocinio ejecutivo es el primer paso esencial para cerrar la brecha de gobernanza.

Los agentes de IA pueden ser manipulados socialmente porque procesan instrucciones y datos como tokens indistinguibles, haciendo que la inyección de prompt sea una vulnerabilidad estructural y no un error corregible. El estudio Agents of Chaos mostró que un simple cambio de nombre en Discord permitió la toma total del sistema en un canal nuevo. Las organizaciones necesitan verificación de identidad basada en criptografía y arquitectura de confianza cero—capacidades que Kiteworks ofrece a través de su diseño de tenencia única y dispositivo virtual reforzado.

Los equipos de cumplimiento que se preparan para auditorías de cumplimiento HIPAA y CMMC con agentes de IA necesitan registros de auditoría de calidad probatoria en todos los canales de intercambio de datos, vinculación de propósito documentada para cada agente que acceda a datos regulados, capacidad de apagado con criterios de activación definidos y controles de acceso de mínimo privilegio que reflejen los estándares de acceso humano. La Red de Contenido Privado de Kiteworks genera artefactos de evidencia inmutables y exportables que demuestran gobernanza bajo demanda y no solo durante auditorías de emergencia.

El compromiso del consejo es el predictor más fuerte de la madurez en gobernanza de IA, según el informe Kiteworks 2026 Forecast. Las organizaciones cuyos consejos no están comprometidos con la gobernanza de IA tienen la mitad de probabilidades de realizar evaluaciones de impacto y van entre 26 y 28 puntos por detrás en vinculación de propósito y controles humanos en el bucle. Con el 54% de los consejos aún sin priorizar la gobernanza de IA, convertirlo en un tema prioritario es la acción de mayor impacto que un consejo puede tomar para reducir el riesgo de agentes de IA.