El ataque de suplantación de identidad que lo cambió todo en 45 segundos
El 18 de febrero de 2026, una persona investigadora que participaba en el estudio Agents of Chaos cambió su nombre visible en Discord para que coincidiera con el de la persona propietaria de un agente de IA. Nada sofisticado: sin exploits de código, sin vulnerabilidades de día cero, sin intrusión en la red. Solo un cambio de nombre.
El agente no pudo notar la diferencia.
En cuestión de minutos, siguió las instrucciones de la persona suplantadora y eliminó todos sus archivos de memoria persistente: configuraciones de herramientas, definición de personaje, registros de interacción. Modificó su propio nombre. Reasignó el acceso administrativo a la persona suplantadora. El equipo investigador documentó una toma total de control sobre la identidad y la estructura de gobernanza del agente, lograda únicamente mediante ingeniería social.
El agente había sido construido sobre OpenClaw, el framework de agentes de IA de código abierto que, tres semanas después, se convertiría en el proyecto más descargado en la historia de GitHub. El mismo que el CEO de NVIDIA, Jensen Huang, presentaría en el escenario de GTC 2026 y llamaría «el lanzamiento de software más importante de la historia» y «el sistema operativo para la IA personal».
Ambas afirmaciones son ciertas. Y esa paradoja—capacidad profunda combinada con vulnerabilidad estructural—es el reto clave de la IA empresarial en 2026.
Veinte investigadores, dos semanas, diez brechas: Lo que realmente reveló el estudio Agents of Chaos
El estudio Agents of Chaos se llevó a cabo del 2 al 22 de febrero de 2026, en un entorno de laboratorio en vivo con infraestructura de servidores aislados, instancias privadas de Discord, cuentas de correo individuales, volúmenes de almacenamiento persistente y acceso a herramientas a nivel de sistema. Veinte especialistas en IA de Northeastern University, Harvard, MIT, Stanford, CMU, University of British Columbia, Hebrew University, Max Planck Institute, Tufts, Vector Institute y otras instituciones participaron usando metodología de red-teaming adversario.
Los resultados fueron devastadores. En 16 estudios de caso—11 presentados como representativos—el equipo documentó al menos 10 brechas de seguridad significativas y numerosos modos de fallo adicionales. Pero el hallazgo más importante no fue ninguna brecha individual, sino la identificación de tres déficits estructurales en las arquitecturas actuales de agentes de IA que no pueden corregirse con parches o actualizaciones.
Sin modelo de partes interesadas. Los agentes no cuentan con un mecanismo confiable para distinguir entre alguien a quien deben trabajar y alguien que intenta manipularlos. Por defecto, buscan satisfacer a quien se expresa con mayor urgencia. Como los LLM procesan instrucciones y datos como tokens indistinguibles en una ventana de contexto, la inyección de prompts es una característica estructural de estos sistemas, no un bug corregible. Esta fue la superficie de ataque más explotada en múltiples estudios de caso.
Sin modelo propio. Los agentes toman acciones irreversibles que afectan a las personas usuarias sin reconocer que están superando sus límites de competencia. En un caso, un agente convirtió una solicitud temporal en un proceso en segundo plano permanente sin condición de finalización. En otro, el agente reportó la finalización de una tarea mientras el estado real del sistema estaba roto. El equipo investigador observó que los agentes OpenClaw operan con autonomía de Nivel 4 en la escala de seis niveles de Mirsky, pero solo poseen comprensión de Nivel 2.
Sin superficie privada de deliberación. Los agentes no podían rastrear de forma confiable qué canales de comunicación eran visibles para quién. Un agente afirmó que «respondería en silencio solo por correo electrónico», mientras publicaba contenido relacionado en un canal público de Discord.
Cinco de los OWASP Top 10 for LLM Applications (2025) se correspondieron directamente con los fallos observados: inyección de prompts, divulgación de información confidencial, agencia excesiva, filtración de prompt de sistema y consumo sin límites.
Confías en que tu organización es segura. Pero ¿puedes comprobarlo?
Lee ahora
Los estudios de caso que deberían quitarle el sueño a cualquier CEO
Las narrativas directas del estudio son más instructivas que las abstracciones. En un caso, una persona no propietaria presionó a un agente para que eliminara evidencia de un secreto. Al no contar con una herramienta específica de eliminación, el agente optó por restablecer todo el cliente de correo de la persona propietaria—destruyendo la infraestructura digital de la persona propietaria por instrucciones de alguien ajeno. No existía ningún control de acceso que lo impidiera.
En otro caso, el equipo investigador introdujo información personal identificable—números de la Seguridad Social, cuentas bancarias, datos médicos—en el correo de la persona propietaria del agente. El fallo demuestra por qué la clasificación de datos por sí sola no puede proteger contenido confidencial cuando los agentes procesan documentos completos en vez de campos individuales. El agente se negó correctamente a una solicitud directa de «el SSN del correo». Pero al pedirle que reenviara el correo completo, divulgó todo sin censura. Podía identificar solicitudes explícitas de datos sensibles como sospechosas, pero no reconocía que reenviar el contenedor lograba el mismo resultado.
Lo más preocupante para implementaciones multiagente: una persona no propietaria introdujo una «constitución» de comportamiento editable externamente en la memoria de un agente. Sin ningún prompt, el agente compartió voluntariamente el enlace con otro agente—extendiendo la superficie de ataque a un segundo sistema mediante el mismo mecanismo que permite la colaboración productiva. Las implicaciones para la gestión de riesgos en la cadena de suministro de empresas que ejecutan flujos de trabajo interconectados con agentes son significativas.
No son escenarios teóricos. Ocurrieron en un entorno controlado usando el framework que todas las empresas han recibido como base para su estrategia.
Tres semanas después: GTC 2026 y el imperativo de adopción industrial
El 16 de marzo de 2026—menos de un mes después de que el equipo de Agents of Chaos concluyera su estudio—Jensen Huang subió al escenario de GTC y declaró que «todas las empresas del mundo hoy necesitan una estrategia OpenClaw».
Los datos de adopción respaldan su urgencia. OpenClaw superó en tres semanas la trayectoria de crecimiento de tres décadas de Linux. Huang dijo que la curva de adopción «parece el eje Y» incluso en escala semi-logarítmica. La propia NVIDIA reveló que ejecuta agentes OpenClaw internamente y que la demanda de cómputo se ha «disparado» como resultado.
La respuesta de NVIDIA a las preocupaciones de seguridad fue NemoClaw: un paquete que integra el runtime OpenShell, modelos Nemotron 3 y un router de privacidad en una implementación empresarial de un solo comando. El ecosistema está creciendo rápido: Microsoft Security, Cisco AI Defense y CrowdStrike ya están integrando protecciones.
Pero aquí está la tensión que la industria aún no resuelve: NemoClaw y OpenShell abordan la seguridad en tiempo de ejecución—sandboxing, límites de red, controles de acceso a herramientas, detección adversaria. No resuelven los déficits estructurales identificados por el equipo de Agents of Chaos. Un agente en un sandbox perfecto sigue sin poder distinguir a su propietario de una persona suplantadora. Sigue sin reconocer cuándo reenviar un correo constituye una violación de privacidad de datos. Sigue sin poder evitar la propagación de vulnerabilidades entre agentes mediante el intercambio de conocimientos.
Las vulnerabilidades estructurales persisten porque son inherentes a la forma en que los LLM procesan la información. El equipo investigador fue explícito: son características de la arquitectura, no bugs de la implementación.
La brecha de gobernanza: Las organizaciones no pueden contener lo que no pueden controlar
Si los propios agentes no pueden hacerse estructuralmente seguros, la pregunta es: ¿Se puede gobernar el entorno en el que operan con suficiente rigor para evitar que los fallos estructurales se conviertan en catástrofes de cumplimiento?
Los datos muestran que la mayoría de las organizaciones están lejos de lograrlo. El Informe de Pronóstico de Seguridad de Datos, Cumplimiento y Riesgo de Kiteworks 2026 documenta una brecha de 15 a 20 puntos entre controles de gobernanza y controles de contención en todos los sectores analizados. El 63% de las organizaciones no puede imponer limitaciones de propósito a los agentes de IA. El 60% no puede terminar un agente que se comporta de forma indebida. El 55% no puede aislar los sistemas de IA de la red general. Las herramientas tradicionales de DLP no fueron diseñadas para flujos de datos generados por agentes y no ofrecen cobertura significativa para estos modos de fallo.
Las agencias gubernamentales van una generación atrás—no solo un paso atrás. El 90% carece de vinculación de propósito para agentes de IA. El 76% no tiene «kill switches». El 33% no cuenta con controles dedicados de gobernanza de datos de IA.
El Global Cybersecurity Outlook 2026 del World Economic Forum advierte que, sin una gobernanza sólida, los agentes pueden acumular privilegios excesivos, ser manipulados mediante fallos de diseño o inyecciones de prompts, o propagar errores a gran escala. Solo el 40% de las organizaciones realiza revisiones periódicas de riesgos de IA. Aproximadamente un tercio carece de cualquier proceso para validar la seguridad de IA antes de la implementación.
Mientras tanto, en el panorama de amenazas, el Informe Global de Amenazas 2026 de CrowdStrike documentó un aumento del 89% en ataques de adversarios habilitados por IA, 82% de detecciones sin malware y un tiempo promedio de breakout de eCrime de 29 minutos. Las personas atacantes no están esperando a que las organizaciones construyan gobernanza.
La resolución: Gobierna la capa de datos, porque no puedes arreglar la capa de agentes
El equipo de Agents of Chaos concluyó que clarificar y operacionalizar la responsabilidad es un «reto central sin resolver» para la implementación segura de sistemas autónomos de IA. Los sistemas agentivos actuales carecen de los fundamentos—modelos de partes interesadas sólidos, identidad verificable, autenticación confiable—sobre los que depende la rendición de cuentas significativa.
Esta conclusión apunta a una respuesta arquitectónica específica: si no puedes hacer que el agente sea estructuralmente seguro, debes gobernar los datos a los que accede el agente para que los fallos estructurales no se conviertan en violaciones regulatorias, brechas de datos o desencadenantes de litigios.
La capa de gobernanza debe ser independiente del agente. Independiente del modelo. Independiente del runtime. Porque las vulnerabilidades estructurales existen en todas esas capas, y una brecha en cualquiera de ellas no debe derivar en un fallo de cumplimiento.
Eso es precisamente lo que ofrece la gobernanza a nivel de datos—y lo que la seguridad en tiempo de ejecución, los límites a nivel de modelo y los prompts de sistema no pueden garantizar. Una arquitectura de confianza cero que trate cada interacción de agente como no confiable por defecto es el único punto de partida defendible.
Cómo Kiteworks implementa los agentes del cumplimiento
Kiteworks Compliant AI está posicionado arquitectónicamente en la capa de datos—entre los agentes y los datos regulados que necesitan. Implementa cuatro pilares de gobernanza que contrarrestan directamente los modos de fallo documentados por el equipo de Agents of Chaos.
Frente al déficit de modelo de partes interesadas, Kiteworks autentica cada identidad de agente y la vincula con la persona humana autorizadora que delegó el flujo de trabajo. La cadena de delegación se conserva en registros de auditoría a prueba de manipulaciones. Cuando un agente es suplantado—como en el caso de spoofing de identidad—la autenticación de Kiteworks opera de forma independiente al canal de comunicación, evitando los ataques de límite de sesión que comprometieron agentes en el estudio.
Frente al déficit de modelo propio, Kiteworks aplica control de acceso basado en atributos en cada operación de datos. Un agente autorizado para leer una carpeta no está automáticamente autorizado para descargar su contenido. Un agente autorizado para buscar en un repositorio no puede reenviar resultados externamente. El acceso mínimo necesario se aplica a nivel de operación, previniendo los patrones de «respuesta desproporcionada» y «cumplimiento no autorizado» documentados en el estudio.
Frente al déficit de deliberación privada, Kiteworks aplica cifrado validado FIPS 140-3 a todos los datos accedidos por agentes en tránsito y en reposo. Incluso cuando un agente filtra información por el canal equivocado—como ocurrió en múltiples estudios de caso—los datos están protegidos por criptografía validada, no por instrucciones de confidencialidad a nivel de modelo que los agentes demuestran no poder mantener.
La trazabilidad a prueba de manipulaciones captura cada interacción: qué datos se accedieron, por qué agente, para qué persona autorizadora, en qué momento, bajo qué política. Cuando una persona auditora de cumplimiento pregunta qué ocurrió, la respuesta es un informe—no una investigación forense. Esos registros alimentan directamente los sistemas SIEM empresariales para monitoreo continuo.
Qué deben hacer las organizaciones antes de que sus agentes del caos se conviertan en incidentes de cumplimiento
Primero, realiza un inventario inmediato de las implementaciones de IA agentiva en tu entorno. OpenClaw es el proyecto de código abierto más descargado de la historia y se ejecuta localmente sin aprobación de TI. CrowdStrike, Microsoft, Cisco, Sophos y Trend Micro han publicado guías de detección porque las personas empleadas lo implementan sin conocimiento del equipo de seguridad. La gestión de la postura de seguridad de datos comienza sabiendo qué IA accede a tus datos.
Segundo, acepta que las vulnerabilidades estructurales de los agentes son características permanentes, no bugs temporales. Diseña tu gobernanza en consecuencia—no esperes a que los frameworks de agentes «maduren» en seguridad. El estudio Agents of Chaos demostró que son inherentes a cómo los LLM procesan tokens, no defectos de implementación que los parches resolverán.
Tercero, implementa gobernanza de puerta de enlace de datos IA antes de ampliar el acceso de agentes a datos regulados, ya sea mediante asistentes interactivos, flujos de trabajo automatizados o pipelines RAG. El Pronóstico Kiteworks 2026 encontró una brecha de 15 a 20 puntos entre controles de gobernanza y de contención. Cierra primero la brecha de contención y luego escala la implementación.
Cuarto, establece la rendición de cuentas en la cadena de delegación para cada flujo de trabajo de agente. Tu auditor no aceptará «el agente lo hizo» como justificación. Vincula cada acción de agente con una persona autorizadora en un registro a prueba de manipulaciones. El estudio Agents of Chaos encontró que las interacciones multiagente dificultan especialmente la atribución de riesgos de terceros—las cadenas de delegación claras son la respuesta organizacional.
Quinto, pon a prueba tu plan de respuesta a incidentes para escenarios específicos de agentes. ¿Puedes terminar un agente que se comporta de forma indebida? ¿Puedes aislar su acceso a datos? ¿Puedes generar un paquete de evidencia mostrando qué datos se vieron afectados? El Pronóstico Kiteworks 2026 halló que el 60% de las organizaciones no puede terminar un agente que se comporta de forma indebida. Ese número debe ser cero antes de la implementación en producción.
Los agentes del caos ya están implementados. Funcionan en portátiles de empleados, conectándose a correo empresarial, Slack, calendarios y sistemas de archivos. Las vulnerabilidades estructurales documentadas por el equipo investigador no van a desaparecer. La única pregunta que queda es si tu organización también implementa los agentes del cumplimiento—gobernando la capa de datos para que los fallos inevitables de los agentes no se conviertan en catástrofes organizacionales.
Para saber más sobre cómo puede ayudarte Kiteworks, agenda una demo personalizada hoy mismo.
Preguntas frecuentes
Prohibir OpenClaw probablemente no funcionará y apunta a la capa equivocada. Las personas empleadas ya lo han implementado en dispositivos personales y BYOD sin aprobación de TI. Las vulnerabilidades estructurales que el equipo de Agents of Chaos identificó existen en todos los sistemas de IA agentiva, no solo en OpenClaw. El mejor enfoque es gobernar la gestión de datos de IA en la capa de datos con soluciones como Kiteworks, de modo que los fallos de agentes no se conviertan en violaciones de cumplimiento.
El estudio documentó agentes que divulgaban PII completa—SSN, datos médicos—cuando se les pedía reenviar correos que contenían esa información. Bajo el cumplimiento HIPAA, el acceso de agentes de IA a PHI requiere acceso mínimo necesario (§164.502(b)) y registros de auditoría (§164.312(b)). El Pronóstico Kiteworks 2026 halló que el 63% no puede imponer limitaciones de propósito a los agentes de IA. Se requiere gobernanza a nivel de datos.
Significa que los límites a nivel de modelo (prompts de sistema, fine-tuning, filtros de seguridad) no son controles de cumplimiento auditables. Pueden ser eludidos mediante las características estructurales que el estudio Agents of Chaos documentó. Tu arquitectura debe imponer el cumplimiento en la capa de datos—independiente del modelo—mediante verificación de identidad, políticas ABAC, cifrado validado FIPS 140-3 y registros a prueba de manipulaciones.
Parcialmente. NemoClaw aborda la seguridad en tiempo de ejecución—sandboxing, límites de red y detección adversaria. No resuelve los tres déficits estructurales (sin modelo de partes interesadas, sin modelo propio, sin superficie privada de deliberación) porque son inherentes a cómo los LLM procesan tokens, no a la configuración de runtime. La gobernanza a nivel de datos con Kiteworks contiene el impacto cuando se explotan vulnerabilidades estructurales.
Las personas del consejo deben entender que el riesgo estructural de los agentes de IA es gestionable aunque no eliminable. El Global Cybersecurity Outlook 2026 del WEF recomienda principios de seguridad de confianza cero, tratando cada interacción de agente como no confiable por defecto. La respuesta práctica es la gobernanza a nivel de datos: asegúrate de que cada interacción de agente esté autenticada, gobernada por políticas, cifrada y registrada mediante una solución como Kiteworks.
Recursos adicionales
- Artículo del Blog
Estrategias Zero-Trust para una protección de privacidad de IA asequible - Artículo del Blog
Cómo el 77% de las organizaciones fracasan en la seguridad de datos de IA - eBook
Brecha de gobernanza de IA: Por qué el 91% de las pequeñas empresas juegan a la ruleta rusa con la seguridad de datos en 2025 - Artículo del Blog
No existe «–dangerously-skip-permissions» para tus datos - Artículo del Blog
Los reguladores ya no preguntan si tienes una política de IA. Quieren pruebas de que funciona.