Home > Blog de Seguridad y Cumplimiento > Sin categorizar > BadBone y la cadena de suministro de IA: cuando el riesgo es el propio modelo

BadBone y la cadena de suministro de IA: cuando el riesgo es el propio modelo

by Patrick Spencer updated 5 de junio de 2026 Gestión de Riesgos de Ciberseguridad

Reading Time: 7 minutes

Durante tres años, la conversación sobre seguridad empresarial en torno a la IA se ha centrado casi exclusivamente en lo que hacen los agentes de IA con los datos una vez que están en funcionamiento. BadBone cambia ese enfoque hacia algo anterior: qué ocurre cuando el propio modelo ha sido comprometido antes de llegar a tu entorno.

La innovación principal de BadBone es la separación entre los estados latente y activado. Los ataques tradicionales de puerta trasera en IA insertan un disparador que se activa inmediatamente cuando se presenta un patrón de entrada específico, lo que es visible para las defensas que buscan entradas que generen comportamientos anómalos. BadBone evita esto con una activación en dos fases. La primera fase es el fine-tuning: cuando una organización descarga el modelo y aplica aprendizaje por prompt, la puerta trasera latente se activa. Los pesos cambian de una forma diseñada por el atacante para desbloquear la puerta trasera, pero ese cambio parece un fine-tuning normal para cualquier observador. La segunda fase es el disparador: después del fine-tuning, una entrada específica activa la puerta trasera y produce la salida deseada por el atacante.

Table of Contents

La brecha de defensa es estructural. Las defensas escanean el modelo base antes del fine-tuning. La puerta trasera se activa después del fine-tuning. La ventana en la que las defensas buscan no coincide con la ventana en la que la puerta trasera está activa, la misma lógica que hizo que el ataque a la cadena de suministro de SolarWinds fuera tan efectivo: la modificación maliciosa se introdujo en un punto que la validación de seguridad estándar no cubría.

5 puntos clave

1. BadBone inserta una puerta trasera que se activa durante el fine-tuning, no durante el escaneo.

Un artículo revisado por pares publicado el 2 de junio de 2026 demostró un ataque en dos fases: la puerta trasera permanece latente en el modelo base y se activa cuando la organización víctima aplica aprendizaje por prompt o personalización. El paso de fine-tuning, considerado una operación técnica rutinaria, se convierte en el evento de seguridad. Seis defensas publicadas no lograron detectarlo en la mayoría de las configuraciones porque escanean el modelo base antes del fine-tuning. La amenaza no se activa hasta que la ventana de escaneo se cierra.

2. Seis defensas estándar fallaron.

Neural Cleanse, ABS, MNTD, NAD, CLP y D-BR son los enfoques actuales para detectar modelos con puertas traseras. Ninguno detectó BadBone de manera fiable. No es un fallo de una sola herramienta, sino una conclusión de que toda la categoría de defensa se construyó sobre una suposición que el ataque logra superar. Una vez activado, BadBone provocó un 99% de clasificación errónea en las entradas objetivo mientras el modelo mantenía precisión normal en el resto, haciendo que el compromiso fuera prácticamente invisible para la monitorización de comportamiento.

3. Los pesos de los modelos de IA son una superficie de ataque no examinada y sin herramientas adecuadas de escaneo.

SBOM, firma de código y análisis estático no se aplican a los archivos de modelos de IA. Puedes verificar el hash de un archivo descargado, pero no puedes auditar el comportamiento codificado en sus pesos. El mercado de modelos fundacionales, con pocos proveedores que distribuyen pesos a través de repositorios que millones de organizaciones descargan y personalizan, tiene las características estructurales de una superficie de ataque de cadena de suministro de alto impacto. Un solo archivo de pesos comprometido distribuido por un canal de confianza puede llegar a miles de organizaciones.

4. La defensa que funciona independientemente de la integridad del modelo es la gobernanza a nivel de contenido.

Si los datos a los que puede acceder un modelo comprometido están gobernados por una política independiente —no por el propio criterio del modelo— el alcance del daño de un modelo con puerta trasera queda limitado por lo que permite la capa de gobernanza. El principio es similar al zero trust: no confíes en la autoevaluación del modelo; evalúa cada solicitud de datos según una política que el modelo no puede ver ni modificar.

5. Los entornos regulados enfrentan exposición directa de cumplimiento por acceso no gobernado de modelos de IA.

CMMC 2.0 nivel 2 exige control de acceso reforzado y registro de auditoría para cada acceso a CUI, sin importar si el acceso lo realiza una persona o un agente de IA. Un modelo con puerta trasera que accede a CUI sin controles de acceso independientes es una observación de CMMC. HIPAA y la Ley de IA de la UE aplican la misma lógica para PHI y datos de sistemas de IA de alto riesgo.

Confías en que tu organización es segura. Pero ¿puedes comprobarlo?

Lee ahora

Los pesos de los modelos de IA como superficie de ataque no examinada

El Informe Global de Amenazas 2026 de CrowdStrike documentó un aumento del 89% interanual en la actividad de adversarios habilitados por IA. BadBone añade un nuevo vector: no IA utilizada por atacantes contra organizaciones, sino artefactos de modelos de IA usados como mecanismo de entrega para ataques contra las organizaciones que los implementan.

Las herramientas de seguridad para la cadena de suministro de software —SBOM, atestación de procedencia, firma de código, análisis de composición de software— no se aplican a los archivos de modelos de IA. Un archivo de pesos de modelo es un artefacto binario que no puede ser auditado de forma significativa con ninguna herramienta de seguridad de cadena de suministro existente. Puedes verificar el hash del archivo descargado. No puedes verificar la integridad del comportamiento codificado en los pesos.

El estudio Cisco Privacy Benchmark encontró que el 45% de los empleados ya usan herramientas de IA en el trabajo. Un modelo con puerta trasera incrustado en un flujo de clasificación de cara al cliente o en una canalización interna de procesamiento de documentos crea una superficie de ataque que escala con el uso, y la mayoría de las organizaciones no tienen mecanismos para detectar que algo va mal.

Por qué las defensas a nivel de modelo no son suficientes

La investigación sobre BadBone no es principalmente una crítica a las seis defensas que logró superar. Es una demostración de que las defensas construidas únicamente en la capa del modelo tienen una limitación inherente: asumen que lo que es seguro antes de la implementación sigue siendo seguro después de la personalización. Esa suposición no es fiable.

Las defensas a nivel de modelo ofrecen protección real contra ataques más simples que no requieren una activación por fine-tuning. Pero tratarlas como defensa principal frente al riesgo de la cadena de suministro de IA supone un modelo de amenaza que BadBone demuestra que es incompleto. El problema práctico para los equipos de seguridad empresarial es que la inspección a nivel de modelo de los pesos fine-tuned no es una disciplina madura. El proyecto OWASP Agent Memory Guard ha anunciado planes para añadir detección de anomalías basada en ML, pero esas capacidades aún no están listas para producción. La defensa más duradera por ahora es no confiar en el criterio del modelo sobre qué datos debe acceder.

Respuesta de gobernanza a nivel de contenido

La gobernanza de datos de IA a nivel de contenido proporciona una defensa que no depende de la integridad del modelo. En lugar de preguntar si el modelo es seguro, se pregunta si los datos a los que puede acceder el modelo están gobernados por una política que el modelo no puede modificar. Cada interacción de un agente de IA con repositorios de contenido confidencial —sin importar qué modelo esté en funcionamiento o si ha sido comprometido— se media mediante un motor de políticas independiente que aplica controles de acceso basados en atributos. La solicitud del modelo para recuperar un archivo, consultar una base de datos o transmitir datos se evalúa contra una política que no reside dentro del modelo.

Kiteworks Secure MCP Server y AI Data Gateway implementan esta arquitectura. Cada agente de IA que accede a contenido confidencial se autentica, el acceso se evalúa contra políticas ABAC a nivel de solicitud y cada interacción se registra en un log de auditoría inviolable. Un modelo con puerta trasera que intente exfiltrar datos a un endpoint externo se encuentra con un motor de políticas que no sabe ni le importa la intención del modelo: evalúa la solicitud de acceso según la política de gobernanza y bloquea lo que la política no permite. Kiteworks Private Data Network extiende esta arquitectura a correo electrónico, uso compartido de archivos, MFT, SFTP, formularios web y APIs bajo un solo motor de políticas y un log de auditoría consolidado.

Para entornos CMMC y FedRAMP, la defensa a nivel de contenido no es opcional. CMMC 2.0 nivel 2 exige control de acceso reforzado y registro de auditoría para cada acceso a CUI, ya sea realizado por una persona o un agente de IA. Un modelo con puerta trasera que accede a CUI sin controles de acceso independientes es una observación de CMMC.

Qué deben hacer las organizaciones ahora

BadBone es una prueba de concepto académica, no un ataque documentado en circulación. Pero las pruebas de concepto en seguridad de la cadena de suministro de software se convierten en técnicas operativas en un plazo de doce a veinticuatro meses tras su publicación.

Primero, revisa el alcance de acceso a datos de cada agente de IA y cada implementación de modelo. La pregunta no es si el modelo es confiable, sino si el acceso a datos del modelo está limitado por una capa de gobernanza que detecta patrones de acceso anómalos incluso si el comportamiento del modelo está comprometido.

Segundo, trata el fine-tuning de modelos de IA como un evento de seguridad. Si tu flujo de trabajo de fine-tuning descarga pesos de modelos base desde un repositorio público sin revisión de seguridad, tienes exactamente la vulnerabilidad que BadBone demuestra para cualquier organización que siga ese flujo.

Tercero, asegúrate de que las credenciales de los agentes de IA y los tokens de API tengan un alcance individual, se roten regularmente y estén gobernados por principios de zero trust. Un modelo comprometido que no puede exceder sus permisos asignados no puede causar daños proporcionales a su acceso potencial total.

Cuarto, implementa gobernanza a nivel de contenido para que los modelos operen dentro de entornos de datos limitados y gobernados por políticas, independientemente de su integridad interna. Los controles de gobernanza de IA que protegen contra BadBone —acceso limitado de agentes, aplicación de políticas independiente, registro de auditoría inviolable— son también los que ya exigen CMMC 2.0, HIPAA y la Ley de IA de la UE. Construirlos ahora cubre obligaciones de cumplimiento y el riesgo de la cadena de suministro de IA al mismo tiempo.

Para saber más sobre cómo proteger tus datos confidenciales frente a cadenas de suministro de IA, agenda una demo personalizada hoy mismo.

Preguntas frecuentes

BadBone inserta una puerta trasera latente en un modelo fundacional que solo se activa cuando la organización víctima realiza fine-tuning usando aprendizaje por prompt, no durante la inspección previa a la implementación. Los ataques anteriores insertan disparadores en el modelo base que las defensas pueden escanear. La activación en dos fases de BadBone supera las defensas que escanean antes del fine-tuning, porque la amenaza no se activa hasta que la ventana de escaneo se cierra. Una vez activado, provoca un 99% de clasificación errónea sin degradación detectable de precisión en entradas limpias.

Neural Cleanse, ABS, MNTD, NAD, CLP y D-BR detectan puertas traseras buscando comportamientos de salida anómalos en el modelo base. BadBone mantiene la puerta trasera latente durante el escaneo: el modelo base se comporta normalmente. La puerta trasera se activa después del fine-tuning, un paso que ocurre después de que las defensas ya han aprobado el modelo. Esta es una limitación estructural: las defensas que escanean modelos base antes del fine-tuning no detectarán ataques diseñados para activarse durante el fine-tuning. El proyecto OWASP Agent Memory Guard planea detección de anomalías basada en ML para cubrir esta brecha, pero esas capacidades aún no están listas para producción.

La gobernanza a nivel de contenido hace que el criterio del modelo sea irrelevante para las decisiones de acceso a datos. Cada solicitud de un agente de IA para acceder o transmitir contenido confidencial se evalúa mediante un motor de políticas ABAC independiente que el modelo no puede influir. Kiteworks Secure MCP Server y AI Data Gateway implementan esto: un modelo con puerta trasera que intente exfiltrar datos se encuentra con una decisión de política registrada que bloquea lo que la política no permite, sin importar la intención del modelo.

BadBone es una prueba de concepto académica, no un ataque documentado en uso activo. Su importancia radica en demostrar la viabilidad de una clase de ataque que antes era teórica. El patrón histórico en seguridad de software es que la investigación de pruebas de concepto sobre nuevos vectores de ataque se vuelve operativa en doce a veinticuatro meses. Los controles que defienden contra BadBone —acceso limitado de agentes de IA, aplicación de políticas independiente, registro de auditoría inviolable— son también los que ya exigen CMMC 2.0, HIPAA y la Ley de IA de la UE. Construirlos ahora cubre tanto obligaciones de cumplimiento como el riesgo futuro en la cadena de suministro de IA.

Las herramientas tradicionales de seguridad de la cadena de suministro se diseñaron para código y binarios auditables. Los pesos de modelos de IA son miles de millones de valores en coma flotante cuyo comportamiento emerge de la combinación completa, no de un componente individual que se pueda inspeccionar. Puedes verificar el hash criptográfico de un archivo, pero no puedes auditar si hay una puerta trasera latente incrustada en los pesos. El control compensatorio es la protección de datos zero trust a nivel de contenido: garantizar que los modelos operen dentro de entornos de datos limitados y gobernados por políticas, independientemente de su integridad interna, con cada interacción generando un registro de auditoría con valor probatorio.

Recursos adicionales

Artículo del Blog
Estrategias Zero‑Trust para una protección de privacidad de IA asequible
Artículo del Blog
Cómo el 77% de las organizaciones está fallando en la seguridad de datos de IA
eBook
Brecha de gobernanza de IA: por qué el 91% de las pequeñas empresas juega a la ruleta rusa con la seguridad de datos en 2025
Artículo del Blog
No existe un «–dangerously-skip-permissions» para tus datos
Artículo del Blog
Los reguladores ya no preguntan si tienes una política de IA. Quieren pruebas de que funciona.