BadBone et la supply chain de l’IA : quand le modèle devient le risque
Pendant trois ans, les discussions sur la sécurité des entreprises autour de l’IA se sont presque exclusivement concentrées sur ce que font les agents IA avec les données une fois déployés. BadBone recentre la réflexion sur un point en amont : que se passe-t-il si le modèle a déjà été compromis avant même d’atteindre votre environnement ?
L’innovation majeure de BadBone réside dans la séparation entre les états dormant et activé. Les attaques classiques de type backdoor sur l’IA intègrent un déclencheur qui s’active dès qu’un certain motif d’entrée est détecté — ce qui reste visible pour les défenses qui scrutent les entrées générant des comportements anormaux. BadBone contourne ce principe grâce à une activation en deux phases. La première phase correspond au fine-tuning : lorsqu’une organisation télécharge le modèle et applique l’apprentissage par prompt, la backdoor dormante s’active. Les poids du modèle évoluent de façon à ouvrir la backdoor, mais ce changement ressemble à un fine-tuning classique pour un observateur. La seconde phase est le déclencheur : après le fine-tuning, une entrée spécifique active la backdoor et génère la sortie voulue par l’attaquant.
La faille défensive est structurelle. Les défenses analysent le modèle de base avant le fine-tuning. La backdoor devient active après le fine-tuning. La fenêtre d’analyse ne correspond donc pas à la période où la backdoor est opérationnelle — c’est le même principe qui a rendu l’attaque SolarWinds sur la supply chain si efficace : la modification malveillante a été introduite à un moment non couvert par la validation de sécurité standard.
5 enseignements clés
1. BadBone implante une backdoor qui s’active lors du fine-tuning, pas lors du scan.
Un article scientifique évalué par des pairs publié le 2 juin 2026 a démontré une attaque en deux phases : la backdoor reste dormante dans le modèle de base, puis s’active lorsque l’organisation victime applique un apprentissage par prompt ou une personnalisation. L’étape de fine-tuning — considérée comme une opération technique de routine — devient alors un événement de sécurité. Six défenses publiées n’ont pas réussi à la détecter dans la plupart des configurations, car elles analysent le modèle de base avant le fine-tuning. La menace ne devient active qu’après la fermeture de la fenêtre d’analyse.
2. Six défenses de référence ont échoué.
Neural Cleanse, ABS, MNTD, NAD, CLP et D-BR sont les méthodes de détection standard actuelles pour les modèles piégés. Aucune n’a détecté BadBone de façon fiable. Ce n’est pas l’échec d’un outil en particulier — c’est la preuve que toute la catégorie défensive repose sur une hypothèse que l’attaque déjoue. Une fois déclenché, BadBone provoque 99 % de mauvaises classifications sur les entrées ciblées, tout en maintenant une précision normale sur le reste, rendant la compromission quasiment invisible pour les systèmes de surveillance comportementale.
3. Les poids des modèles IA constituent une surface d’attaque inexplorée sans outils de scan adaptés.
Les SBOM, la signature de code et l’analyse statique ne s’appliquent pas aux fichiers de modèles IA. Vous pouvez vérifier le hash d’un fichier téléchargé, mais pas auditer le comportement codé dans ses poids. Le marché des modèles de base — quelques fournisseurs distribuant des poids via des dépôts téléchargés et personnalisés par des millions d’organisations — présente les caractéristiques structurelles d’une surface d’attaque supply chain à fort effet de levier. Un seul fichier de poids compromis, diffusé via un canal de confiance, peut atteindre des milliers d’organisations.
4. La défense efficace, quel que soit l’état du modèle, repose sur la gouvernance au niveau du contenu.
Si les données auxquelles un modèle compromis peut accéder sont régies par une politique indépendante — et non par le jugement du modèle — l’impact d’un modèle piégé reste limité à ce que permet la couche de gouvernance. Ce principe s’inspire du zéro trust : ne faites pas confiance à l’auto-évaluation du modèle ; évaluez chaque demande d’accès aux données selon une politique que le modèle ne peut ni voir ni modifier.
5. Les environnements réglementés sont exposés à un risque direct de non-conformité en cas d’accès IA non gouverné.
CMMC 2.0 Niveau 2 impose un contrôle d’accès strict et une journalisation des accès à chaque interaction avec des CUI, qu’il s’agisse d’un humain ou d’un agent IA. Un modèle piégé accédant à des CUI sans contrôle d’accès indépendant constitue un manquement CMMC. HIPAA et l’AI Act européen appliquent la même logique pour les PHI et les données à haut risque des systèmes IA.
Vous pensez que votre organisation est sécurisée. Mais pouvez-vous le prouver ?
Pour en savoir plus :
Les poids des modèles IA : une surface d’attaque inexplorée
Le CrowdStrike Global Threat Report 2026 a constaté une augmentation de 89 % des activités malveillantes dopées à l’IA d’une année sur l’autre. BadBone ajoute une nouvelle dimension à ce tableau : il ne s’agit plus d’IA utilisée par les attaquants contre les organisations, mais de fichiers de modèles IA servant de vecteur d’attaque contre les organisations qui les déploient.
Les outils de sécurité supply chain logicielle — SBOM, attestation de provenance, signature de code, analyse de la composition logicielle — ne s’appliquent pas aux fichiers de modèles IA. Un fichier de poids de modèle est un artefact binaire impossible à auditer efficacement avec les outils actuels. Vous pouvez vérifier le hash du fichier téléchargé, mais pas l’intégrité du comportement codé dans les poids.
L’étude Cisco Privacy Benchmark a révélé que 45 % des employés utilisent désormais des outils IA au travail. Un modèle piégé intégré dans un workflow de classification client ou une chaîne de traitement documentaire interne crée une surface d’attaque qui s’accroît avec l’usage — et la plupart des organisations n’ont aucun moyen de détecter qu’un problème existe.
Pourquoi les défenses au niveau du modèle ne suffisent pas
La recherche sur BadBone n’est pas avant tout une critique des six défenses qu’il a déjouées. Elle démontre que les défenses construites uniquement au niveau du modèle présentent une limite intrinsèque : elles supposent que ce qui est sûr avant le déploiement le reste après personnalisation. Cette hypothèse n’est pas fiable.
Les défenses au niveau du modèle protègent réellement contre les attaques plus simples qui ne nécessitent pas d’activation par fine-tuning. Mais les considérer comme la principale défense contre les risques supply chain IA revient à supposer un modèle de menace que BadBone remet en cause. Le vrai problème pour les équipes en charge de cybersécurité, c’est que l’inspection des poids fine-tunés n’est pas une discipline mature. Le projet OWASP Agent Memory Guard prévoit d’ajouter une détection d’anomalies basée sur le ML, mais ces fonctions ne sont pas encore prêtes pour la production. La défense la plus robuste à court terme consiste à ne pas faire confiance au jugement du modèle sur les données auxquelles il accède.
La réponse : la gouvernance au niveau du contenu
La gouvernance des données IA au niveau du contenu offre une défense qui ne dépend pas de l’intégrité du modèle. Au lieu de se demander si le modèle est sûr, il s’agit de vérifier si les données auxquelles il accède sont régies par une politique que le modèle ne peut pas contourner. Chaque interaction d’un agent IA avec des référentiels de contenu sensible — quel que soit le modèle utilisé, qu’il soit compromis ou non — passe par un moteur de politique indépendant qui applique des contrôles d’accès basés sur les attributs (ABAC). La demande du modèle pour récupérer un fichier, interroger une base de données ou transmettre des données est évaluée selon une politique externe au modèle.
Le Kiteworks Secure MCP Server et l’AI Data Gateway mettent en œuvre cette architecture. Chaque agent IA accédant à du contenu sensible est authentifié, l’accès est évalué selon des règles ABAC à la demande, et chaque interaction est consignée dans un journal d’audit infalsifiable. Un modèle piégé qui tente d’exfiltrer des données vers un point externe se heurte à un moteur de politique qui ne tient pas compte de l’intention du modèle — il évalue la demande selon la politique de gouvernance et bloque tout ce qui n’est pas autorisé. Le Réseau de données privé Kiteworks étend cette architecture à la messagerie électronique, au partage de fichiers, au MFT, au SFTP, aux formulaires web et aux API, sous un seul moteur de politique et un journal d’audit consolidé.
Pour les environnements CMMC et FedRAMP, la défense au niveau du contenu n’est pas optionnelle. CMMC 2.0 Niveau 2 impose un contrôle d’accès strict et une journalisation des accès à chaque interaction avec des CUI, que l’entité soit humaine ou IA. Un modèle piégé accédant à des CUI sans contrôle d’accès indépendant constitue un manquement CMMC.
Que doivent faire les organisations dès maintenant ?
BadBone est une preuve de concept académique, pas une attaque documentée dans la nature. Mais dans la supply chain logicielle, les preuves de concept deviennent des techniques opérationnelles dans les douze à vingt-quatre mois suivant leur publication.
Premièrement, examinez la portée d’accès aux données de chaque agent IA et déploiement de modèle. La question n’est pas de savoir si le modèle est fiable — mais si ses accès aux données sont limités par une couche de gouvernance capable de détecter des comportements anormaux même en cas de compromission du modèle.
Deuxièmement, considérez le fine-tuning des modèles IA comme un événement de sécurité. Si votre workflow de fine-tuning télécharge les poids de base depuis un dépôt public sans revue de sécurité, vous êtes exposé exactement à la vulnérabilité que BadBone met en lumière pour toute organisation suivant ce processus.
Troisièmement, veillez à ce que les identifiants et tokens API des agents IA soient limités individuellement, régulièrement renouvelés et gérés selon les principes du zéro trust. Un modèle compromis qui ne peut pas dépasser ses autorisations assignées ne pourra pas causer de dommages proportionnels à son accès potentiel maximal.
Quatrièmement, mettez en place une gouvernance au niveau du contenu afin que les modèles opèrent dans des environnements de données limités et régis par des politiques, quelle que soit leur intégrité interne. Les contrôles de gouvernance IA qui protègent contre BadBone — accès limité des agents, application indépendante des politiques, journalisation d’audit infalsifiable — sont aussi ceux exigés par CMMC 2.0, HIPAA et l’AI Act européen. Les mettre en place dès maintenant permet de répondre à la fois aux obligations de conformité et aux risques supply chain IA.
Pour en savoir plus sur la protection de vos données sensibles face à la supply chain IA, réservez votre démo sans attendre !
Foire aux questions
BadBone implante une backdoor dormante dans un modèle de base, qui ne s’active que lorsque l’organisation victime effectue un fine-tuning via l’apprentissage par prompt — et non lors de l’inspection avant déploiement. Les attaques antérieures intégraient des déclencheurs dans le modèle de base, détectables par les défenses. L’activation en deux phases de BadBone déjoue les défenses qui scannent avant le fine-tuning, car la menace ne devient active qu’après la fermeture de la fenêtre d’analyse. Une fois déclenchée, elle provoque 99 % de mauvaises classifications sans dégradation visible de la précision sur les entrées saines.
Neural Cleanse, ABS, MNTD, NAD, CLP et D-BR détectent les backdoors en recherchant des comportements de sortie anormaux dans le modèle de base. BadBone maintient la backdoor dormante pendant le scan — le modèle de base fonctionne normalement. La backdoor s’active après le fine-tuning, une étape qui intervient après la validation du modèle par les défenses. C’est une limite structurelle : les défenses qui scannent les modèles de base avant fine-tuning ne détecteront pas les attaques conçues pour s’activer lors du fine-tuning. Le projet OWASP Agent Memory Guard prévoit une détection d’anomalies basée sur le ML pour combler cette lacune, mais ces fonctions ne sont pas encore prêtes pour la production.
La gouvernance au niveau du contenu rend le jugement du modèle inopérant dans les décisions d’accès aux données. Chaque demande d’accès ou de transmission de contenu sensible par un agent IA est évaluée par un moteur de politique ABAC indépendant, que le modèle ne peut influencer. Le Kiteworks Secure MCP Server et l’AI Data Gateway appliquent ce principe : un modèle piégé qui tente d’exfiltrer des données se heurte à une décision de politique consignée qui bloque tout ce qui n’est pas autorisé — indépendamment de l’intention du modèle.
BadBone est une preuve de concept académique, pas une attaque active documentée. Son importance réside dans la démonstration de la faisabilité d’une classe d’attaque jusque-là théorique. L’histoire de la sécurité logicielle montre que les recherches de ce type deviennent opérationnelles dans les douze à vingt-quatre mois. Les contrôles qui protègent contre BadBone — accès limité des agents IA, application indépendante des politiques, journalisation d’audit infalsifiable — sont aussi ceux exigés par CMMC 2.0, HIPAA et l’AI Act européen. Les mettre en place dès maintenant permet de répondre à la fois aux obligations de conformité et aux risques supply chain IA futurs.
Les outils de sécurité supply chain classiques ont été conçus pour du code et des binaires auditables. Les poids des modèles IA sont des milliards de valeurs flottantes dont le comportement émerge de leur combinaison globale — et non d’un composant individuel inspectable. Vous pouvez vérifier le hash cryptographique d’un fichier, mais pas auditer la présence d’une backdoor dormante dans les poids. Le contrôle compensatoire consiste à protéger les données selon le principe du zéro trust au niveau du contenu — veiller à ce que les modèles opèrent dans des environnements de données limités et régis par des politiques, quelle que soit leur intégrité interne, chaque interaction générant une traçabilité d’audit probante.
Ressources complémentaires
- Article de blog
Stratégies Zero-Trust pour une protection abordable de la vie privée avec l’IA - Article de blog
Comment 77 % des organisations échouent à sécuriser les données IA - eBook
AI Governance Gap : pourquoi 91 % des petites entreprises jouent à la roulette russe avec la sécurité des données en 2025 - Article de blog
Il n’existe pas de « –dangerously-skip-permissions » pour vos données - Article de blog
Les régulateurs ne se contentent plus de demander si vous avez une politique IA. Ils veulent la preuve qu’elle fonctionne.