BadBone en de AI-toeleveringsketen: wanneer het model zelf het risico is

BadBone en de AI-toeleveringsketen: wanneer het model zelf het risico is

Drie jaar lang draaide het gesprek over enterprise security rondom AI vrijwel volledig om wat AI-agenten met data doen zodra ze actief zijn. BadBone verlegt die focus naar een eerder stadium: wat gebeurt er als het model zelf al is gecompromitteerd voordat het jouw omgeving bereikt.

De kerninnovatie van BadBone is het onderscheid tussen slapende en geactiveerde toestanden. Traditionele AI-backdoor-aanvallen plaatsen een trigger die direct afgaat wanneer een specifiek inputpatroon wordt aangeboden — zichtbaar voor verdedigingen die scannen op inputs die afwijkend outputgedrag veroorzaken. BadBone omzeilt dit met een tweefasige activatie. De eerste fase is fine-tuning: wanneer een organisatie het model downloadt en prompt learning toepast, wordt de slapende backdoor geactiveerd. De gewichten verschuiven op een manier die de aanvaller zo heeft ontworpen dat de backdoor wordt ontgrendeld, maar deze verschuiving lijkt voor elke waarnemer op normale fine-tuning. De tweede fase is de trigger-input: na fine-tuning activeert een specifieke input de backdoor en levert het de gewenste output van de aanvaller op.

Het verdedigingsgat is structureel. Verdedigingen scannen het basismodel vóór fine-tuning. De backdoor wordt pas actief ná fine-tuning. Het tijdsvenster waarin verdedigingen kijken, is niet het venster waarin de backdoor actief is — hetzelfde principe dat de SolarWinds supply chain-aanval zo effectief maakte: de kwaadaardige wijziging werd geïntroduceerd op een punt dat de standaard beveiligingsvalidatie niet dekte.

5 Belangrijke Inzichten

1. BadBone plaatst een backdoor die activeert tijdens fine-tuning, niet tijdens scanning.

Een peer-reviewed paper gepubliceerd op 2 juni 2026 toonde een tweefasige aanval aan: de backdoor blijft slapend in het basismodel en wordt pas actief wanneer de slachtofferorganisatie prompt learning of maatwerk toepast. De fine-tuning-stap — normaal gezien een standaard technische handeling — wordt zo het beveiligingsincident. Zes gepubliceerde verdedigingen faalden in de meeste configuraties omdat ze het basismodel scannen vóór fine-tuning. De dreiging wordt pas actief nadat het scanvenster gesloten is.

2. Zes gangbare verdedigingen faalden.

Neural Cleanse, ABS, MNTD, NAD, CLP en D-BR zijn de huidige standaard detectiemethoden voor backdoored modellen. Geen van allen detecteerde BadBone betrouwbaar. Dit is geen falen van één tool — het toont aan dat de hele verdedigingscategorie is gebouwd op een aanname die deze aanval ondermijnt. Eenmaal geactiveerd veroorzaakte BadBone 99% verkeerde classificatie van doelgerichte inputs, terwijl het model normale nauwkeurigheid behield op alle andere inputs, waardoor de compromittering feitelijk onzichtbaar bleef voor gedragsmonitoring.

3. AI-modelgewichten zijn een onaangeroerd aanvalsvlak zonder adequate scantools.

SBOM’s, code signing en statische analyse zijn niet toepasbaar op AI-modelfiles. Je kunt de hash van een gedownload bestand verifiëren, maar je kunt het gedrag dat in de gewichten is gecodeerd niet auditen. De markt voor foundation modellen — een klein aantal aanbieders die gewichten verspreiden via repositories die miljoenen organisaties downloaden en aanpassen — heeft de structurele kenmerken van een supply chain-aanvalsvlak met grote impact. Eén gecompromitteerd gewichtenbestand dat via een vertrouwd kanaal wordt verspreid, kan duizenden organisaties bereiken.

4. De verdediging die standhoudt ongeacht de integriteit van het model is content-layer governance.

Als de data waartoe een gecompromitteerd model toegang heeft wordt beheerd door onafhankelijke beleidsafdwinging — en niet door het oordeel van het model zelf — wordt de impact van een backdoored model begrensd door wat de governance-laag toestaat. Dit principe weerspiegelt zero trust: vertrouw niet op de zelfrepresentatie van het model; beoordeel elk datarequest aan de hand van een beleid dat het model niet kan zien of aanpassen.

5. In gereguleerde omgevingen leidt ongecontroleerde AI-modeltoegang direct tot compliance-risico.

CMMC 2.0 Level 2 vereist afgedwongen toegangscontrole en audittrail voor elke toegang tot CUI, ongeacht of de toegang door een mens of een AI-agent plaatsvindt. Een backdoored model dat draait op CUI zonder onafhankelijke toegangscontrole is een CMMC-bevinding. HIPAA en de EU AI-wet hanteren dezelfde logica voor toegang tot PHI en data van AI-systemen met hoog risico.

Je vertrouwt erop dat jouw organisatie veilig is. Maar Kun Je Het Bewijzen?

Lees Nu

AI-modelgewichten als onaangeroerd aanvalsvlak

Het CrowdStrike 2026 Global Threat Report documenteerde een stijging van 89% op jaarbasis in AI-ondersteunde activiteiten van tegenstanders. BadBone voegt daar een nieuw vector aan toe: niet AI die door aanvallers tegen organisaties wordt ingezet, maar AI-modelartefacten die als leveringsmechanisme dienen voor aanvallen op organisaties die ze inzetten.

Software supply chain-beveiligingstools — SBOM’s, provenance attestation, code signing, software composition analysis — zijn niet toepasbaar op AI-modelfiles. Een modelgewichtenbestand is een binair artefact dat met geen enkel bestaand supply chain-beveiligingstool zinvol kan worden geaudit. Je kunt de hash van het bestand dat je downloadt verifiëren. Je kunt de integriteit van het gedrag dat in de gewichten is gecodeerd niet verifiëren.

Uit de Cisco Privacy Benchmark Study blijkt dat 45% van de werknemers nu AI-tools op het werk gebruikt. Een backdoored model dat is ingebed in een klantgerichte classificatieworkflow of een interne documentverwerkingspipeline creëert een aanvalsvlak dat meegroeit met het gebruik — en de meeste organisaties hebben geen enkel mechanisme om te detecteren dat er iets mis is.

Waarom model-level verdedigingen niet voldoende zijn

Het BadBone-onderzoek is niet primair een kritiek op de zes verdedigingen die het wist te omzeilen. Het toont aan dat verdedigingen die volledig op het modellayer zijn gebouwd een inherente beperking hebben: ze gaan ervan uit dat wat vóór inzet veilig is, ook na maatwerk veilig blijft. Die aanname is niet betrouwbaar.

Model-level verdedigingen bieden reële bescherming tegen eenvoudigere aanvallen die geen fine-tuning-activatie vereisen. Maar ze als primaire verdediging tegen AI supply chain-risico’s inzetten, gaat uit van een dreigingsmodel dat BadBone als onvolledig aantoont. Het praktische probleem voor enterprise security-teams is dat inspectie van fine-tuned modelgewichten geen volwassen discipline is. Het OWASP Agent Memory Guard-project heeft aangekondigd ML-gebaseerde anomaliedetectie toe te voegen, maar die mogelijkheden zijn nog niet klaar voor productie. De meer duurzame tussentijdse verdediging is om niet te vertrouwen op het oordeel van het model over welke data het mag benaderen.

De content-layer governance-aanpak

AI data governance op contentniveau biedt een verdediging die niet afhankelijk is van de integriteit van het model. In plaats van te vragen of het model veilig is, wordt gekeken of de data waartoe het model toegang heeft, wordt beheerd door beleid dat het model niet kan omzeilen. Elke interactie van een AI-agent met gevoelige content repositories — ongeacht welk model draait, ongeacht of dat model is gecompromitteerd — wordt gemedieerd door een onafhankelijke policy engine die op attributen gebaseerde toegangscontrole afdwingt. Het verzoek van het model om een bestand op te halen, een database te raadplegen of data te versturen wordt getoetst aan een beleid dat niet in het model zelf zit.

De Kiteworks Secure MCP Server en AI Data Gateway implementeren deze architectuur. Elke AI-agent die gevoelige content benadert, wordt geauthenticeerd, toegang wordt getoetst aan ABAC-beleidsregels op request-niveau en elke interactie wordt vastgelegd in een manipulatieresistente audittrail. Een backdoored model dat probeert data naar een extern endpoint te exfiltreren, stuit op een policy engine die niet weet of het model kwaadwillend is — het toetst het toegangsverzoek aan het governancebeleid en blokkeert wat het beleid niet toestaat. Het Kiteworks Private Data Network breidt deze architectuur uit over e-mail, bestandsoverdracht, MFT, SFTP, webformulieren en API’s onder één policy engine en één geconsolideerde audittrail.

Voor CMMC- en FedRAMP-omgevingen is de content-layer verdediging geen keuze. CMMC 2.0 Level 2 vereist afgedwongen toegangscontrole en audittrail voor elke toegang tot CUI, of de toegang nu door een mens of een AI-agent plaatsvindt. Een backdoored model dat draait op CUI zonder onafhankelijke toegangscontrole is een CMMC-bevinding.

Wat organisaties nu moeten doen

BadBone is een academisch proof-of-concept, geen gedocumenteerde aanval in het wild. Maar proof-of-concepts in software supply chain-beveiliging worden binnen twaalf tot vierentwintig maanden na publicatie operationele technieken.

Ten eerste: beoordeel de reikwijdte van data-access van elke AI-agent en modelinzet. De vraag is niet of het model betrouwbaar is — maar of de data-access van het model wordt begrensd door een governance-laag die afwijkende toegangs­patronen detecteert, zelfs als het gedrag van het model is gecompromitteerd.

Ten tweede: behandel AI-model fine-tuning als een beveiligingsincident. Als jouw fine-tuning workflow basismodelgewichten downloadt uit een publieke repository zonder security review, heb je exact de kwetsbaarheid die BadBone aantoont voor elke organisatie die zo werkt.

Ten derde: zorg dat AI-agent credentials en API-tokens individueel zijn afgebakend, regelmatig worden geroteerd en worden beheerd volgens zero-trust-principes. Een gecompromitteerd model dat zijn toegewezen rechten niet kan overschrijden, kan geen schade aanrichten die evenredig is aan zijn volledige toegangs­potentieel.

Ten vierde: implementeer content-layer governance zodat modellen altijd binnen begrensde, door beleid gecontroleerde data-omgevingen opereren, ongeacht hun interne integriteit. De AI-governance controls die beschermen tegen BadBone — begrensde agenttoegang, onafhankelijke beleidsafdwinging, manipulatieresistente audittrail — zijn ook de controls die CMMC 2.0, HIPAA en de EU AI-wet nu al vereisen. Door ze nu te bouwen, voldoe je direct aan compliance-eisen én beperk je AI supply chain-risico’s.

Meer weten over het beschermen van gevoelige data tegen AI supply chains? Plan vandaag nog een demo op maat.

Veelgestelde Vragen

BadBone plaatst een slapende backdoor in een foundation model die pas wordt geactiveerd wanneer de slachtofferorganisatie fine-tuning toepast via prompt learning — niet tijdens inspectie vóór inzet. Eerdere aanvallen embedden triggers in het basismodel waar verdedigingen op kunnen scannen. De tweefasige activatie van BadBone omzeilt verdedigingen die vóór fine-tuning scannen, omdat de dreiging pas actief wordt nadat het scanvenster gesloten is. Eenmaal geactiveerd veroorzaakt het 99% verkeerde classificatie zonder merkbaar verlies aan nauwkeurigheid op schone inputs.

Neural Cleanse, ABS, MNTD, NAD, CLP en D-BR detecteren backdoors door te scannen op afwijkend outputgedrag in het basismodel. BadBone houdt de backdoor slapend tijdens het scannen — het basismodel gedraagt zich normaal. De backdoor wordt pas geactiveerd na fine-tuning, een stap die plaatsvindt nadat de verdedigingen het model al hebben goedgekeurd. Dit is een structurele beperking: verdedigingen die basismodellen vóór fine-tuning scannen, zullen aanvallen die tijdens fine-tuning worden geactiveerd niet detecteren. Het OWASP Agent Memory Guard-project plant ML-gebaseerde anomaliedetectie om dit gat te dichten, maar die mogelijkheden zijn nog niet klaar voor productie.

Content-layer governance maakt het oordeel van het model zelf irrelevant voor data-accessbeslissingen. Elk verzoek van een AI-agent om gevoelige content te benaderen of te versturen wordt beoordeeld door een onafhankelijke ABAC policy engine waar het model geen invloed op heeft. De Kiteworks Secure MCP Server en AI Data Gateway implementeren dit: een backdoored model dat probeert data te exfiltreren, stuit op een gelogde beleidsbeslissing die blokkeert wat het beleid niet toestaat — ongeacht de intentie van het model.

BadBone is een academisch proof-of-concept, geen gedocumenteerde aanval die actief wordt gebruikt. De betekenis ligt in het aantonen van de haalbaarheid van een voorheen theoretische aanvalsklasse. In de softwarebeveiliging blijkt historisch dat proof-of-concept-onderzoek naar nieuwe aanvalsvectoren binnen twaalf tot vierentwintig maanden operationeel wordt. De controls die beschermen tegen BadBone — begrensde AI-agenttoegang, onafhankelijke beleidsafdwinging, manipulatieresistente audittrail — zijn ook wat CMMC 2.0, HIPAA en de EU AI-wet nu al vereisen. Door ze nu te bouwen, voldoe je aan compliance-eisen én beperk je toekomstig AI supply chain-risico.

Traditionele supply chain-beveiligingstools zijn ontworpen voor auditeerbare code en binaries. AI-modelgewichten zijn miljarden drijvende-kommagetallen waarvan het gedrag ontstaat uit de totale combinatie — niet uit een inspecteerbaar individueel onderdeel. Je kunt de cryptografische hash van een bestand verifiëren; je kunt niet auditen of er een slapende backdoor in de gewichten zit. De compenserende maatregel is zero-trust databeveiliging op contentniveau — ervoor zorgen dat modellen altijd binnen begrensde, door beleid gecontroleerde data-omgevingen werken, waarbij elke interactie een bewijswaardige audittrail oplevert.

Aanvullende bronnen

  • Blog Post
    Zero‑Trust Strategieën voor Betaalbare AI-Privacybescherming
  • Blog Post
    Hoe 77% van de organisaties faalt in AI-databeveiliging
  • eBook
    AI Governance Gap: Waarom 91% van de kleine bedrijven Russisch Roulette speelt met databeveiliging in 2025
  • Blog Post
    Er bestaat geen “–dangerously-skip-permissions” voor jouw data
  • Blog Post
    Toezichthouders zijn klaar met vragen of je een AI-beleid hebt. Ze willen bewijs dat het werkt.

Aan de slag.

Het is eenvoudig om te beginnen met het waarborgen van naleving van regelgeving en het effectief beheren van risico’s met Kiteworks. Sluit je aan bij de duizenden organisaties die vol vertrouwen privégegevens uitwisselen tussen mensen, machines en systemen. Begin vandaag nog.

Table of Content
Share
Tweet
Share
Explore Kiteworks