Wanneer de vangrail faalt: AI-coderingstools en de Data Layer-vraag

Wanneer de vangrail faalt: AI-coderingstools en de Data Layer-vraag

Er was geen persconferentie. Geen datalekken-meldingsbrief. Een kwetsbaarheid in een veelgebruikte AI-coding-assistent — een die volgens onderzoekers gecombineerd kon worden met prompt-injectie om data uit omgevingen te halen waar het nooit bij had mogen komen — werd stilletjes opgelost, en de wereld ging verder. Het probleem was een SOCKS5-hostname null-byte-injectie in de netwerk-sandbox van de tool — een zwakte waardoor uitgaand verkeer langs de allowlist kon glippen die het juist moest tegenhouden. Het werd uitgerold zonder CVE en zonder een regel in de release notes.

De stilte is het deel waar je bij stil moet staan. AI-tools die je bestanden lezen, je commando’s uitvoeren en in je repositories duiken zijn nu overal, en de vertrouwensgrens tussen de assistent die zijn werk doet en de assistent die het werk van een aanvaller doet, is dunner dan de meeste organisaties willen toegeven. De interessante vraag is niet of deze bug is gepatcht — dat is gebeurd. Het is hoe je verdediging eruitziet de volgende keer dat dat niet gebeurt.

5 Belangrijke Inzichten

1. Een stil gepatchte sandbox-bypass is een voorbode, geen curiositeit.

Een sandbox-ontsnapping van een AI-coding-tool, gecombineerd met prompt-injectie, opende een pad voor data-exfiltratie — stil opgelost, geen CVE, geen release note. De patch herstelde de grens die faalde. De meeste organisaties hebben daarachter geen tweede verdedigingslinie. De volgende exploit kondigt zichzelf niet aan, en als de enige verdediging de laag is die net faalde, is dat de eerste zin van het incidentrapport.

2. Model-laag-guardrails falen als categorie.

Uit een onderzoek onder bijna 15.000 aangepaste AI-assistenten bleek dat meer dan 95% onvoldoende beveiligingsmaatregelen had, waarbij 96,51% kwetsbaar was voor rolspelmanipulatie. Systeemprompts, filters en sandboxes sturen gedrag aan op de laag waar gedrag onderhandelbaar is — en onderzoekers blijven de invoer vinden die modellen uit hun regels praten. Een slimmere prompt blijft een prompt. AI-governance moet leven waar de overtuigingskracht van het model niet bij kan.

3. Compliance reguleert data-toegang, niet de actor.

HIPAA, CMMC, GDPR en PCI DSS bepalen wie data mag benaderen en of je dat achteraf kunt aantonen. Het maakt niet uit of een mens of een AI-agent de actie uitvoerde. Dat maakt governance een verantwoordelijkheid op de data-laag. Of de toegang geautoriseerd, versleuteld en gelogd was — dat zijn data-laag-vragen, geen model-laag-vragen.

4. Je bestaande tools zijn blind voor AI-agents.

DLP, WAF en EDR zijn gebouwd om door mensen geïnitieerde activiteiten te inspecteren. Een goedgekeurde agent die geautoriseerde API-calls doet, past niet in hun inspectiemodellen. Een gecompromitteerde AI-tool die data exfiltreert, lijkt — voor al deze tools — op de AI-tool die gewoon zijn werk doet. De enige plek waar de waarheid zichtbaar is, is de data-laag zelf. 60% van de organisaties mist AI-specifieke anomaliedetectie volgens de Kiteworks 2026 Forecast.

5. Handhaaf op de data-laag, en een misleid model kan nog steeds niet bij wat het nooit mocht aanraken.

Op attributen gebaseerde toegangscontrole en manipulatiebestendige audittrail bij elk AI-data-verzoek maken van een gemanipuleerd model een ingekaderd model. De policy-engine — niet het goede gedrag van het model — zegt nee. Slechts 43% van de organisaties heeft een gecentraliseerde AI Data Gateway volgens de Kiteworks 2026 Forecast — de overige 57% hebben geen handhavingspunt dat een modelcompromis overleeft.

Je vertrouwt erop dat je organisatie veilig is. Maar kun je het aantonen?

Lees Nu

Wat is er daadwerkelijk gebeurd: een sandbox-bypass ontmoet prompt-injectie

Laat de productnamen weg en de mechaniek is simpel. Een AI-coding-tool draait in een sandbox — een grens bedoeld om te voorkomen dat het buiten zijn toegewezen taak komt. Onderzoekers vonden een manier om die grens te passeren. Waarom dit geval belangrijk is, zit in het tweede deel: het kon worden gecombineerd met prompt-injectie.

Prompt-injectie is de techniek waarbij een aanvaller instructies verbergt in content die de AI leest — een codecommentaar, een bestand, een webpagina, een supportticket — zodat het model vijandige input als legitiem commando behandelt. Koppel een prompt-injectie aan een sandbox-bypass en je hebt een compleet pad: vijandige instructie gaat erin, de grens die de actie had moeten stoppen is weg, en data gaat eruit via een kanaal dat eruitziet als normaal toolverkeer. Geen enkele stap is exotisch. De schade komt doordat ze zo naadloos op elkaar aansluiten.

De leverancier heeft het gepatcht — goed. Maar let op wat de fix was: een reparatie van de grens die faalde. De verdediging en de kwetsbaarheid zaten op dezelfde plek. Als die plek breekt, is er geen tweede linie. Dat patroon is het waard om te generaliseren, want het is niet specifiek voor één tool of leverancier.

De laag waar guardrails leven, is de laag die steeds faalt

De meeste AI-beveiliging is vandaag gebouwd op de model-laag: systeemprompts, gedragsrichtlijnen, contentfilters, sandbox-grenzen. Die zijn nuttig. Maar ze zijn ook, als categorie, te omzeilen — en niet af en toe. Uit een studie van bijna 15.000 aangepaste AI-assistenten bleek dat meer dan 95% onvoldoende beveiligingsmaatregelen had, waarbij 96,51% kwetsbaar was voor rolspelmanipulatie en 92,20% voor system-prompt-lekkage. Elk groot platform dat prompt-injectie-verdedigingen heeft uitgerold, heeft onderzoekers gezien die eromheen werken.

Dit is geen aanval op een specifieke leverancier. Het is een structurele eigenschap van gedragscontrole op de laag waar gedrag onderhandelbaar is. Een prompt kan uit zijn instructies worden gepraat. Het CrowdStrike 2026 Global Threat Report documenteerde een stijging van 89% jaar-op-jaar in AI-ondersteunde vijandige activiteiten en vond dat 82% van de detecties malwarevrij was — aanvallers maken steeds vaker misbruik van legitieme toegang in plaats van detecteerbare tools te droppen. Een AI-agent met brede, ongecontroleerde toegang is precies de legitieme toegang waar misbruik van wordt gemaakt.

De vraag wordt vanzelf duidelijk: welke controle valt niet te betwisten? Het antwoord is niet een slimmere prompt. Het antwoord moet leven op een plek waar de overtuigingskracht van het model niet bij kan.

Beheer de data, niet het model

Verplaats handhaving van het model naar de data zelf. Het model kan worden gecompromitteerd, gemanipuleerd of vervangen. De regel over wie een bepaald stuk gereguleerde data mag aanraken, hoeft helemaal niet in het model te leven. Die kan bestaan op het punt waar de data wordt benaderd — daar afgedwongen, ongeacht wat het model is wijsgemaakt te proberen.

Elk compliance-framework reguleert feitelijk data-toegang. HIPAA, CMMC, GDPR, PCI DSS — ze bepalen of de toegang geautoriseerd was, of de data versleuteld was, of de interactie gelogd werd, en of iemand dat achteraf kan aantonen. Een controle op model-laag beantwoordt: kan ik het model overhalen zich te misdragen? Een controle op data-laag beantwoordt een heel andere vraag: ongeacht wat het model gevraagd werd, is deze specifieke toegang nu toegestaan voor deze specifieke aanvrager? De eerste vraag is herhaaldelijk met ja beantwoord door onderzoekers met een middagje tijd. De tweede vraag hangt helemaal niet af van het oordeel van het model.

Slechts 43% van de organisaties heeft een gecentraliseerde AI Data Gateway, 60% mist AI-specifieke anomaliedetectie, 63% kan geen doellimieten afdwingen voor agents, en 60% kan een ontspoorde agent niet uitschakelen volgens de Kiteworks 2026 Forecast. De honger naar AI is universeel. Het vermogen om het te beheersen niet.

Waarom DLP, WAF en EDR een gecompromitteerde agent niet zien

De beveiligingsstack die de meeste organisaties gebruiken, is gebouwd om mensen te monitoren. Een AI-agent gedraagt zich niet als een mens, en het verschil tussen die twee verkeerspatronen is precies waar een gecompromitteerde agent zich verschuilt. DLP is afgestemd om te detecteren dat iemand een spreadsheet naar een privé-account mailt. Het slaat niet aan op een goedgekeurde agent die een geautoriseerde API-call doet. WAF’s inspecteren inkomend menselijk verkeer, niet de machine-tot-machine-flow van een agentic workflow. EDR monitort processen en binaries op een apparaat, niet de semantische inhoud van wat een geautoriseerde integratie opvraagt.

Combineer die blinde vlekken: een gecompromitteerde AI-tool die data exfiltreert, lijkt voor al deze tools op de AI-tool die gewoon zijn werk doet. De exfiltratie is niet vermomd als malware, want er is geen malware. Het verkeer is goedgekeurd, geauthenticeerd en geautoriseerd op netwerkniveau. De enige plek waar de waarheid zichtbaar is, is de data-laag zelf — het logboek van wat daadwerkelijk is opgevraagd en wat daadwerkelijk is teruggegeven.

Handhaving waar het model niet tegenin kan gaan

De Kiteworks Secure MCP Server verbindt AI-assistenten met bedrijfscontent via het Model Context Protocol, maar elk verzoek wordt eerst geëvalueerd op basis van op attributen gebaseerde toegangscontrole voordat er data wordt teruggegeven. De agent krijgt precies de context die zijn taak vereist en niet meer. Als prompt-injectie het model overhaalt om iets buiten zijn bevoegdheid te vragen, zegt de policy-engine — niet het goede gedrag van het model — nee. Het verzoek wordt geauthenticeerd en gekoppeld aan de persoon die het werk heeft geautoriseerd, geëvalueerd op basis van dataclassificatie en agentidentiteit, en alleen teruggegeven onder FIPS 140-3 gevalideerde encryptie. Geen van die beslissingen vraagt het model zich goed te gedragen — ze gebeuren ongeacht het gedrag van het model.

Elk verzoek, toegestaan of geweigerd, komt in een manipulatiebestendige audittrail die direct in de monitoringstack van het beveiligingsteam wordt gevoed. In plaats van DLP of een firewall te vragen agent-misbruik te herkennen waarvoor ze nooit zijn ontworpen, bestaat het logboek van elke agent-data-interactie al op de laag waar de toegang plaatsvond — toegeschreven, voorzien van tijdstempel, in realtime gestreamd naar SIEM. De AI Data Gateway breidt dit uit naar RAG-pijplijnen. Het Kiteworks Private Data Network breidt dit uit naar e-mail, bestandsoverdracht, MFT, SFTP, webformulieren en API’s — één policy-engine, één geconsolideerde audittrail.

Wat teams die AI inzetten nu moeten doen

Ten eerste, inventariseer elk AI-toegangspad. Breng elke assistent, copilot en agent in kaart die bedrijfscontent kan lezen of verplaatsen — inclusief de tools die een team zonder medeweten van security heeft opgezet. Je kunt geen toegang beheren die je niet ziet.

Ten tweede, verplaats handhaving naar de data-laag. Behandel het model standaard als onbetrouwbaar en plaats de toegangsbeslissing op een plek waar een gemanipuleerd model niet bij kan. Slechts 43% van de organisaties heeft een gecentraliseerde AI Data Gateway volgens de Kiteworks 2026 Forecast — het controlepunt waar toegangsbeslissingen een gecompromitteerd model overleven.

Ten derde, dwing least privilege en doellimieten af voor elke agent. 63% van de organisaties kan vandaag geen doellimieten afdwingen — de meeste agents werken zonder gedefinieerde grenzen, en kunnen direct afdwalen zodra ze worden omgeleid.

Ten vierde, log elke AI-data-interactie in een manipulatiebestendige trail. Ken het verzoek toe aan de persoon die de agent heeft geautoriseerd en stream het logboek naar SIEM. Wanneer een auditor vraagt wat een agent heeft benaderd, moet het antwoord al bestaan.

Ten vijfde, bouw een containment-control die je snel kunt activeren. 60% van de organisaties kan een ontspoorde agent niet beëindigen volgens de Kiteworks 2026 Forecast. Het vermogen om een agent binnen enkele seconden af te sluiten, is het verschil tussen een incident en een datalek. Die beslissing is architectonisch, en het is het enige in dit verhaal waar een aanvaller niet omheen kan praten.

Wil je meer weten over het beschermen van gevoelige content tegen AI-agentic workflows? Plan vandaag nog een demo op maat.

Veelgestelde vragen

Prompt-injectie verbergt kwaadaardige instructies in content die een AI leest — een bestand, codecommentaar of webpagina — zodat het model vijandige input als legitiem commando behandelt. Gecombineerd met een sandbox-bypass kunnen geïnjecteerde instructies de AI aanzetten om data te benaderen of te exfiltreren buiten zijn geautoriseerde scope. Uit studies blijkt dat de grote meerderheid van aangepaste AI-assistenten kwetsbaar is voor deze aanvalsvorm.

Een sandbox beperkt een AI-tool tot zijn toegewezen taak. Een bypass laat het buiten die grens treden. Het gevaar wordt groter in combinatie met prompt-injectie: een aanvaller kan de AI zowel instrueren zich te misdragen als de controle wegnemen die de actie had moeten stoppen — waardoor een containment-fout een data-exfiltratiepad wordt. Dat is de keten die de recent gepatchte kwetsbaarheid mogelijk maakte.

Guardrails op model-laag sturen gedrag aan op een laag waar gedrag onderhandelbaar is — waardoor aanvallers steeds weer invoer vinden die modellen uit hun regels praten. 96,51% van de aangepaste AI-assistenten bleek kwetsbaar voor rolspelmanipulatie volgens een studie van 15.000 systemen. 60% van de organisaties mist AI-anomaliedetectie volgens de Kiteworks 2026 Forecast. Als guardrails falen, vangt weinig het op — waardoor toegangscontrole op data-laag de essentiële tweede linie wordt.

Data-laag-governance handhaaft toegangsregels op het punt waar data wordt opgehaald — onafhankelijk van model of prompt. Elk verzoek wordt geauthenticeerd, geëvalueerd op basis van beleid rond dataclassificatie en agentidentiteit, en gelogd. Slechts 43% van de organisaties gebruikt een gecentraliseerde AI Data Gateway volgens de Kiteworks 2026 Forecast. De Secure MCP Server en AI Data Gateway bieden dat controlepunt.

Meestal niet. DLP, WAF’s en EDR inspecteren door mensen geïnitieerd verkeer en bestandsoverdracht — een goedgekeurde AI-agent die geautoriseerde API-calls doet, past niet in die modellen. 60% van de organisaties mist AI-anomaliedetectie volgens de Kiteworks 2026 Forecast. Zichtbaarheid vereist een manipulatiebestendige audittrail op de data-laag, waar elk agent-verzoek en het bijbehorende beleid worden vastgelegd, ongeacht welke tool het verzoek deed.

Aanvullende bronnen

  • Blog Post
    Zero‑Trust-strategieën voor betaalbare AI-privacybescherming
  • Blog Post
    Hoe 77% van de organisaties faalt in AI-databeveiliging
  • eBook
    AI Governance Gap: Waarom 91% van kleine bedrijven Russische roulette speelt met databeveiliging in 2025
  • Blog Post
    Er is geen “–dangerously-skip-permissions” voor jouw data
  • Blog Post
    Toezichthouders zijn klaar met vragen of je een AI-beleid hebt. Ze willen bewijs dat het werkt.

Aan de slag.

Het is eenvoudig om te beginnen met het waarborgen van naleving van regelgeving en het effectief beheren van risico’s met Kiteworks. Sluit je aan bij de duizenden organisaties die vol vertrouwen privégegevens uitwisselen tussen mensen, machines en systemen. Begin vandaag nog.

Table of Content
Share
Tweet
Share
Explore Kiteworks