Indirecte Prompt Injection wordt werkelijkheid: waarom vangrails je niet zullen redden

Indirecte Prompt Injection wordt werkelijkheid: waarom vangrails je niet zullen redden

Belangrijkste inzichten

  1. Indirecte Prompt Injection is nu werkelijkheid. Aanvallers verstoppen verborgen instructies in webpagina’s, documenten en e-mails die productie-AI-agenten lezen en uitvoeren, waardoor data-exfiltratie mogelijk wordt zonder phishing of malware.
  2. Traditionele tools missen deze aanvallen. SIEM, DLP en endpoint monitoring zien niets afwijkends omdat de AI zich precies gedraagt zoals ontworpen, terwijl deze de instructies van de aanvaller opvolgt.
  3. Model-guardrails zijn geen beveiliging. Systeem-prompts en veiligheidsfilters zijn eenvoudig te omzeilen; onderzoek toont jailbreak- en injectiesuccespercentages tot 100% bij grote LLM’s.
  4. Gegevenslaag-governance is noodzakelijk. Handhaving moet verschuiven naar geauthenticeerde, beleidsgebaseerde toegangscontrole en manipulatiebestendige logging op de datalaag om aan audit- en compliance-vereisten te voldoen.

Onderzoekers van Google en Forcepoint hebben indirecte prompt injection-aanvallen op productie-AI-systemen gedocumenteerd. Aanvallers plaatsen verborgen instructies in webpagina’s, documenten en e-mails. AI-agenten die deze content doorzoeken, samenvatten of verwerken, lezen de instructies en voeren ze uit. Het resultaat: data-exfiltratie, openbaarmaking van inloggegevens en uitgaande verzoeken naar servers onder controle van de aanvaller — allemaal geïnitieerd door de AI zelf.

Er is geen phishinglink om op te klikken. Geen kwaadaardig bestand om te activeren. Geen afwijkende login die een alarm triggert. De agent doet wat hij hoort te doen — content lezen en actie ondernemen — en de content doet wat de aanvaller bedoeld heeft. Elke traditionele beveiligingstool ziet niets verkeerds. Op dat moment wordt een risicocategorie die sinds 2023 theoretisch was, een operationeel probleem op bestuursniveau.

5 Belangrijkste inzichten

1. Indirecte prompt injection is niet langer theoretisch.

Onderzoekers bij Google en Forcepoint hebben aanvallers in het wild gedocumenteerd die AI-agenten manipuleren via verborgen instructies in webcontent, documenten en e-mails — wat data-exfiltratie mogelijk maakt zonder phishing, malware of menselijke tussenkomst. GrafanaGhost, ForcedLeak (Salesforce Agentforce), GeminiJack (Google Gemini) en DockerDash volgden hetzelfde patroon. De kloof tussen laboratorium en productieomgeving is verdwenen.

2. Traditionele beveiligingstools zien deze aanvallen niet.

Wanneer een AI-agent instructies van een aanvaller leest en via zijn eigen legitieme kanalen handelt, zien SIEM-regels, DLP-filters en endpoint monitoring niets afwijkends. De exfiltratie lijkt op routinematig AI-gedrag omdat de AI zich, vanuit het perspectief van de beveiligingsstack, precies gedraagt zoals ontworpen. Het mentale model van de verdediger — dat data-exfiltratie een kwaadaardig endpoint vereist — gaat niet op als de AI zelf het exfiltratiemiddel is.

3. Guardrails op modelniveau zijn configuratie, geen beveiliging.

Systeem-prompts kunnen worden overschreven. Veiligheidsfilters kunnen worden omzeild. Peer-reviewed NeurIPS-onderzoek toonde jailbreak-succes tot bijna 100% bij grote LLM’s. De InjecAgent-benchmark vond dat GPT-4-agenten in 24% van de gevallen kwetsbaar zijn voor indirecte prompt injection — verbeterde aanvallen verdubbelden dat percentage bijna tot 47%. Controls op modellayer zijn configuratie-instellingen die niet voldoen aan een audit.

4. Het auditprobleem is nu urgent.

Een HIPAA-, CMMC-, PCI– of SOX-auditor accepteert niet “het model kreeg de instructie niet te doen” als bewijs van toegangscontrole. Auditors certificeren handhavingsbeslissingen, geen configuratie. De eerste keer dat een toezichthouder om bewijs vraagt dat een AI-agent geen toegang kreeg tot een dataset, moet het antwoord een gelogde handhavingsbeslissing zijn gekoppeld aan beleid en een menselijke autorisator — niet een systeem-prompt.

5. De architecturale correctie is governance op de datalaag.

Verplaats handhaving uit het model naar de datalaag. Authenticeer elk AI-verzoek, evalueer het in realtime tegen op attributen gebaseerde toegangscontrole en log het met volledige attributie voordat data wordt teruggegeven. Deze handhaving blijft overeind als het model wordt gecompromitteerd, de prompt wordt gemanipuleerd of er een nieuwe jailbreak verschijnt. De agent kan geen data exfiltreren die hij nooit mocht lezen.

Je vertrouwt erop dat je organisatie veilig is. Maar kun je het bewijzen?

Lees nu

Waarom GrafanaGhost een voorbode was, geen uitzondering

Noma Security’s GrafanaGhost-onthulling begin april 2026 documenteerde een zero-click-kwetsbaarheid die van Grafana’s AI-assistent een stille data-exfiltratiekanaal maakte. Onderzoekers plaatsten instructies in URL-parameters die in Grafana’s logs terechtkwamen. De AI verwerkte de logs, volgde de instructies en stuurde financiële statistieken, infrastructuurtelemetrie en klantgegevens naar een server van de aanvaller door ze te embedden in image-render-verzoeken. Een enkel trefwoord omzeilde de veiligheidsfilters van het model.

GrafanaGhost is gepatcht. Het type aanval niet. ForcedLeak (Salesforce Agentforce), GeminiJack (Google Gemini) en DockerDash volgden hetzelfde script: een AI-functie toegevoegd aan een bestaand platform, onbetrouwbare content bereikt het model, het model voert instructies van de aanvaller uit en beveiligingstools zien niets. Elke AI-functie die de afgelopen 18 maanden aan een bestaand enterprise-tool is toegevoegd, is een potentiële GrafanaGhost die nog ontdekt moet worden — observability-platforms, ticketsystemen, CRM’s, code-editors, samenwerkingssuites, marketingautomatisering.

Wat de peer-reviewed literatuur ons probeert te vertellen

Het academisch onderzoek is sinds 2023 consistent. Wei, Haghtalab en Steinhardt’s NeurIPS-paper Jailbroken: How Does LLM Safety Training Fail? toonde aan dat bij elke schadelijke prompt minstens één geteste jailbreak ongeveer 100% van de tijd slaagde. Het team van CMU en Center for AI Safety’s Universal and Transferable Adversarial Attacks liet 88% aanvalssucces zien op Vicuna-7B en 87,9% op GPT-3.5, met betrouwbare overdracht tussen architecturen. De structurele conclusie: alleen opschalen lost deze tekortkomingen niet op. Defensieve training wint het niet.

De agent-specifieke resultaten zijn nog slechter. De InjecAgent-benchmark vond dat GPT-4-agenten met het ReAct-framework in 24% van de gevallen kwetsbaar zijn voor indirecte prompt injection — verbeterde aanvallen verhoogden dat tot 47%. De AgentDojo-benchmark, gebruikt door Amerikaanse en Britse AI Safety Institutes, toonde aan dat verdedigingen die het succes van aanvallen verlagen, ook de bruikbaarheid van het model sterk verminderen. De trade-off tussen beveiliging en bruikbaarheid is fundamenteel: verdedigingen die werken maken agenten nutteloos, en verdedigingen die bruikbaarheid behouden laten het aanvalsvlak open. Wat in april 2026 veranderde, is dat de kloof tussen lab en productieomgeving is verdwenen.

Waarom “We hebben guardrails” geen verdediging meer is

De meeste ondernemingen die AI-agenten beheren, vertrouwen nu op drie zaken: systeem-prompts die het model instrueren, veiligheidsfilters die gevaarlijke output blokkeren en menselijke beoordeling bij risicovolle acties. Geen van deze zijn echte beveiligingsmaatregelen. Het zijn configuratie-instellingen.

Het Kiteworks 2026 Forecast-rapport ondervroeg 225 organisaties en vond dat 41%–44% geen basisgovernance zoals menselijke beoordeling, monitoring en dataminimalisatie voor hun AI-agenten heeft geïmplementeerd. Containment is nog slechter: 55%–63% mist purpose binding, kill switches of netwerkisolatie. Organisaties investeren in het monitoren van AI-agenten, maar niet in het stoppen ervan.

Er is een fundamenteler probleem: model-guardrail-benaderingen voldoen niet aan een audit. Een HIPAA-, CMMC-, PCI- of SOX-auditor accepteert niet “het model kreeg de instructie geen toegang te krijgen tot die data” als bewijs van toegangscontrole. Auditors certificeren handhaving, geen configuratie. De eerste keer dat een toezichthouder om bewijs vraagt dat een AI-agent geen toegang kreeg tot een dataset, moet het antwoord een gelogde handhavingsbeslissing zijn — niet een systeem-prompt.

De architecturale correctie: verplaats handhaving naar de datalaag

Stop met het reguleren van AI-gedrag op modellayer en begin met het reguleren van AI-toegang op de datalaag. Elk AI-verzoek — of het nu van een interactieve assistent, een RAG-pijplijn of een autonome agent komt — moet worden geauthenticeerd, in realtime geëvalueerd tegen op attributen gebaseerd toegangsbeleid en gelogd met volledige attributie voordat data wordt teruggegeven. De handhavingsbeslissing vindt plaats tussen de agent en de data, niet in het model.

Governance op de datalaag heeft vier eigenschappen die guardrails op modelniveau niet kunnen bieden:

Geauthenticeerde identiteit. Elke agentidentiteit is cryptografisch gekoppeld aan de menselijke autorisator die de workflow delegeerde, met inloggegevens die nooit in de modelcontext worden blootgesteld. De delegatieketen blijft behouden in het auditrecord — en beperkt zo direct prompt injection-exfiltratie van geheimen.

Beleidsafgedwongen toegang. Autorisatie evalueert de identiteit van de agent, de classificatie van de data en de context van het verzoek bij elke operatie, niet alleen bij sessiestart. Op attributen gebaseerde toegangscontrole verwerkt de multi-dimensionale logica die rolgebaseerde benaderingen niet kunnen coderen.

Gevalideerde encryptie. Gegevens in rust en onderweg worden beschermd met FIPS 140-3 gevalideerde cryptomodules — niet best-effort TLS. Dit voldoet aan federale en gereguleerde sectorvereisten voor zowel menselijke als AI-agent-data-toegang.

Manipulatiebestendige auditlogging. Elke AI-interactie genereert een genormaliseerde auditlog die realtime naar SIEM wordt gestreamd. Wanneer een toezichthouder om bewijs vraagt, is het antwoord een rapport, geen onderzoek. De agent erft de rechten van de gebruiker en kan deze niet overschrijden, ongeacht welke instructies via gecompromitteerde content binnenkomen.

Hoe Kiteworks governance op de datalaag voor AI-agenten implementeert

De Kiteworks Secure MCP Server en AI Data Gateway zitten tussen AI-systemen en bedrijfsdata, en handhaven governance op de datalaag, ongeacht welk model, framework of orkestratielaag het verzoek heeft gestart.

De Secure MCP Server stelt LLM-applicaties zoals Claude en Microsoft Copilot in staat te communiceren met bedrijfsdata via het industriestandaard Model Context Protocol. Elke operatie wordt beheerd door OAuth 2.0-authenticatie met inloggegevens opgeslagen in OS-sleutelhangers en nooit blootgesteld aan de LLM-context — een directe beperking van prompt injection-exfiltratie van geheimen. ABAC-beleidsregels evalueren elke bestand-, map- en formulieroperatie in realtime. Rate limiting voorkomt bulkextractie. TLS-validatie, path traversal-blokkering en ingebouwde auditlogging leveren het bewijs dat toezichthouders eisen.

De AI Data Gateway biedt een programmatische variant voor RAG-pijplijnen en geautomatiseerde workflows. Elk retrieval-verzoek wordt geauthenticeerd, geautoriseerd tegen ABAC-beleid en gelogd voordat content wordt teruggegeven — op elk AI-platform, zonder vendor lock-in. Dezelfde governance-controls gelden voor menselijke gebruikers, serviceaccounts en AI-agenten.

Het Kiteworks Private Data Network breidt deze architectuur uit naar elk data-uitwisselingskanaal — e-mail, bestandsoverdracht, SFTP, MFT, webformulieren, API’s — onder één policy engine en één geconsolideerde auditlog. Met 51% van de organisaties die AI-agenten in productie draaien en 55%–63% zonder containment-controls volgens de Kiteworks 2026 Forecast, is de kloof tussen inzettempo en AI-governancevolwassenheid het grootste onbeheerde risico in het enterprise AI-portfolio. Governance op de datalaag sluit deze kloof.

Wat organisaties moeten doen vóór de volgende onthulling

Ten eerste inventariseer elke AI-integratie die gevoelige data aanraakt. Elke tool met een AI-functie die onbetrouwbare input leest en toegang heeft tot gereguleerde content moet worden gecatalogiseerd. Begin met platforms die de afgelopen 18 maanden AI-functionaliteit hebben toegevoegd — die zijn het meest waarschijnlijk zonder threat model toegevoegd.

Ten tweede stop met het beschouwen van guardrails op modelniveau als compliance-bewijs. Volgens het NIST AI Risk Management Framework en de OWASP Top 10 voor LLM-applicaties zijn controls op modellayer noodzakelijk maar onvoldoende. Vereis handhaving op de datalaag voor elk AI-systeem dat gereguleerde data verwerkt.

Ten derde sluit het containment-gat. Purpose binding zorgt ervoor dat een agent die voor één taak is geautoriseerd, geen andere taak kan uitvoeren. Kill switches stellen security-teams in staat direct een ontsporende agent te stoppen. Netwerkisolatie beperkt waar een agent data naartoe kan sturen. De Kiteworks 2026 Forecast vond dat 55%–63% van de organisaties deze basiscontrols mist — elk is een project van één kwartaal dat een risicoklasse afsluit.

Ten vierde eis cryptografische identiteit voor elke AI-agent. Statische serviceaccounts en gedeelde OAuth-tokens zijn geen adequate identiteit voor autonome actoren. Elke agent moet een geverifieerde identiteit hebben die cryptografisch is gekoppeld aan de menselijke autorisator die de workflow delegeerde. De audittrail die voldoet aan HIPAA’s vereiste voor geautoriseerd personeel en CMMC’s access-control families kan niet stoppen bij een serviceaccountnaam.

Ten vijfde test je AI-integraties actief op indirecte prompt injection met bekende patronen uit de OWASP Top 10 voor LLM-applicaties en de AgentDojo-benchmark. GrafanaGhost werd ontdekt door onderzoekers, niet door het securityteam van Grafana. Als je organisatie AI-integraties niet actief test op deze kwetsbaarheid, laat je de ontdekking over aan wie het als volgende vindt.

Het tempo van onthullingen versnelt. Of de handhaving die je gereguleerde data beschermt afhankelijk is van het model dat zich aan instructies houdt — of van controls die standhouden als het dat niet doet — is de meest bepalende architecturale beslissing voor je beveiligingsprogramma in 2026.

Wil je meer weten over AI data governance en het beschermen van je meest gevoelige data? Plan vandaag nog een demo op maat.

Veelgestelde vragen

Indirecte prompt injection stelt aanvallers in staat verborgen instructies te plaatsen in webpagina’s, PDF’s of e-mails. Wanneer je agenten deze content lezen, kunnen ze klantportefeuilles openen, accountdata ophalen of gegevens naar bestemmingen onder controle van de aanvaller sturen — zonder malware of afwijkende login die een alarm triggert. De Kiteworks 2026 Forecast vond dat 55%–63% van de organisaties geen toegangs- en containment-controls voor AI-agenten heeft, waardoor aan SEC- en FINRA-regelgeving onderhevige data direct blootstaat aan deze aanvalsvorm.

Safety training is geen handhaving. NeurIPS-onderzoek toont jailbreak-succes tot bijna 100% bij grote LLM’s, en een enkel trefwoord omzeilde de verdediging van Grafana in de GrafanaGhost-onthulling. HIPAA vereist gelogde handhavingsbeslissingen gekoppeld aan geautoriseerd personeel — geen configuratie. Een toezichthouder accepteert niet “het model kreeg de instructie niet te doen” als vervanging voor een gelogde toegangscontrolebeslissing.

Compliant RAG vereist authenticatie bij elk retrieval-verzoek, ABAC-beleidscontrole op basis van de rechten van de geauthenticeerde gebruiker, FIPS 140-3 gevalideerde encryptie en een manipulatiebestendige auditlog. De Kiteworks AI Data Gateway levert deze architectuur — elke AI-query wordt op de datalaag beheerd, onafhankelijk van het model, met volledige attributie realtime naar SIEM gestreamd.

CMMC Level 2 access control families vereisen afgedwongen autorisatie en audit voor alle toegang tot CUI — ook door AI-agenten. De Kiteworks 2026 Forecast vond dat slechts 46% van de DIB-organisaties zichzelf voorbereid acht op CMMC. Governance op de datalaag met ABAC-handhaving, FIPS 140-3 encryptie en manipulatiebestendige logs voldoet gelijktijdig aan AC-, AU- en IA-control families voor zowel menselijke als AI-toegang.

Begin met de OWASP Top 10 voor LLM-applicaties en de AgentDojo-benchmark, beide publiek beschikbaar. Inventariseer elke AI-functie die de afgelopen 18 maanden aan bestaande tools is toegevoegd. Als een AI-functie onbetrouwbare input leest, gevoelige data benadert en uitgaande verzoeken initieert, is governance op de datalaag vereist. De Secure MCP Server en AI Data Gateway bieden de handhavingsarchitectuur — inventarisatie is de eerste stap.

Aanvullende bronnen

  • Blog Post
    Zero‑Trust Strategieën voor Betaalbare AI-privacybescherming
  • Blog Post
    Hoe 77% van de organisaties faalt in AI-databeveiliging
  • eBook
    AI Governance Gap: Waarom 91% van kleine bedrijven Russisch roulette speelt met databeveiliging in 2025
  • Blog Post
    Er bestaat geen “–dangerously-skip-permissions” voor jouw data
  • Blog Post
    Toezichthouders zijn klaar met vragen of je een AI-beleid hebt. Ze willen bewijs dat het werkt.

Veelgestelde vragen

Aanvallers verstoppen verborgen instructies in webpagina’s, documenten en e-mails. AI-agenten die deze content doorzoeken, samenvatten of verwerken, lezen de instructies en voeren ze uit. Dit resulteert in data-exfiltratie, openbaarmaking van inloggegevens en uitgaande verzoeken naar servers onder controle van de aanvaller — zonder phishinglinks, malware of afwijkende logins.

Wanneer een AI-agent instructies van een aanvaller leest en via zijn eigen legitieme kanalen handelt, lijkt de exfiltratie op normaal AI-gedrag. Vanuit het perspectief van de beveiligingsstack gedraagt de AI zich precies zoals ontworpen, waardoor geen afwijkende activiteit wordt gemarkeerd.

Systeem-prompts kunnen worden overschreven en veiligheidsfilters omzeild, waarbij peer-reviewed onderzoek jailbreak-succespercentages tot bijna 100% toont bij grote LLM’s. Deze controls zijn configuratie-instellingen, geen afdwingbare beveiligingsmaatregelen die voldoen aan audits voor frameworks als HIPAA, CMMC, PCI of SOX.

Verplaats handhaving naar de datalaag door elk AI-verzoek te authenticeren, het in realtime te evalueren tegen op attributen gebaseerde toegangscontrole en het te loggen met volledige attributie voordat data wordt teruggegeven. Zo kan de agent geen data exfiltreren waarvoor hij nooit geautoriseerd was, zelfs niet als het model is gecompromitteerd.

Aan de slag.

Het is eenvoudig om te beginnen met het waarborgen van naleving van regelgeving en het effectief beheren van risico’s met Kiteworks. Sluit je aan bij de duizenden organisaties die vol vertrouwen privégegevens uitwisselen tussen mensen, machines en systemen. Begin vandaag nog.

Table of Content
Share
Tweet
Share
Explore Kiteworks