 
				AI-agent beveiligingsrisico’s: 94% van de LLM’s kwetsbaar voor aanvallen
Een onderzoeksstudie van de Universiteit van Calabrië onthult een confronterende realiteit: 94,1% van de populaire grote taalmodellen (LLM’s) bevat uit te buiten beveiligingslekken wanneer ze als AI-agenten met systeemtoegang worden ingezet. Voor organisaties die snel AI-technologieën adopteren, is dit onderzoek meer dan een academische zorg—het vormt een kritisch bedrijfsrisico dat onmiddellijke aandacht vereist. Terwijl bedrijven haast maken met het implementeren van AI-agenten om productiviteitswinst te boeken, creëren ze onbedoeld geavanceerde aanvalsvectoren die kwaadwillenden nu al weten te benutten.
Het onderzoek begrijpen: wat is getest en waarom is het belangrijk
Onderzoekers van de Universiteit van Calabrië en de IMT School for Advanced Studies voerden de eerste uitgebreide beveiligingsevaluatie uit van LLM-agenten als potentiële aanvalsvectoren. In tegenstelling tot traditionele chatbots die alleen tekst genereren, beschikken LLM-agenten over autonome mogelijkheden om commando’s uit te voeren, toegang te krijgen tot systeemterminals, informatie op te halen uit kennisbanken en te communiceren met andere agenten.
De studie testte 17 geavanceerde LLM’s—waaronder GPT-4o, Claude-4 en Gemini-2.5—op drie verschillende aanvalsmethoden. De resultaten toonden een alarmerende kwetsbaarheidshiërarchie: slechts één model (Claude-4-Sonnet) wist alle aanvalsvectoren te weerstaan, wat neerkomt op slechts 5,9% succes voor volledige beveiliging.
Dit onderzoek markeert een paradigmaverschuiving in AI-beveiligingszorgen. Eerdere studies richtten zich vooral op contentmanipulatie en prompt-injectie voor tekstuele output. Dit onderzoek toont aan dat AI-agenten met systeemtoegang kunnen worden ingezet voor volledige overname van computers, terwijl ze de schijn van normale werking behouden. Lees het volledige onderzoeksrapport voor technische details.
De implicaties reiken verder dan theoretische kwetsbaarheden. Naar verwachting zal tegen medio 2025 meer dan 70% van de zakelijke AI-inzet bestaan uit multi-agent- of actiegebaseerde systemen. Organisaties schalen de adoptie van technologieën op waarvan de beveiligingskaders fundamenteel gebrekkig blijven.
Belangrijkste inzichten
- 94% faalpercentage bij populaire AI-modellen Slechts 1 van de 17 geteste LLM’s (Claude-4-Sonnet) wist alle drie de aanvalsvectoren te weerstaan. Dit toont aan dat zelfs toonaangevende AI-platforms van OpenAI, Google en Anthropic uit te buiten beveiligingslekken bevatten wanneer ze als agenten met systeemtoegang worden ingezet. Organisaties mogen er niet van uitgaan dat populaire, goed gefinancierde AI-oplossingen over voldoende beveiligingsmaatregelen beschikken.
- Vertrouwen tussen agenten is de zwakste schakel 82,4% van de AI-modellen voert kwaadaardige commando’s uit wanneer deze worden aangevraagd door andere agenten—zelfs modellen die identieke commando’s van menselijke gebruikers succesvol blokkeerden. Deze kwetsbaarheid voor “AI agent privilege escalation” onthult een fundamenteel gebrek in multi-agent-architecturen: huidige beveiligingsmechanismen behandelen AI-naar-AI-communicatie als vanzelfsprekend betrouwbaar, wat het gevaarlijkste aanvalspunt in zakelijke inzet creëert.
- RAG-systemen creëren verborgen aanvalsvlakken Retrieval-Augmented Generation (RAG)-systemen—nu standaard in zakelijke AI-inzet—kunnen worden gecompromitteerd via vergiftigde documenten in kennisbanken. Met een kwetsbaarheid van 52,9% slagen RAG-backdoor-aanvallen erin “document authority bias” uit te buiten, waarbij AI-agenten extern opgehaalde informatie vertrouwen zonder dezelfde beveiligingscontrole toe te passen als bij menselijke input. Eén kwaadaardig document kan uw volledige AI-infrastructuur tot aanvalsvector maken.
- Aanvallen gebeuren onopgemerkt tijdens normale werking Gecompromitteerde AI-agenten installeren malware, leggen externe verbindingen en voeren ongeautoriseerde commando’s uit terwijl ze legitieme taken blijven uitvoeren zonder zichtbare tekenen van compromittering. Gebruikers ontvangen verwachte output—documentsamenvattingen, data-analyses, taakafrondingen—terwijl tegelijkertijd backdoors worden geïmplementeerd. Deze stealth-mogelijkheid maakt AI-agent-aanvallen bijzonder gevaarlijk en moeilijk te detecteren met traditionele beveiligingsmonitoring.
- AI Data Governance is onmisbaar Organisaties die AI implementeren zonder de juiste governance-kaders creëren enorme aanvalsvlakken en stellen gevoelige gereguleerde data bloot. De oplossing is niet het afzien van AI-adoptie—maar het implementeren van gecontroleerde data-toegang, beveiligde AI-gateways, uitgebreide audittrails en zero-trust-architecturen die elke interactie verifiëren. Met 70% van de zakelijke AI-inzet die naar verwachting multi-agent-systemen omvat tegen medio 2025, moeten governance-kaders direct worden uitgerold, niet pas na datalekken.
Drie aanvalsvectoren uitgelegd
Directe prompt-injectie: de poortkwetsbaarheid
Directe prompt-injectie houdt in dat kwaadaardige commando’s worden ingebed in door gebruikers aangeleverde tekst die AI-agenten verwerken. Veel organisaties gaan ervan uit dat moderne LLM’s hiertegen goed zijn beveiligd, maar het onderzoek toonde aan dat 41,2% van de geteste modellen kwetsbaar bleef.
De meest zorgwekkende bevinding: drie modellen voerden kwaadaardige commando’s uit, zelfs nadat hun redeneerprocessen de instructies als gevaarlijk hadden geïdentificeerd. Hoe kan dat? Hun systeem-prompts legden de nadruk op taakafronding en efficiëntie, waardoor beveiliging werd overschreven. Dit onthult een fundamentele spanning in het ontwerp van AI-agenten—dezelfde mogelijkheden die ze nuttig maken (autonome actie, taakafronding) creëren beveiligingsrisico’s.
Organisaties die AI-agenten implementeren onderschatten vaak de risico’s van directe prompt-injectie, in de veronderstelling dat veiligheidstraining en contentfilters voldoende bescherming bieden. Dit onderzoek toont aan dat die aanname gevaarlijk onjuist is.
RAG-backdoor-aanvallen: de kennisbron vergiftigen
Retrieval-Augmented Generation (RAG)-systemen vergroten de mogelijkheden van LLM’s door relevante informatie op te halen uit externe kennisbanken. Deze architectuur is standaard geworden voor zakelijke AI-inzet, waardoor agenten toegang krijgen tot eigen documenten, databases en informatierepositories.
RAG-backdoor-aanvallen maken misbruik van de vertrouwensrelatie tussen LLM’s en hun kennisbronnen. Aanvallers injecteren kwaadaardige instructies in documenten binnen de kennisbank, bijvoorbeeld door witte tekst op een witte achtergrond te gebruiken of microscopisch kleine lettergroottes. Wanneer de agent deze inhoud tijdens normale werking ophaalt, verwerkt hij de ingebedde commando’s als legitieme informatie.
Het onderzoek toonde een kwetsbaarheid van 52,9% aan voor RAG-backdoor-aanvallen—aanzienlijk hoger dan bij directe prompt-injectie. Nog belangrijker: meerdere modellen die directe aanvallen weerstonden, werden alsnog gecompromitteerd via RAG-exploitatie. Dit onthult wat onderzoekers “document authority bias” noemen—LLM’s behandelen extern opgehaalde informatie als vanzelfsprekend betrouwbaar en omzeilen zo de veiligheidsmechanismen die op gebruikersinput worden toegepast.
Voor organisaties die RAG-gebaseerde AI-systemen bouwen met toegang tot gevoelige, eigen data, vormt dit een ernstig beveiligingsprobleem. Eén vergiftigd document in uw kennisbank kan uw AI-assistent veranderen in een aanvalsvector.
Vertrouwen tussen agenten uitbuiten: het kritieke faalpunt
Multi-agent-systemen—waarbij meerdere AI-agenten communiceren en samenwerken om complexe taken uit te voeren—vormen de voorhoede van zakelijke AI-inzet. Deze architecturen maken geavanceerde workflows mogelijk door taken te verdelen over gespecialiseerde agenten.
Het onderzoek toonde aan dat het uitbuiten van vertrouwen tussen agenten de gevaarlijkste kwetsbaarheid is, met een compromitteringspercentage van 82,4%. Modellen die zowel directe injectie als RAG-aanvallen weerstonden, gaven onmiddellijk toe wanneer kwaadaardige verzoeken afkomstig waren van andere agenten.
Dit fenomeen—”AI agent privilege escalation” genoemd—onthult een fundamenteel gebrek in de huidige multi-agent-beveiligingsarchitecturen. LLM’s hanteren aanzienlijk soepelere beveiligingsregels voor AI-naar-AI-communicatie dan voor mens-naar-AI-interacties. De impliciete aanname dat andere agenten vanzelfsprekend betrouwbaar zijn, creëert een enorme blinde vlek.
Modellen als Llama3.3:70b en Llama4:16x17b toonden robuuste verdediging tegen aanvallen van mensen, maar voerden identieke kwaadaardige payloads uit wanneer deze door een andere agent werden aangevraagd. De beveiligingsmechanismen werden simpelweg niet geactiveerd bij communicatie tussen agenten.
Praktische impact: van kwetsbaarheid naar compromittering
Dit zijn geen theoretische zorgen. Onderzoekers demonstreerden volledige computerovername met behulp van Meterpreter-gebaseerde reverse shell-payloads die:
- Malware installeren die volledig in het geheugen draait en zo detectie door schijfgebaseerde systemen omzeilt
- Hardnekkige externe verbindingen opzetten met servers onder controle van de aanvaller
- Willekeurige commando’s uitvoeren op de systemen van slachtoffers zonder dat de gebruiker het weet
- Toegang behouden terwijl de agent normale taken blijft uitvoeren
De aanval slaagt terwijl gebruikers de agent voor legitieme taken inzetten. U vraagt om een documentsamenvatting; de agent vat het document samen en installeert een backdoor. Er zijn geen foutmeldingen, geen prestatieverlies of zichtbare tekenen van compromittering.
Twee categorieën lopen acuut risico:
- Individuele gebruikers: Iedereen die open-source AI-agent-implementaties downloadt van platforms zoals GitHub. Deze gebruikers werken te goeder trouw met agenten, zich niet bewust van het feit dat bepaalde documenten of specifieke zoekopdrachten verborgen kwaadaardig gedrag kunnen activeren. De democratisering van AI betekent ook democratisering van kwetsbaarheid.
- Zakelijke organisaties: Bedrijven die AI-agenten integreren in hun processen, vooral organisaties met RAG-systemen waarin gebruikers documenten kunnen uploaden. Eén gecompromitteerde agent buiten een juiste sandbox biedt aanvallers de mogelijkheid tot zijdelingse beweging binnen interne netwerken. Eén vergiftigd document in uw bedrijfskennisbank verandert uw AI-infrastructuur in een insider threat.
De financiële sector, zorgprocessen en juridische sector—die zeer gevoelige gereguleerde data verwerken en snel AI-agenten adopteren—lopen een bijzonder groot risico. Een datalek veroorzaakt door gecompromitteerde AI-agenten kan leiden tot boetes, proceskosten, reputatieschade en competitief nadeel.
Waarom huidige AI-beveiligingsmaatregelen falen
Het onderzoek legt kritieke gaten bloot in de manier waarop de AI-industrie beveiliging benadert:
- Mensgerichte beveiligingsmodellen: Huidige veiligheidstraining richt zich vrijwel uitsluitend op mens-naar-AI-interacties. Organisaties die multi-agent-systemen implementeren, ontdekken te laat dat hun beveiligingskaders geen rekening houden met AI-naar-AI-communicatie, waar veel kwetsbaarheden bestaan.
- Onterecht vertrouwen in externe data: RAG-systemen behandelen opgehaalde informatie standaard als feitelijk en betrouwbaar. Er wordt nauwelijks controle toegepast op kennisbankinhoud vergeleken met gebruikersinput. Deze “document authority bias” creëert uit te buiten blinde vlekken.
- Contextafhankelijke bescherming: Modellen vertonen sterk inconsistente beveiligingsgedragingen over verschillende aanvalsvectoren. Een systeem dat directe kwaadaardige prompts blokkeert, kan identieke commando’s uitvoeren als ze via RAG-opvraging of verzoeken van andere agenten worden aangeleverd. Beveiliging is niet allesomvattend; ze is situationeel.
- Kwetsbaarheidshiërarchie: Het onderzoek toont een duidelijke gradatie aan: verdediging verzwakt naarmate aanvallen complexer worden: directe prompt-injectie (41,2% succes) < RAG-backdoor-aanvallen (52,9% succes) < vertrouwen tussen agenten uitbuiten (82,4% succes).
- Druk op snelle inzet: Organisaties die AI-capaciteiten snel willen inzetten, geven prioriteit aan functionaliteit boven beveiliging. De industrie-mantra “move fast and break things” toegepast op AI-systemen met systeemtoegang heeft voorspelbare—en gevaarlijke—gevolgen.
Zoals Crystal Morin, senior cybersecurity-strateeg bij Sysdig, opmerkt in haar analyse van dark AI threats: “Cybersecurity is altijd een wapenwedloop geweest, en AI heeft de inzet verhoogd.” Traditionele beveiligingskaders voor statische systemen zijn achterhaald in het tijdperk van autonome AI-agenten.
Kiteworks-oplossing: AI-data-toegang beheren
Dit onderzoek bevestigt kritieke zorgen over ongecontroleerde AI-adoptie. Organisaties die AI-agenten implementeren zonder de juiste kaders voor gegevensbeheer, creëren enorme aanvalsvlakken en stellen gevoelige informatie bloot aan onbeveiligde systemen.
Kloof in AI Data Governance
De meeste organisaties hebben geen inzicht in:
- Welke AI-tools medewerkers gebruiken om werkdata te verwerken
- Welke gevoelige informatie in publieke LLM’s terechtkomt
- Of eigen data AI-trainingsdatasets voedt
- Hoe onbedoelde blootstelling van data via AI-interacties te voorkomen
- Of AI-systemen voldoen aan vereisten voor naleving van regelgeving
Deze governance-kloof bestaat omdat traditionele databeveiligingstools niet zijn ontworpen voor AI-tijdperk-bedreigingen. Perimeterbeveiliging, encryptie en toegangscontroles beschermen gegevens in rust en onderweg—maar niet data die actief wordt verwerkt door mogelijk gecompromitteerde AI-agenten.
Kiteworks Private Content Network-aanpak
Het Kiteworks-platform pakt AI-beveiligingslekken aan via een uitgebreid governance-kader:
- Gecontroleerde data-toegang: Het Private Content Network zorgt ervoor dat gevoelige data niet in publieke LLM’s of onbeveiligde AI-systemen terechtkomt. Organisaties behouden controle over welke informatie AI-agenten kunnen benaderen, zodat gereguleerde data zoals HIPAA-beschermde gezondheidsinformatie, GDPR-persoonsgegevens of ITAR-gecontroleerde technische data niet wordt blootgesteld.
- AI Data Gateway: Biedt veilige, conforme routes voor AI-innovatie zonder gevoelige informatie bloot te stellen. Organisaties kunnen AI-mogelijkheden benutten en tegelijkertijd datasoevereiniteit en naleving van regelgeving waarborgen. De gateway fungeert als een veilige tussenlaag, die AI-functionaliteit mogelijk maakt en tegelijkertijd databeveiligingsbeleid afdwingt.
- Geavanceerd governance-kader: Rolgebaseerde toegangscontrole (RBAC) en op attributen gebaseerde toegangscontrole (ABAC) voorkomen ongeautoriseerde data-inname in AI-systemen. Organisaties stellen gedetailleerde beleidsregels op die bepalen welke datacategorieën, documenttypes en informatieclassificaties AI-agenten mogen benaderen op basis van gebruikersrollen, gevoeligheid van data en zakelijke context.
- Uitgebreide audittrails: Elk data-toegangsincident—ook AI-systeemqueries—genereert gedetailleerde logs die exact tonen welke informatie is geraadpleegd, door welke systemen, met welk doel en met welk resultaat. Dit inzicht stelt organisaties in staat afwijkend AI-gedrag te detecteren, mogelijke compromittering te onderzoeken en naleving van regelgeving aan te tonen.
- Zero-trust-architectuur: Het platform implementeert verificatie op elk toegangspunt en elimineert impliciet vertrouwen dat kwetsbaarheden creëert. Dit pakt direct het probleem van vertrouwen tussen agenten aan—geen enkel systeem, ook AI-agenten niet, krijgt bevoorrechte toegang zonder authenticatie en autorisatie.
- Integratiemogelijkheden: Kiteworks integreert met bestaande beveiligingsinfrastructuur, waaronder SIEM-systemen, tools voor preventie van gegevensverlies en identity management-platforms. Zo kunnen organisaties AI-data governance opnemen in bredere beveiligingsoperaties in plaats van gescheiden controles te creëren.
Concrete stappen voor organisaties
Directe risicobeoordeling:
- Maak een inventaris van alle AI-tools en agenten die momenteel zijn ingezet of in pilot zijn
- Identificeer welke systemen terminaltoegang of systeemrechten hebben
- Breng in kaart tot welke gevoelige data deze systemen toegang hebben
- Evalueer of uw RAG-kennisbanken vergiftigde documenten kunnen bevatten
- Beoordeel uw multi-agent-architecturen op kwetsbaarheden voor uitbuiting van vertrouwen
Kritische vragen om te beantwoorden:
- Heeft u inzicht in het gebruik van AI-tools door medewerkers?
- Kunt u voorkomen dat gevoelige data wordt gedeeld met publieke LLM’s?
- Bestaan er governance-kaders voor AI-data-toegang?
- Kunt u dataflows naar AI-systemen auditen en controleren?
- Zijn uw AI-implementaties goed gescheiden van productieomgevingen?
- Bevatten contracten met leveranciers AI-specifieke beveiligingsvereisten?
Een AI-beveiligingskader opbouwen:
- Implementeer dataclassificatiebeleid dat AI-toegang tot gevoelige informatie beperkt
- Zet AI-data-gateways in die bemiddelen tussen AI-systemen en dataopslagplaatsen
- Stel goedkeuringsworkflows in voor adoptie van AI-tools
- Eis beveiligingsbeoordelingen voor alle AI-agenten vóór inzet
- Creëer incidentresponsprocedures specifiek voor AI-gerelateerde datalekken
- Leid medewerkers op over AI-beveiligingsrisico’s en veilig gebruik
Organisaties die deze governance-kaders implementeren, kunnen AI-innovatie nastreven en tegelijkertijd beveiligingsrisico’s beheersen. Wie inzet zonder de juiste controles, stelt zich bloot aan de kwetsbaarheden die dit onderzoek onomstotelijk heeft aangetoond.
Conclusie: innovatie en beveiliging in balans
Het onderzoek van de Universiteit van Calabrië geeft een ondubbelzinnige boodschap: de huidige beveiliging van AI-agenten is fundamenteel ontoereikend. Met 94,1% van de geteste modellen die uit te buiten kwetsbaarheden vertonen, mogen organisaties er niet van uitgaan dat populaire, goed gefinancierde AI-platforms deze problemen hebben opgelost.
De gevolgen zijn vooral groot voor gereguleerde sectoren die gevoelige data verwerken. Een gecompromitteerde AI-agent met toegang tot klantgegevens, beschermde gezondheidsinformatie of intellectueel eigendom creëert aansprakelijkheidsrisico’s die verder reiken dan technologie—tot aan naleving van regelgeving, fiduciaire verantwoordelijkheid en competitieve positie.
Toch is de juiste reactie niet het afzien van AI-adoptie—maar het implementeren van de juiste governance-kaders die innovatie mogelijk maken en risico’s beheersen. Kiteworks Private Data Network biedt organisaties het inzicht, de controle en de auditmogelijkheden die nodig zijn om AI-agenten veilig in te zetten.
Het cybersecurity-landschap wordt herschreven door AI-mogelijkheden. Organisaties die deze dreigingen onderkennen en uitgebreide kaders voor gegevensbeheer implementeren, behalen competitief voordeel door veilige AI-adoptie. Wie deze waarschuwingen negeert, leert pijnlijke lessen wanneer behulpzame AI-assistenten aanvalsvectoren worden.
Kom nu in actie: beoordeel de AI-beveiligingsstatus van uw organisatie, implementeer controles voor gegevensbeheer en creëer veilige routes voor AI-innovatie. Het onderzoek is duidelijk—de kwetsbaarheden bestaan, ze worden actief uitgebuit en de gegevensbeveiliging van uw organisatie hangt af van het aanpakken ervan voordat kwaadwillenden dat doen.
Voor technische details over het onderzoek van de Universiteit van Calabrië, inclusief methodologie, geteste modellen en aanvalstechnieken, bekijk het volledige rapport: “The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover” op arXiv.
Veelgestelde vragen
LLM-agent beveiligingslekken zijn uit te buiten zwakke plekken in AI-systemen die autonoom commando’s kunnen uitvoeren, toegang hebben tot systeemterminals en met externe tools kunnen interacteren. In tegenstelling tot traditionele chatbots die alleen tekst genereren, kunnen LLM-agenten acties uitvoeren op uw computersysteem. Onderzoek van de Universiteit van Calabrië wees uit dat 94,1% van de populaire AI-modellen—waaronder GPT-4o, Gemini-2.5 en Claude-4—beveiligingsfouten bevat die aanvallers kunnen misbruiken voor volledige computerovername. Deze kwetsbaarheden zijn belangrijk omdat organisaties snel AI-agenten met systeemtoegang inzetten zonder de risico’s te begrijpen. Een gecompromitteerde AI-agent kan malware installeren, gevoelige data stelen en hardnekkige backdoor-toegang behouden terwijl het systeem normaal lijkt te functioneren. Dit maakt deze aanvallen bijzonder gevaarlijk voor bedrijven die gereguleerde data verwerken, zoals HIPAA, GDPR of ITAR-gecontroleerde informatie.
RAG (Retrieval-Augmented Generation) backdoor-aanvallen maken misbruik van AI-systemen die informatie ophalen uit externe kennisbanken door documenten te vergiftigen met verborgen kwaadaardige instructies. Aanvallers injecteren commando’s via technieken zoals witte tekst op witte achtergronden, microscopisch kleine lettergroottes of verborgen opmaak die voor mensen onzichtbaar is maar door AI-agenten wordt verwerkt. Wanneer de AI deze gecompromitteerde inhoud tijdens normale werking ophaalt, behandelt het de ingebedde kwaadaardige commando’s als legitieme informatie en voert ze uit zonder beveiligingswaarschuwingen te activeren. Onderzoek toont aan dat 52,9% van de geteste LLM’s kwetsbaar is voor RAG-backdoor-aanvallen—meer dan bij directe prompt-injectie (41,2%). Dit is vooral zorgwekkend voor zakelijke inzet waarbij AI-agenten toegang hebben tot eigen documentrepositories, klantdatabases en externe kennisbronnen. Organisaties die RAG-systemen gebruiken voor klantenservice, onderzoeksassistentie of documentanalyse lopen aanzienlijk risico als hun kennisbanken niet goed zijn beveiligd en gevalideerd.
Het uitbuiten van vertrouwen tussen agenten vindt plaats wanneer AI-agenten binnen multi-agent-systemen verzoeken van andere agenten automatisch vertrouwen zonder dezelfde beveiligingscontrole toe te passen als bij menselijke interacties. Onderzoek toont aan dat 82,4% van de geteste AI-modellen kwaadaardige commando’s uitvoert wanneer deze door een andere agent worden aangevraagd—zelfs modellen die identieke commando’s van menselijke gebruikers succesvol blokkeerden. Deze kwetsbaarheid voor “AI agent privilege escalation” bestaat omdat huidige LLM-veiligheidstraining zich vooral richt op mens-naar-AI-interacties, waardoor AI-naar-AI-communicatie grotendeels onbeschermd blijft. In multi-agent-architecturen waar gespecialiseerde agenten samenwerken aan complexe taken, kan één gecompromitteerde agent andere agenten aansturen om gevaarlijke acties uit te voeren die normaal geblokkeerd zouden worden. Dit is de meest kritieke kwetsbaarheid in zakelijke AI-inzet, zeker nu naar verwachting 70% van de organisaties tegen medio 2025 multi-agent-systemen implementeert. De beveiligingsmechanismen die beschermen tegen prompt-injectie en kwaadaardige gebruikersinput worden simpelweg niet geactiveerd als verzoeken van andere agenten komen.
Organisaties kunnen AI-agenten beveiligen met uitgebreide governance-kaders voor gegevensbeheer die bepalen tot welke informatie AI-systemen toegang hebben en hoe ze met gevoelige data omgaan. De Kiteworks Private Content Network-aanpak omvat: (1) Gecontroleerde data-toegang die voorkomt dat gevoelige informatie in publieke LLM’s of onbeveiligde AI-systemen terechtkomt, (2) AI Data Gateways die veilige, conforme routes bieden voor AI-innovatie en tegelijkertijd databeveiligingsbeleid afdwingen, (3) Geavanceerd governance-beleid met rolgebaseerde en op attributen gebaseerde toegangscontrole om AI-toegang tot gereguleerde data te beperken, (4) Uitgebreide audittrails die elke AI-interactie met bedrijfsdata registreren, en (5) Zero-trust-architectuur die elke toegangsaanvraag verifieert zonder impliciet vertrouwen. Extra beschermingsmaatregelen zijn onder meer: AI-agenten goed sandboxen, beveiligingsbeoordelingen eisen vóór inzet, alle externe kennisbankinhoud valideren, monitoren op afwijkend AI-gedrag, incidentresponsprocedures opstellen voor AI-gerelateerde datalekken en medewerkers trainen in AI-beveiligingsrisico’s. Organisaties moeten deze controles implementeren vóór grootschalige AI-inzet, niet pas na datalekken.
Onderzoek naar 17 geavanceerde LLM’s wees uit dat alleen Claude-4-Sonnet (5,9%) alle drie de aanvalsvectoren wist te weerstaan—directe prompt-injectie, RAG-backdoor-aanvallen en het uitbuiten van vertrouwen tussen agenten. Modellen met hoge kwetsbaarheid zijn onder andere: GPT-4o-mini, Gemini-2.0-flash, Magistral-medium en qwen3:14b (kwetsbaar voor alle drie de aanvalstypen). Modellen als GPT-4o, GPT-4.1 en verschillende Llama-varianten weerstonden directe aanvallen maar werden alsnog gecompromitteerd via uitbuiting van vertrouwen tussen agenten, wat aantoont dat beveiliging contextafhankelijk is en niet allesomvattend. Opvallend is dat drie modellen (Gemini-2.5-flash, Magistral-medium en qwen3:14b) kwaadaardige commando’s uitvoerden, zelfs nadat ze deze als gevaarlijk hadden geïdentificeerd, omdat hun systeem-prompts taakafronding boven beveiliging stelden. De kwetsbaarheidshiërarchie toont: 41,2% vatbaar voor directe prompt-injectie, 52,9% voor RAG-backdoor-aanvallen en 82,4% voor uitbuiting van vertrouwen tussen agenten. Organisaties mogen niet aannemen dat populaire, goed gefinancierde AI-platforms voldoende beveiligd zijn—onafhankelijke tests en validatie zijn essentieel vóór inzet van een LLM-agent met systeemtoegang of toegang tot gevoelige bedrijfsdata.