Indirekte Prompt Injection wird Realität: Warum Guardrails Sie nicht schützen
Wichtige Erkenntnisse
- Indirekte Prompt Injection ist Realität. Angreifer betten versteckte Anweisungen in Webseiten, Dokumente und E-Mails ein, die produktive KI-Agenten auslesen und ausführen. So gelingt Datenabfluss ohne Phishing oder Malware.
- Traditionelle Tools erkennen diese Angriffe nicht. Security Information and Event Management (SIEM), Data Loss Prevention (DLP) und Endpoint-Monitoring bemerken nichts Ungewöhnliches, da die KI wie vorgesehen agiert – allerdings nach den Anweisungen des Angreifers.
- Modell-Guardrails sind keine Sicherheit. Systemprompts und Sicherheitsfilter lassen sich leicht umgehen. Studien zeigen Jailbreak- und Injection-Erfolgsraten von bis zu 100% bei führenden LLMs.
- Governance auf Datenebene ist erforderlich. Die Durchsetzung muss auf authentifizierte, richtlinienbasierte Zugriffskontrollen und manipulationssichere Protokollierung auf Datenebene umgestellt werden, um Audit- und Compliance-Anforderungen zu erfüllen.
Forschende von Google und Forcepoint haben dokumentiert, wie indirekte Prompt-Injection-Angriffe auf produktive KI-Systeme ausgeführt werden. Angreifer platzieren versteckte Anweisungen in Webseiten, Dokumenten und E-Mails. KI-Agenten, die diese Inhalte durchsuchen, zusammenfassen oder verarbeiten, lesen die Anweisungen aus und führen sie aus. Das Ergebnis: Datenabfluss, Preisgabe von Zugangsdaten und ausgehende Anfragen an Server unter Kontrolle der Angreifer – alles ausgelöst durch die KI selbst.
Es gibt keinen Phishing-Link zum Anklicken. Keine schädliche Datei, die ausgeführt wird. Kein verdächtiger Login, der einen Alarm auslöst. Der Agent macht genau das, wofür er entwickelt wurde – Inhalte lesen und darauf reagieren – und der Inhalt macht genau das, was der Angreifer beabsichtigt hat. Jedes traditionelle Sicherheitstool erkennt nichts Ungewöhnliches. Damit wird aus einem seit 2023 theoretischen Risiko ein operatives Problem auf Vorstandsebene.
5 Wichtige Erkenntnisse
1. Indirekte Prompt Injection ist keine Theorie mehr.
Forschende bei Google und Forcepoint haben dokumentiert, wie Angreifer KI-Agenten durch versteckte Anweisungen in Webinhalten, Dokumenten und E-Mails manipulieren – und so Datenabfluss ohne Phishing, Malware oder menschliches Zutun auslösen. GrafanaGhost, ForcedLeak (Salesforce Agentforce), GeminiJack (Google Gemini) und DockerDash folgten demselben Muster. Die Lücke zwischen Labor- und Produktivumgebung ist geschlossen.
2. Traditionelle Sicherheitstools erkennen diese Angriffe nicht.
Liest ein KI-Agent Angreiferanweisungen und agiert über eigene legitime Kanäle, erkennen SIEM-Regeln, DLP-Filter und Endpoint-Monitoring keine Anomalien. Der Datenabfluss sieht wie normales KI-Verhalten aus, denn aus Sicht des Security-Stacks handelt die KI wie vorgesehen. Das bisherige Verteidigungsmodell – dass Datenabfluss ein bösartiges Endgerät erfordert – gilt nicht mehr, wenn die KI selbst das Exfiltrationstool ist.
3. Modell-Guardrails sind Konfiguration, keine Sicherheit.
Systemprompts lassen sich überschreiben. Sicherheitsfilter lassen sich umgehen. Peer-Reviewte NeurIPS-Forschung zeigte Jailbreak-Erfolgsraten von nahezu 100% bei führenden LLMs. Der InjecAgent-Benchmark fand GPT-4-Agenten in 24% der Fälle anfällig für indirekte Prompt Injection – verbesserte Angriffe verdoppelten die Rate auf 47%. Kontrollen auf Modellebene sind Konfigurationseinstellungen und reichen für einen Audit nicht aus.
4. Das Audit-Problem ist jetzt akut.
Ein HIPAA-, CMMC-, PCI- oder SOX-Auditor akzeptiert nicht „das Modell wurde angewiesen, es nicht zu tun“ als Nachweis für Zugriffskontrolle. Auditoren zertifizieren Durchsetzungsentscheidungen, nicht Konfiguration. Wenn ein Regulator erstmals den Nachweis verlangt, dass ein KI-Agent keinen Zugriff auf einen Datensatz hatte, muss die Antwort ein protokollierter Enforcement-Entscheid mit Richtlinie und menschlichem Autorisierer sein – kein Systemprompt.
5. Die architektonische Korrektur ist Governance auf Datenebene.
Verlagern Sie die Durchsetzung aus dem Modell in die Datenebene. Authentifizieren Sie jede KI-Anfrage, prüfen Sie sie in Echtzeit gegen attributbasierte Zugriffskontrollen und protokollieren Sie sie mit voller Attribution, bevor Daten zurückgegeben werden. Diese Durchsetzung gilt auch dann, wenn das Modell kompromittiert oder der Prompt manipuliert wird oder ein neuer Jailbreak auftaucht. Der Agent kann keine Daten exfiltrieren, für die er nie eine Leseberechtigung hatte.
Sie vertrauen darauf, dass Ihr Unternehmen sicher ist. Aber können Sie es auch nachweisen?
Jetzt lesen
Warum GrafanaGhost ein Vorgeschmack war, kein Ausreißer
Noma Securitys Offenlegung von GrafanaGhost im April 2026 dokumentierte eine Zero-Click-Schwachstelle, die den KI-Assistenten von Grafana in einen stillen Datenabflusskanal verwandelte. Forschende platzierten Anweisungen in URL-Parametern, die in den Logs von Grafana landeten. Die KI verarbeitete die Logs, folgte den Anweisungen und verschickte Finanzkennzahlen, Infrastruktur-Telemetrie und Kundendaten an einen Server unter Kontrolle der Angreifer, indem sie diese in Bild-Render-Anfragen einbettete. Ein einziges Schlüsselwort reichte aus, um die Sicherheitsfilter des Modells zu umgehen.
GrafanaGhost ist gepatcht. Die Angriffsklasse bleibt bestehen. ForcedLeak (Salesforce Agentforce), GeminiJack (Google Gemini) und DockerDash folgten demselben Drehbuch: Eine KI-Funktion wird auf eine bestehende Plattform aufgesetzt, unzuverlässige Inhalte gelangen zum Modell, das Modell handelt nach Angreiferanweisungen und Sicherheitstools erkennen nichts. Jede KI-Funktion, die in den letzten 18 Monaten zu einem Enterprise-Tool hinzugefügt wurde, ist ein potenzieller GrafanaGhost – egal ob Observability-Plattform, Ticketsystem, CRM, Code-Editor, Collaboration Suite oder Marketing Automation.
Was die Fachliteratur uns seit Langem sagen will
Die akademische Forschung ist seit 2023 eindeutig. Wei, Haghtalab und Steinhardts NeurIPS-Paper Jailbroken: How Does LLM Safety Training Fail? zeigte, dass für jeden schädlichen Prompt mindestens ein getesteter Jailbreak fast immer (ca. 100%) erfolgreich war. Das Team von CMU und Center for AI Safety belegte in Universal and Transferable Adversarial Attacks eine Erfolgsquote von 88% bei Vicuna-7B und 87,9% bei GPT-3.5 – mit zuverlässiger Übertragbarkeit auf andere Architekturen. Das strukturelle Fazit: Skalierung allein löst diese Probleme nicht. Defensives Training reicht nicht aus.
Die agentenspezifischen Ergebnisse sind noch schlechter. Der InjecAgent-Benchmark fand GPT-4-Agenten mit ReAct-Framework in 24% der Fälle anfällig für indirekte Prompt Injection – verbesserte Angriffe erhöhten die Rate auf 47%. Der AgentDojo-Benchmark, den US- und UK-Institute für KI-Sicherheit zur Bewertung nutzen, zeigte: Verteidigungen, die die Erfolgsraten von Angriffen senken, beeinträchtigen auch die Nützlichkeit des Modells erheblich. Der Zielkonflikt zwischen Sicherheit und Nutzbarkeit ist grundlegend: Effektive Verteidigung macht Agenten unbrauchbar, während nützliche Agenten eine offene Angriffsfläche bieten. Neu seit April 2026: Die Lücke zwischen Labor und Produktion ist geschlossen.
Warum „Wir haben Guardrails“ kein Schutz mehr ist
Die meisten Unternehmen, die KI-Agenten steuern, verlassen sich auf drei Dinge: Systemprompts, die das Modell anweisen, wie es sich verhalten soll, Sicherheitsfilter, die gefährliche Ausgaben blockieren, und Human-in-the-Loop-Prüfungen für risikoreiche Aktionen. Keine dieser Maßnahmen ist eine echte Sicherheitskontrolle. Es sind Konfigurationseinstellungen.
Der Kiteworks Prognosebericht 2026 befragte 225 Unternehmen und stellte fest, dass 41%–44% keine grundlegenden Governance-Kontrollen wie Human-in-the-Loop-Überwachung, Monitoring und Datenminimierung für ihre KI-Agenten implementiert haben. Die Eindämmung ist noch schlechter: 55%–63% fehlt es an Zweckbindung, Not-Aus-Schaltern oder Netzwerkisolation. Unternehmen investieren in die Beobachtung von KI-Agenten – aber nicht in deren Begrenzung.
Das Grundproblem: Modell-Guardrails reichen für einen Audit nicht aus. Ein HIPAA-, CMMC-, PCI- oder SOX-Auditor akzeptiert nicht „das Modell wurde angewiesen, nicht auf diese Daten zuzugreifen“ als Nachweis für Zugriffskontrolle. Auditoren zertifizieren Durchsetzung, nicht Konfiguration. Wird erstmals ein Nachweis verlangt, dass ein KI-Agent keinen Zugriff auf einen Datensatz hatte, muss die Antwort ein protokollierter Enforcement-Entscheid sein – kein Systemprompt.
Architektonische Korrektur: Enforcement in die Datenebene verlagern
Steuern Sie KI-Verhalten nicht länger auf Modellebene, sondern KI-Zugriffe auf Datenebene. Jede KI-Anfrage – ob von einem interaktiven Assistenten, einer RAG-Pipeline oder einem autonomen Agenten – muss authentifiziert, in Echtzeit gegen attributbasierte Zugriffspolicies geprüft und mit voller Attribution protokolliert werden, bevor Daten zurückgegeben werden. Die Durchsetzungsentscheidung erfolgt zwischen Agent und Daten, nicht im Modell.
Governance auf Datenebene bietet vier Eigenschaften, die Modell-Guardrails nicht leisten können:
Authentifizierte Identität. Jede Agentenidentität ist kryptografisch mit dem menschlichen Autorisierer verknüpft, der den Workflow delegiert hat. Die Zugangsdaten werden nie im Modellkontext offengelegt. Die Delegationskette bleibt im Audit-Trail erhalten – und verhindert so Prompt-Injection-basierten Abfluss von Geheimnissen.
Richtlinienbasierter Zugriff. Die Autorisierung prüft bei jeder Operation Identität des Agenten, Klassifizierung der Daten und Kontext der Anfrage gegen die Richtlinie – nicht nur zu Sitzungsbeginn. Attributbasierte Zugriffskontrollen (ABAC) steuern komplexe Logik, die rollenbasierte Ansätze nicht abbilden können.
Validierte Verschlüsselung. Daten im ruhenden Zustand und während der Übertragung werden mit FIPS 140-3 validierten kryptografischen Modulen geschützt – nicht nur mit einfachem TLS. Das erfüllt Anforderungen von Behörden und regulierten Branchen für menschlichen und KI-Agenten-Zugriff.
Manipulationssichere Audit-Logs. Jede KI-Interaktion erzeugt einen normalisierten Audit-Log-Eintrag, der in Echtzeit an SIEM gestreamt wird. Wenn ein Regulator einen Nachweis verlangt, gibt es einen Bericht – keine Untersuchung. Der Agent übernimmt die Berechtigungen des Nutzers und kann diese nicht überschreiten, egal welche Anweisungen über kompromittierte Inhalte eingehen.
So setzt Kiteworks Data-Layer Governance für KI-Agenten um
Der Kiteworks Secure MCP Server und das AI Data Gateway sitzen zwischen KI-Systemen und Unternehmensdaten und erzwingen Governance auf Datenebene – unabhängig davon, welches Modell, Framework oder Orchestrierungslayer die Anfrage auslöst.
Der Secure MCP Server ermöglicht LLM-Anwendungen wie Claude und Microsoft Copilot den Zugriff auf Unternehmensdaten über das branchenübliche Model Context Protocol. Jede Operation wird durch OAuth 2.0-Authentifizierung gesteuert, Zugangsdaten werden in OS-Keychains gespeichert und nie im LLM-Kontext offengelegt – ein direkter Schutz vor Prompt-Injection-basiertem Abfluss von Geheimnissen. ABAC-Policies prüfen jede Datei-, Ordner- und Formularoperation in Echtzeit. Rate Limiting verhindert Massenausleitungen. TLS-Validierung, Pfadüberprüfungen und integrierte Audit-Logs liefern die Nachweise, die Regulatoren verlangen.
Das AI Data Gateway bietet eine programmatische Entsprechung für RAG-Pipelines und automatisierte Workflows. Jede Abrufanfrage wird authentifiziert, gegen ABAC-Policies autorisiert und protokolliert, bevor Inhalte zurückgegeben werden – plattformunabhängig, ohne Vendor-Lock-in. Die gleichen Governance-Kontrollen gelten für menschliche Anwender, Service-Accounts und KI-Agenten.
Das Kiteworks Private Data Network erweitert diese Architektur auf alle Kanäle des Datenaustauschs – E-Mail, Filesharing, SFTP, Managed File Transfer, Web-Formulare, APIs – unter einer Policy Engine und einem konsolidierten Audit-Log. Mit 51% der Unternehmen, die KI-Agenten produktiv einsetzen, und 55%–63%, denen laut Kiteworks Prognose 2026 Eindämmungsmaßnahmen fehlen, ist die Lücke zwischen Deployment-Tempo und Governance-Reife das größte ungemanagte Risiko im Enterprise-AI-Portfolio. Governance auf Datenebene schließt diese Lücke.
Was Unternehmen vor der nächsten Offenlegung tun sollten
Erstens: Erfassen Sie jede KI-Integration, die mit sensiblen Daten arbeitet. Jedes Tool mit KI-Funktion, das unzuverlässige Eingaben liest und auf regulierte Inhalte zugreift, muss inventarisiert werden. Beginnen Sie mit Plattformen, die in den letzten 18 Monaten KI-Funktionen erhalten haben – hier fehlt oft ein Bedrohungsmodell.
Zweitens: Behandeln Sie Modell-Guardrails nicht als Compliance-Nachweis. Laut NIST AI Risk Management Framework und OWASP Top 10 für LLM-Anwendungen sind Kontrollen auf Modellebene notwendig, aber nicht ausreichend. Fordern Sie Enforcement auf Datenebene für jedes KI-System mit Zugriff auf regulierte Daten.
Drittens: Schließen Sie die Eindämmungslücke. Zweckbindung stellt sicher, dass ein Agent nur für die ihm zugewiesene Aufgabe autorisiert ist. Not-Aus-Schalter ermöglichen es Sicherheitsteams, fehlverhaltende Agenten sofort zu stoppen. Netzwerkisolation begrenzt, wohin ein Agent Daten senden kann. Laut Kiteworks Prognose 2026 fehlen 55%–63% der Unternehmen diese grundlegenden Kontrollen – jede Maßnahme ist ein Quartalsprojekt, das eine Risikoklasse schließt.
Viertens: Fordern Sie kryptografische Identität für jeden KI-Agenten. Statische Service-Accounts und geteilte OAuth-Tokens reichen für autonome Akteure nicht aus. Jeder Agent sollte eine verifizierte Identität besitzen, die kryptografisch mit dem menschlichen Autorisierer verknüpft ist. Der Audit-Trail, der HIPAA-Anforderungen an autorisiertes Personal und CMMC-Zugriffssteuerung erfüllt, darf nicht bei einem Service-Account-Namen enden.
Fünftens: Testen Sie Ihre KI-Integrationen gezielt gegen indirekte Prompt Injection mit bekannten Mustern aus dem OWASP Top 10 für LLM-Anwendungen und dem AgentDojo-Benchmark. GrafanaGhost wurde von Forschenden entdeckt, nicht vom Security-Team von Grafana. Wenn Ihr Unternehmen seine KI-Integrationen nicht aktiv auf diese Schwachstellenklasse prüft, überlassen Sie die Entdeckung dem Zufall.
Die Geschwindigkeit der Offenlegungen steigt. Ob der Schutz Ihrer regulierten Daten davon abhängt, dass das Modell wie beabsichtigt funktioniert – oder auf Kontrollen basiert, die auch bei Abweichungen greifen – ist die wichtigste Architekturentscheidung für Ihr Security-Programm im Jahr 2026.
Erfahren Sie mehr über KI-Datengovernance und den Schutz Ihrer sensibelsten Daten – vereinbaren Sie jetzt eine individuelle Demo.
Häufig gestellte Fragen
Indirekte Prompt Injection ermöglicht es Angreifern, versteckte Anweisungen in Webseiten, PDFs oder E-Mails einzubetten. Lesen Ihre Agenten diese Inhalte, können sie auf Kundenportfolios zugreifen, Kontodaten abrufen oder Datensätze an Ziele unter Kontrolle der Angreifer senden – ganz ohne Malware oder verdächtige Logins, die Alarme auslösen. Laut Kiteworks Prognose 2026 fehlen 55%–63% der Unternehmen Zugriffs- und Eindämmungskontrollen für KI-Agenten; so sind SEC- und FINRA-regulierte Daten direkt dieser Angriffsklasse ausgesetzt.
Safety-Training ist keine Durchsetzung. NeurIPS-Forschung zeigt Jailbreak-Erfolgsraten von nahezu 100% bei führenden LLMs, und ein einziges Schlüsselwort umging die Verteidigung von Grafana im Fall GrafanaGhost. HIPAA verlangt protokollierte Durchsetzungsentscheidungen, die autorisiertem Personal zugeordnet sind – nicht Konfiguration. Ein Regulator akzeptiert nicht „das Modell wurde angewiesen, es nicht zu tun“ als Ersatz für eine protokollierte Zugriffskontrollentscheidung.
Konformes RAG verlangt Authentifizierung bei jeder Abrufanfrage, ABAC-Policy-Prüfung gegen die Berechtigungen des authentifizierten Nutzers, FIPS 140-3 validierte Verschlüsselung und ein manipulationssicheres Audit-Log. Das Kiteworks AI Data Gateway liefert diese Architektur – jede KI-Abfrage wird auf Datenebene gesteuert, unabhängig vom Modell, mit vollständiger Attribution in Echtzeit an SIEM gestreamt.
CMMC Level 2 Access-Control-Familien verlangen durchgesetzte Autorisierung und Audit für jeden Zugriff auf CUI – auch durch KI-Agenten. Laut Kiteworks Prognose 2026 sehen sich nur 46% der DIB-Unternehmen als CMMC-bereit. Governance auf Datenebene mit ABAC-Enforcement, FIPS 140-3 Verschlüsselung und manipulationssicheren Logs erfüllt AC-, AU- und IA-Kontrollfamilien gleichzeitig für menschlichen und KI-Zugriff.
Starten Sie mit dem OWASP Top 10 für LLM-Anwendungen und dem AgentDojo-Benchmark – beide sind öffentlich verfügbar. Inventarisieren Sie jede KI-Funktion, die in den letzten 18 Monaten zu bestehenden Tools hinzugefügt wurde. Liest eine KI-Funktion unzuverlässige Eingaben, greift auf sensible Daten zu und initiiert ausgehende Anfragen, ist Governance auf Datenebene erforderlich. Der Secure MCP Server und das AI Data Gateway liefern die passende Architektur – die Inventarisierung ist der erste Schritt.
Weitere Ressourcen
- Blogbeitrag
Zero‑Trust-Strategien für bezahlbaren KI-Datenschutz - Blogbeitrag
Wie 77% der Unternehmen bei KI-Datensicherheit versagen - eBook
AI Governance Gap: Warum 91% kleiner Unternehmen 2025 russisches Roulette mit Datensicherheit spielen - Blogbeitrag
Es gibt kein „–dangerously-skip-permissions“ für Ihre Daten - Blogbeitrag
Regulatoren fragen nicht mehr, ob Sie eine KI-Policy haben. Sie wollen den Nachweis, dass sie funktioniert.
Häufig gestellte Fragen
Angreifer betten versteckte Anweisungen in Webseiten, Dokumente und E-Mails ein. KI-Agenten, die diese Inhalte durchsuchen, zusammenfassen oder verarbeiten, lesen die Anweisungen aus und führen sie aus. Das führt zu Datenabfluss, Preisgabe von Zugangsdaten und ausgehenden Anfragen an Server unter Kontrolle der Angreifer – ganz ohne Phishing-Links, Malware oder verdächtige Logins.
Liest ein KI-Agent Angreiferanweisungen und agiert über eigene legitime Kanäle, sieht der Datenabfluss wie normales KI-Verhalten aus. Aus Sicht des Security-Stacks agiert die KI wie vorgesehen, daher wird keine Anomalie erkannt.
Systemprompts lassen sich überschreiben und Sicherheitsfilter umgehen. Peer-Reviewte Studien zeigen Jailbreak-Erfolgsraten von nahezu 100% bei führenden LLMs. Diese Kontrollen sind Konfigurationseinstellungen, keine durchsetzbaren Sicherheitsmaßnahmen, die Audits für HIPAA, CMMC, PCI oder SOX bestehen.
Verlagern Sie die Durchsetzung in die Datenebene, indem jede KI-Anfrage authentifiziert, in Echtzeit gegen attributbasierte Zugriffskontrollen geprüft und mit voller Attribution protokolliert wird, bevor Daten zurückgegeben werden. So kann der Agent keine Daten exfiltrieren, für die er nie eine Leseberechtigung hatte – selbst wenn das Modell kompromittiert ist.