Home > Sicherheits- und Compliance-Blog > Unkategorisiert > Wenn die Leitplanke versagt: KI-Codierungstools und die Frage der Datenschicht

Wenn die Leitplanke versagt: KI-Codierungstools und die Frage der Datenschicht

von Patrick Spencer updated 1. Juni 2026 Cybersecurity-Risikomanagement

Lesezeit: 8 Minuten

Es gab keine Pressekonferenz. Kein offizielles Schreiben zum Datenschutzverstoß. Eine Schwachstelle in einem weit verbreiteten KI-Coding-Assistenten — die laut Forschern mit Prompt Injection kombiniert werden kann, um Daten aus Umgebungen zu extrahieren, die eigentlich geschützt sein sollten — wurde still und leise behoben, und die Welt machte einfach weiter. Das Problem war eine SOCKS5-Hostname-Null-Byte-Injektion in der Netzwerksandbox des Tools — eine Schwachstelle, die ausgehenden Datenverkehr an der vorgesehenen Allowlist vorbeischleusen ließ. Es gab keine CVE und keinen Eintrag in den Release Notes.

Gerade diese Stille ist bemerkenswert. KI-Tools, die Ihre Dateien lesen, Befehle ausführen und auf Ihre Repositorys zugreifen, sind heute allgegenwärtig. Die Vertrauensgrenze zwischen dem Assistenten, der seine Arbeit macht, und dem Assistenten, der im Sinne eines Angreifers agiert, ist dünner, als die meisten Unternehmen zugeben. Die entscheidende Frage ist nicht, ob dieser Bug behoben wurde — das wurde er. Entscheidend ist, wie Ihre Verteidigung aussieht, wenn der nächste Bug nicht behoben wird.

Table of Contents

5 Wichtige Erkenntnisse

1. Eine still behobene Sandbox-Umgehung ist ein Vorgeschmack, kein Einzelfall.

Ein Sandbox-Escape eines KI-Coding-Tools, kombiniert mit Prompt Injection, öffnete einen Weg zur Datenexfiltration — still behoben, ohne CVE, ohne Release Note. Die Reparatur stellte die Grenze wieder her, die zuvor versagt hatte. Die meisten Unternehmen haben dahinter keine zweite Verteidigungslinie. Der nächste Exploit kündigt sich nicht an. Wenn die einzige Verteidigung die Schicht ist, die gerade versagt hat, steht das im ersten Satz des Incident-Reports.

2. Guardrails auf Modellebene versagen als Kategorie.

Eine Studie mit fast 15.000 individuellen KI-Assistenten zeigte, dass über 95% nicht ausreichend geschützt sind, 96,51% sind anfällig für Manipulation durch Rollenspiel. Systemprompts, Filter und Sandboxes steuern das Verhalten auf einer Ebene, auf der Regeln verhandelbar sind — und Forscher finden immer wieder Eingaben, mit denen Modelle ihre Vorgaben ignorieren. Ein intelligenterer Prompt bleibt ein Prompt. KI-Governance muss dort greifen, wo die Überzeugungskraft des Modells nicht mehr wirkt.

3. Compliance regelt den Datenzugriff, nicht den Akteur.

HIPAA, CMMC, DSGVO und PCI DSS regeln, wer auf Daten zugreifen darf und ob Sie das nachweisen können. Es spielt keine Rolle, ob ein Mensch oder ein KI-Agent die Aktion ausführt. Governance ist damit eine Aufgabe auf Datenebene. Ob der Zugriff autorisiert, verschlüsselt und protokolliert wurde — das sind Fragen auf Datenebene, nicht auf Modellebene.

4. Ihre bestehenden Tools sind blind für KI-Agenten.

DLP, WAF und EDR wurden entwickelt, um menschliche Aktivitäten zu überwachen. Ein autorisierter Agent, der genehmigte API-Aufrufe macht, passt nicht in deren Prüfmodelle. Ein kompromittiertes KI-Tool, das Daten exfiltriert, sieht für all diese Tools aus wie ein KI-Tool, das seine Arbeit macht. Die Wahrheit ist nur auf der Datenebene sichtbar. 60% der Unternehmen verfügen laut Kiteworks Prognose 2026 nicht über KI-spezifische Anomalieerkennung.

5. Erzwingen Sie Schutz auf der Datenebene: Ein getäuschtes Modell erreicht nie, was es nie hätte erreichen dürfen.

Attributbasierte Zugriffskontrollen und manipulationssichere Audit-Logs bei jeder KI-Datenanfrage machen ein manipuliertes Modell zu einem kontrollierten. Die Policy Engine — nicht das Wohlverhalten des Modells — entscheidet. Nur 43% der Unternehmen verfügen laut Kiteworks Prognose 2026 über ein zentrales AI Data Gateway — die übrigen 57% haben keinen Kontrollpunkt, der einen Modellkompromiss übersteht.

Sie vertrauen darauf, dass Ihr Unternehmen sicher ist. Aber können Sie es nachweisen?

Jetzt lesen

Was tatsächlich geschah: Sandbox-Umgehung trifft Prompt Injection

Lässt man die Produktnamen weg, sind die Mechanismen einfach: Ein KI-Coding-Tool läuft in einer Sandbox — einer Grenze, die es an seine Aufgabe binden soll. Forscher fanden einen Weg, diese Grenze zu umgehen. Entscheidend ist der zweite Teil: Die Schwachstelle ließ sich mit Prompt Injection kombinieren.

Bei Prompt Injection versteckt ein Angreifer Anweisungen in Inhalten, die die KI liest — etwa in einem Code-Kommentar, einer Datei, einer Webseite oder einem Support-Ticket — sodass das Modell feindliche Eingaben als legitimen Befehl behandelt. Kombiniert man Prompt Injection mit einer Sandbox-Umgehung, entsteht ein vollständiger Angriffsweg: Schädliche Anweisung rein, die Grenze, die die Aktion hätte stoppen sollen, ist weg, und die Daten verlassen das System über einen Kanal, der wie normaler Tool-Verkehr aussieht. Kein Schritt für sich ist exotisch. Die Gefahr entsteht durch das nahtlose Zusammenspiel.

Der Anbieter hat gepatcht — gut. Doch beachten Sie, was der Fix war: eine Reparatur der Grenze, die versagt hatte. Verteidigung und Schwachstelle lagen am selben Ort. Wenn dieser Ort bricht, gibt es keine zweite Linie. Dieses Muster lässt sich verallgemeinern, denn es betrifft nicht nur ein Tool oder einen Anbieter.

Die Ebene, auf der Guardrails leben, ist die Ebene, die immer wieder versagt

Die meisten KI-Sicherheitsmaßnahmen finden heute auf Modellebene statt: Systemprompts, Verhaltensrichtlinien, Inhaltsfilter, Sandbox-Grenzen. Sie sind nützlich, aber als Kategorie umgehbar — und das nicht nur gelegentlich. Eine Studie mit fast 15.000 individuellen KI-Assistenten zeigte, dass über 95% nicht ausreichend geschützt sind, 96,51% sind anfällig für Rollenspiel-Manipulation und 92,20% für Systemprompt-Leakage. Jede große Plattform, die Prompt-Injection-Schutz eingeführt hat, musste beobachten, wie Forscher diese umgehen.

Das ist kein Vorwurf an einen bestimmten Anbieter. Es ist ein strukturelles Problem, wenn man Verhalten auf einer Ebene steuern will, auf der Regeln verhandelbar sind. Ein Prompt kann aus seinen Vorgaben herausargumentiert werden. Der CrowdStrike 2026 Global Threat Report dokumentierte einen Anstieg KI-gestützter Angreiferaktivitäten um 89% im Jahresvergleich und stellte fest, dass 82% der Erkennungen ohne Malware erfolgten — Angreifer missbrauchen zunehmend legitimen Zugriff, statt erkennbare Tools einzuschleusen. Ein KI-Agent mit weitreichendem, unkontrolliertem Zugriff ist genau dieser legitime Zugang, den Angreifer ausnutzen.

Die Frage liegt auf der Hand: Welche Kontrolle lässt sich nicht aushebeln? Die Antwort ist kein intelligenterer Prompt. Die Antwort muss dort liegen, wo die Überzeugungskraft des Modells nicht mehr wirkt.

Steuern Sie die Daten, nicht das Modell

Verlagern Sie die Durchsetzung von Regeln weg vom Modell auf die Daten selbst. Das Modell kann kompromittiert, manipuliert oder ersetzt werden. Die Regel, wer auf bestimmte regulierte Daten zugreifen darf, muss nicht im Modell selbst leben. Sie kann an dem Punkt greifen, an dem auf die Daten zugegriffen wird — unabhängig davon, wozu das Modell verleitet wurde.

Jede Compliance-Vorgabe regelt den Datenzugriff. HIPAA, CMMC, DSGVO, PCI DSS — sie bestimmen, ob der Zugriff autorisiert, die Daten verschlüsselt, die Interaktion protokolliert wurde und ob dies nachweisbar ist. Eine Kontrolle auf Modellebene beantwortet: Kann ich das Modell zu Fehlverhalten überreden? Eine Kontrolle auf Datenebene stellt eine andere Frage: Unabhängig davon, was das Modell anfordert, ist dieser Zugriff für diesen Anfragenden jetzt erlaubt? Die erste Frage wurde von Forschern immer wieder mit Ja beantwortet. Die zweite Frage ist unabhängig vom Modell.

Nur 43% der Unternehmen verfügen über ein zentrales AI Data Gateway, 60% haben keine KI-spezifische Anomalieerkennung, 63% können keine Zweckbindung für Agenten durchsetzen und 60% können einen fehlverhaltenden Agenten nicht beenden — laut Kiteworks Prognose 2026. Der Hunger nach KI ist universell. Die Fähigkeit, sie zu kontrollieren, nicht.

Warum DLP, WAF und EDR einen kompromittierten Agenten nicht erkennen

Die meisten Security-Stacks in Unternehmen sind darauf ausgelegt, menschliches Verhalten zu überwachen. Ein KI-Agent verhält sich nicht wie ein Mensch, und genau in dieser Lücke versteckt sich ein kompromittierter Agent. DLP wurde darauf trainiert, zu erkennen, wenn jemand eine Tabelle an ein privates Konto mailt. Ein autorisierter Agent, der eine genehmigte API-Anfrage stellt, löst keinen Alarm aus. WAFs prüfen eingehenden menschlichen Traffic, nicht den maschinellen Workflow eines Agenten. EDR überwacht Prozesse und Binärdateien auf einem Gerät, nicht den semantischen Inhalt einer autorisierten Integration.

Diese blinden Flecken zusammengenommen: Ein kompromittiertes KI-Tool, das Daten exfiltriert, sieht für all diese Tools aus wie ein KI-Tool, das seine Arbeit macht. Die Exfiltration tarnt sich nicht als Malware, weil es keine Malware gibt. Der Traffic ist genehmigt, authentifiziert und auf Netzwerkebene autorisiert. Die Wahrheit ist nur auf der Datenebene sichtbar — im Protokoll, was tatsächlich angefordert und geliefert wurde.

Durchsetzung, die das Modell nicht aushebeln kann

Der Kiteworks Secure MCP Server verbindet KI-Assistenten über das Model Context Protocol mit Unternehmensinhalten, aber jede Anfrage wird vor der Datenfreigabe durch attributbasierte Zugriffskontrollen geprüft. Der Agent erhält exakt den Kontext, den seine Aufgabe erfordert — nicht mehr. Wenn Prompt Injection das Modell zu einer unzulässigen Anfrage verleitet, entscheidet die Policy Engine — nicht das Wohlverhalten des Modells. Die Anfrage wird authentifiziert, dem Menschen zugeordnet, der sie autorisiert hat, anhand der Datenklassifizierung und Agentenidentität geprüft und nur unter FIPS 140-3-validierter Verschlüsselung ausgeliefert. Keine dieser Entscheidungen verlässt sich auf das Modell — sie greifen unabhängig davon, ob das Modell sich korrekt verhält.

Jede Anfrage, ob genehmigt oder abgelehnt, wird in einem manipulationssicheren Audit-Log erfasst, das direkt in das Monitoring der Security-Teams eingespeist wird. Statt DLP oder Firewalls zu bitten, Agentenfehlverhalten zu erkennen, das sie nie sehen sollten, existiert der Nachweis jeder Agenten-Dateninteraktion bereits auf der Ebene, auf der der Zugriff stattfand — zugeordnet, mit Zeitstempel, in Echtzeit an SIEM gestreamt. Das AI Data Gateway erweitert dies auf RAG-Pipelines. Das Kiteworks Private Data Network erstreckt sich über E-Mail, Filesharing, Managed File Transfer, SFTP, Web-Formulare und APIs — eine Policy Engine, ein zentrales Audit-Log.

Was Teams beim Einsatz von KI jetzt tun müssen

Erstens: Erfassen Sie alle KI-Zugriffswege. Listen Sie jeden Assistenten, Copilot und Agenten auf, der Unternehmensinhalte lesen oder bewegen kann — auch die, die ohne Wissen der Security-Abteilung eingerichtet wurden. Sie können nur steuern, was Sie sehen.

Zweitens: Verlegen Sie die Durchsetzung auf die Datenebene. Behandeln Sie das Modell standardmäßig als nicht vertrauenswürdig und treffen Sie die Zugriffsentscheidung dort, wo ein manipuliertes Modell keinen Einfluss hat. Nur 43% der Unternehmen verfügen laut Kiteworks Prognose 2026 über ein zentrales AI Data Gateway — den Kontrollpunkt, an dem Zugriffsentscheidungen auch bei kompromittiertem Modell Bestand haben.

Drittens: Erzwingen Sie Least Privilege und Zweckbindung für jeden Agenten. 63% der Unternehmen können heute keine Zweckbindung durchsetzen — die meisten Agenten agieren ohne klar definierten Rahmen und können sofort umgelenkt werden.

Viertens: Protokollieren Sie jede KI-Dateninteraktion in einer manipulationssicheren Spur. Ordnen Sie die Anfrage dem Menschen zu, der den Agenten autorisiert hat, und streamen Sie den Nachweis an SIEM. Wenn ein Auditor fragt, auf welche Daten ein Agent zugegriffen hat, muss die Antwort bereits vorliegen.

Fünftens: Schaffen Sie eine Containment-Kontrolle, die Sie sofort auslösen können. 60% der Unternehmen können laut Kiteworks Prognose 2026 einen fehlverhaltenden Agenten nicht beenden. Die Fähigkeit, einen Agenten in Sekunden zu stoppen, entscheidet zwischen Vorfall und Datenschutzverstoß. Diese Entscheidung ist architektonisch — und das Einzige, was ein Angreifer nicht aushebeln kann.

Erfahren Sie mehr über den Schutz sensibler Inhalte vor KI-gesteuerten Workflows — vereinbaren Sie heute eine individuelle Demo.

Häufig gestellte Fragen

Prompt Injection versteckt schädliche Anweisungen in Inhalten, die eine KI liest — etwa in einer Datei, einem Code-Kommentar oder einer Webseite — sodass das Modell feindliche Eingaben als legitimen Befehl behandelt. Kombiniert mit einer Sandbox-Umgehung kann die KI so Daten außerhalb ihres autorisierten Bereichs auslesen oder exfiltrieren. Studien zeigen, dass die große Mehrheit individueller KI-Assistenten für diese Angriffsart anfällig ist.

Eine Sandbox beschränkt ein KI-Tool auf seine zugewiesene Aufgabe. Eine Umgehung erlaubt es, diese Grenze zu überschreiten. Besonders gefährlich wird es in Kombination mit Prompt Injection: Ein Angreifer kann das KI-Tool sowohl zu Fehlverhalten anleiten als auch die Kontrolle entfernen, die die Aktion gestoppt hätte — so wird aus einer Containment-Schwachstelle ein Weg zur Datenexfiltration. Genau diese Kette ermöglichte die kürzlich behobene Schwachstelle.

Guardrails auf Modellebene steuern das Verhalten auf einer Ebene, auf der Regeln verhandelbar sind — Angreifer finden daher immer wieder Eingaben, mit denen sie Modelle zu Regelverstößen bringen. Laut einer Studie mit 15.000 Systemen waren 96,51% der individuellen KI-Assistenten für Rollenspiel-Manipulation anfällig. 60% der Unternehmen verfügen laut Kiteworks Prognose 2026 nicht über KI-Anomalieerkennung. Wenn Guardrails versagen, gibt es oft keine weitere Absicherung — daher sind Zugriffskontrollen auf Datenebene als zweite Verteidigungslinie unerlässlich.

Daten-Governance setzt Zugriffsregeln an dem Punkt durch, an dem Daten abgerufen werden — unabhängig vom Modell oder Prompt. Jede Anfrage wird authentifiziert, anhand von Richtlinien zu Datenklassifizierung und Agentenidentität geprüft und protokolliert. Nur 43% der Unternehmen betreiben laut Kiteworks Prognose 2026 ein zentrales AI Data Gateway. Der Secure MCP Server und das AI Data Gateway bieten diesen Kontrollpunkt.

In der Regel nicht. DLP, WAFs und EDR überwachen menschlich initiierte Datenbewegungen — ein autorisierter KI-Agent, der genehmigte API-Aufrufe macht, passt nicht in diese Modelle. 60% der Unternehmen verfügen laut Kiteworks Prognose 2026 nicht über KI-Anomalieerkennung. Transparenz erfordert manipulationssichere Audit-Logs auf Datenebene, wo jede Agenten-Anfrage und deren Policy-Ergebnis unabhängig vom eingesetzten Tool erfasst werden.

Weitere Ressourcen

Blogbeitrag
Zero‑Trust-Strategien für erschwinglichen KI-Datenschutz
Blogbeitrag
Wie 77% der Unternehmen bei KI-Datensicherheit versagen
eBook
AI Governance Gap: Warum 91% kleiner Unternehmen 2025 russisches Roulette mit Datensicherheit spielen
Blogbeitrag
Es gibt kein „–dangerously-skip-permissions“ für Ihre Daten
Blogbeitrag
Aufsichtsbehörden fragen nicht mehr, ob Sie eine KI-Policy haben. Sie wollen den Nachweis, dass sie funktioniert.