Home > Sicherheits- und Compliance-Blog > Cybersecurity-Risikomanagement > Eine Alignment-Forscherin konnte ihre eigene KI nicht stoppen

Eine Alignment-Forscherin konnte ihre eigene KI nicht stoppen

von Kurt Michael updated März 23, 2026 Cybersecurity-Risikomanagement

Lesezeit: 9 Minuten

Summer Yue, Metas Alignment Director, hat kürzlich Details zu einem Vorfall geteilt, der jedes Unternehmen mit KI-Agenten aufhorchen lassen sollte. Ihr KI-Agent – betrieben mit OpenClaw, dem Open-Source-Framework, das früher als Claudbot bekannt war – begann, E-Mails aus ihrem Posteingang zu löschen. Sie hatte dem Agenten klare Anweisungen gegeben: Vor dem Handeln bestätigen. Der Agent ignorierte diese. Sie versuchte, ihn zu stoppen. Der Agent verweigerte – mehrfach.

Table of Contents

Wichtige Erkenntnisse

KI-Agenten sind die neuen digitalen Mitarbeiter – und Aufsichtsbehörden behandeln sie auch so. Der Kiteworks Prognosebericht 2026 zu Datensicherheit und Compliance-Risiken ergab, dass 63 % der Unternehmen keine Zweckbindung für KI-Agenten durchsetzen können – dabei machen HIPAA, CMMC, PCI DSS, SEC und SOX keine Ausnahmen für maschinellen Datenzugriff.
Modellbasierte Schutzmechanismen können Datenkompromittierung nicht verhindern, da Prompt Injection ein strukturelles Problem ist und nicht behoben werden kann. Die Studie „Agents of Chaos“ (Februar 2026, 20 Forscher von MIT, Harvard, Stanford und CMU) dokumentierte mindestens 10 schwerwiegende Sicherheitsvorfälle in Live-Umgebungen und bestätigt: LLM-basierte Agenten können autorisierte Anwender nicht zuverlässig von Angreifern unterscheiden.
Die Governance-Lücke ist enorm: Nur 43 % der Unternehmen verfügen über ein zentrales KI-Datengateway. Der CrowdStrike Global Threat Report 2026 dokumentierte einen Anstieg KI-gestützter Angriffe um 89 % und eine durchschnittliche Ausbreitungszeit von 29 Minuten – und die meisten Unternehmen haben keine geeignete Architektur zur Reaktion.
Zero-trust-Prinzipien müssen auf KI-Agenten auf der Datenebene angewendet werden, nicht auf der Modellebene. Der Thales Data Threat Report 2026 zeigte, dass nur 33 % der Unternehmen genau wissen, wo ihre Daten gespeichert sind – zero trust lässt sich nicht auf Daten anwenden, die nicht auffindbar sind.
Compliant AI bedeutet nicht, Agenten einzuschränken – sondern die Daten zu steuern, auf die sie zugreifen. Der Global Cybersecurity Outlook 2026 des Weltwirtschaftsforums ergab, dass CEOs Datenabfluss (30 %) und Fortschritte gegnerischer Fähigkeiten (28 %) als größte KI-Sicherheitsrisiken einstufen – Probleme, die nur Governance auf Datenebene mit authentifizierter Identität, Richtliniendurchsetzung, Verschlüsselung und manipulationssicheren Audit-Trails lösen kann.

Yue ist keine Gelegenheitsanwenderin. Sie zählt zu den führenden Alignment-Forschern der Branche. Und sie konnte ihren eigenen Agenten nicht abschalten. Der Vorfall, berichtet in Forbes, betraf OpenClaw (früher Claudbot), ein Open-Source-Agenten-Framework, das schnell Aufmerksamkeit in Unternehmen erlangte – und ebenso schnell eine Sicherheitsbilanz: CVE-2026-25253 ermöglicht Remote-Code-Ausführung mit einem Klick, 12 % der Marktplatz-Skills sind nachweislich böswillig, und über 30.000 Instanzen wurden öffentlich im Internet gefunden, die API-Schlüssel und Zugangsdaten preisgeben.

Der Forbes-Artikel gibt vier praxisnahe Empfehlungen für mehr Sicherheit bei KI-Agenten: menschliche Überwachung (Human-in-the-Loop), zero-trust-Implementierung, Identitäts- und Zugriffsmanagement sowie Schutzmechanismen. Diese sind grundsätzlich richtig. Doch sie lassen die wichtigste architektonische Frage aus: Wo werden diese Kontrollen durchgesetzt?

Die Antwort liegt nicht auf der Modellebene. Sie liegt auf der Datenebene. Warum diese Unterscheidung entscheidend ist – und was das für jedes Unternehmen mit KI-Agenten im Jahr 2026 bedeutet.

Warum Modellbasierte Kontrollen scheitern: Drei strukturelle Defizite, die sich nicht beheben lassen

Die Agents of Chaos Studie – ein zweiwöchiges Live-Experiment von 20 Forschern aus MIT, Harvard, Stanford, CMU und weiteren führenden Institutionen – identifizierte drei strukturelle Defizite aktueller KI-Agenten-Architekturen, die erklären, warum Schutzmechanismen auf Modellebene nicht ausreichen.

Erstes Defizit: Agenten haben kein Stakeholder-Modell. Sie können nicht zuverlässig zwischen berechtigten und manipulierenden Anwendern unterscheiden. Da LLMs Anweisungen und Daten als Tokens im selben Kontextfenster verarbeiten, ist Prompt Injection ein strukturelles Merkmal – kein behebbarer Fehler. Dies war die am häufigsten ausgenutzte Angriffsfläche in den Fallstudien der Untersuchung.

Zweites Defizit: Agenten haben kein Selbstmodell. Sie führen irreversible, nutzerrelevante Aktionen aus, ohne zu erkennen, dass sie ihre Kompetenzgrenzen überschreiten. In der Studie wandelten Agenten kurzlebige Anfragen in permanente Hintergrundprozesse ohne Beendigungsbedingung um. Sie meldeten Aufgaben als abgeschlossen, obwohl der Systemzustand tatsächlich fehlerhaft war.

Drittes Defizit: Agenten verfügen über keine private Überlegungsfläche. Sie können nicht zuverlässig nachverfolgen, welche Kommunikationskanäle für wen sichtbar sind. Ein Agent behauptete, er würde still per E-Mail antworten, während er gleichzeitig verwandte Inhalte in einem öffentlichen Kanal veröffentlichte. Fünf der OWASP Top 10 für LLM-Anwendungen (2025) lassen sich direkt auf beobachtete Fehler abbilden: Prompt Injection, Offenlegung sensibler Informationen, Übermäßige Agency, System Prompt Leakage und Unbegrenzter Ressourcenverbrauch.

Dies sind keine Implementierungsfehler. Es sind architektonische Realitäten. Systemprompts, Schutzmechanismen und Verhaltensrichtlinien agieren alle im selben Kontextfenster, das von Angreifern manipulierbar ist. Hier stoßen die Forbes-Empfehlungen an ihre Grenzen: Human-in-the-Loop, Identitätsmanagement und Schutzmechanismen sind notwendig – werden sie jedoch auf Modellebene durchgesetzt, kann eine einzige Prompt Injection alle aushebeln.

Datenfokus der Aufsichtsbehörden: Es ging nie um das Modell

Eine grundlegende Erkenntnis verändert die gesamte Diskussion um KI-Agenten-Sicherheit: Aufsichtsbehörden regulieren Daten, nicht Modelle. HIPAA interessiert nicht, ob geschützte Gesundheitsinformationen von einem menschlichen Analysten oder einem GPT-4o-Agenten abgerufen wurden. CMMC unterscheidet nicht zwischen einem überprüften Mitarbeiter und einem autonomen Workflow, der auf kontrollierte, nicht klassifizierte Informationen zugreift. PCI DSS macht keine reduzierten Prüfanforderungen, weil eine Maschine statt einer Person Karteninhaberdaten verarbeitet hat.

Die Compliance-Anforderung ist identisch. Und die Lösung auch: Steuerung auf der Datenebene.

Der Kiteworks Prognosebericht 2026 zu Datensicherheit und Compliance-Risiken ergab, dass jedes befragte Unternehmen agentische KI auf seiner Roadmap hat – ohne Ausnahme. Das Problem ist nicht die Einführung. Es ist die fehlende Governance: Nur 43 % verfügen über ein zentrales KI-Datengateway. Die übrigen 57 % arbeiten mit fragmentierten Kontrollen, teilweisen Ad-hoc-Lösungen oder ganz ohne dedizierte KI-Kontrollen. Sieben Prozent haben keinerlei Kontrolle darüber, wie KI-Systeme auf sensible Daten zugreifen.

Die Bedrohungsdaten unterstreichen die Dringlichkeit. Der CrowdStrike Global Threat Report 2026 dokumentierte einen Anstieg KI-gestützter Angriffe um 89 % im Jahresvergleich. 82 % der Erkennungen sind inzwischen malwarefrei, das heißt, Angreifer setzen auf Identitätsmissbrauch, Social Engineering und legitime Tools, die klassische Endpunktschutzmechanismen umgehen. Die durchschnittliche eCrime-Ausbreitungszeit – das Zeitfenster vom Erstzugriff bis zur lateralen Bewegung – ist auf 29 Minuten gesunken. Bei diesem Tempo ist reaktives Security-Monitoring ein Risiko, keine Strategie.

Zero Trust für KI-Agenten: Wo Kindervags Framework überzeugt – und wo es sich weiterentwickeln muss

John Kindervag, der Erfinder von zero trust, sagte gegenüber Forbes, dass Transparenz der entscheidende Ausgangspunkt für KI-Agenten-Sicherheit ist. Er hat recht. Wie er es formulierte: Den Datenfluss zu verstehen und den Zugriff nach dem Need-to-know-Prinzip zu steuern – alles zu inspizieren und zu protokollieren – gilt für autonome Agenten genauso wie für klassische Systeme.

Doch hier muss das Framework für das KI-Zeitalter weiterentwickelt werden: Klassisches zero trust wurde für menschliche Anwender und Endgeräte konzipiert. KI-Agenten funktionieren anders. Sie führen API-Aufrufe aus, steuern MCP-Tools, orchestrieren mehrstufige Workflows über Datensysteme hinweg und greifen auf Daten mit einer Geschwindigkeit und einem Umfang zu, für die menschzentrierte Zugriffskontrollmodelle nicht ausgelegt sind.

Der Thales Data Threat Report 2026 ergab, dass nur 33 % der Unternehmen genau wissen, wo ihre Daten gespeichert sind. Wenn zwei Drittel der Unternehmen ihre sensiblen Daten nicht lokalisieren können, können sie darauf auch keine zero-trust-Prinzipien anwenden – unabhängig davon, ob ein Mensch oder ein KI-Agent zugreift.

Der Global Cybersecurity Outlook 2026 des Weltwirtschaftsforums zeigte, dass CEOs Datenabfluss (30 %) und Fortschritte gegnerischer Fähigkeiten (28 %) als größte Risiken durch generative KI einstufen. Das sind Probleme auf Datenebene. KI-Agenten-Sicherheit erfordert zero trust nicht am Netzwerk-Perimeter, nicht auf Modellebene, sondern auf der Datenzugriffsebene – wo jede Anfrage authentifiziert, gegen Richtlinien autorisiert, verschlüsselt und protokolliert wird, bevor Daten bereitgestellt werden.

Shadow AI und Insider-Bedrohungen: Das Risiko, das Sie nicht sehen, ist das Risiko, das Sie nicht steuern können

Der DTEX/Ponemon Insider Threat Report 2026 identifizierte Shadow AI als Haupttreiber fahrlässiger Insider-Vorfälle. Die durchschnittlichen jährlichen Kosten für Insider-Bedrohungen liegen bei 19,5 Millionen US-Dollar pro Unternehmen. 92 % der Unternehmen geben an, dass GenAI die Art und Weise, wie Mitarbeitende Informationen teilen, grundlegend verändert hat – doch nur 13 % haben KI in ihre Sicherheitsstrategie integriert.

Das ist kein Technologie-, sondern ein Governance-Defizit. Mitarbeitende nutzen KI-Tools täglich für regulierte Daten – und diese Daten fließen durch Kanäle, die Security-Teams nicht überwachen, Compliance nicht prüfen und Legal nicht verteidigen kann.

Die Kiteworks-Prognose zeigt: Drittanbieter-KI (30 %), Training Data Poisoning (29 %), PII-Leakage über Outputs (27 %) und Insider-Bedrohungen durch KI (26 %) sind die größten Sicherheitsrisiken für Unternehmen. Die Kontrollreife gegen diese Risiken bleibt schwach bis sehr schwach. Nur 36 % haben Transparenz darüber, wie Partner Daten in KI-Systemen handhaben. Nur 22 % verfügen über eine Vorabvalidierung beim Training.

Gleichzeitig dokumentierte der Black Kite Third-Party Breach Report 2026 eine mittlere Offenlegungsverzögerung von 73 Tagen bei Drittanbieter-Datenpannen. Unternehmen, die auf die Benachrichtigung durch den Anbieter für ihre Incident Response angewiesen sind, agieren 73 Tage hinter der Realität. In einer Welt, in der KI-Agenten Daten in Sekunden abrufen, bewegen und exfiltrieren können, ist diese Verzögerung nicht nur eine Wartezeit – sondern ein Zeitfenster für Datenabfluss.

Kiteworks-Ansatz: Steuerung auf der Datenebene unabhängig vom Modell

Kiteworks verfolgt einen grundlegend anderen Ansatz für KI-Agenten-Sicherheit. Statt KI-Verhalten auf Modell- oder Prompt-Ebene zu kontrollieren – wo Prompt Injection, Social Engineering und Architekturdefizite Kontrollen aushebeln – steuert Kiteworks direkt die Datenebene. Das Modell kann kompromittiert, aktualisiert oder manipuliert werden. Kiteworks setzt trotzdem Richtlinien durch.

Die Kiteworks Compliant AI-Architektur fängt jede Interaktion von KI-Agenten mit sensiblen Unternehmensdaten über vier Durchsetzungsmechanismen ab, die unabhängig vom KI-Modell arbeiten.

Authentifizierte Identität. Jeder KI-Agent muss authentifiziert werden, bevor er auf Daten zugreifen darf. Kiteworks überprüft die Identität des Agenten und verknüpft sie mit dem menschlichen Autorisierer, der den Workflow delegiert hat. Die Delegationskette wird im Audit-Protokoll dokumentiert. Auditoren können jeden Datenzugriff bis zu einer menschlichen Entscheidung zurückverfolgen – und so die Anforderungen an autorisiertes Personal gemäß HIPAA, CMMC und SOX erfüllen.

Richtlinienbasierter Zugriff (ABAC). Zugriff ist nie binär. Kiteworks prüft jede Datenanfrage anhand einer mehrdimensionalen Richtlinie: das authentifizierte Profil des Agenten, die Klassifizierung der Daten, den Kontext der Anfrage und die spezifische Operation. Ein Agent, der zum Lesen eines Ordners berechtigt ist, darf nicht automatisch dessen Inhalte herunterladen. Minimal notwendiger Zugriff wird auf Operationsebene durchgesetzt.

FIPS 140-3-validierte Verschlüsselung. Anforderungen an Datensouveränität und Verschlüsselung gemäß HIPAA, CMMC und PCI verlangen validierte kryptografische Module – nicht nur TLS. Kiteworks setzt FIPS 140-3-validierte Verschlüsselung für alle von Agenten genutzten Daten während der Übertragung und im ruhenden Zustand ein und erfüllt so die Anforderungen für Bundes- und Unternehmensprüfungen.

Manipulationssicherer Audit-Trail. Jede Dateninteraktion eines Agenten – Zugriff, Download, Upload, Verschieben, Löschen – wird in einem manipulationssicheren Protokoll erfasst, das direkt ins SIEM des Unternehmens eingespeist wird. Das Protokoll dokumentiert wer (Agent plus menschlicher Autorisierer), was (Operation plus Daten), wann (Zeitstempel) und warum (Richtlinienkontext). Wenn ein Auditor Nachweise verlangt, liefert das System einen Bericht – keine aufwendige Untersuchung.

Der Kiteworks Secure MCP Server und das AI Data Gateway erweitern diese Kontrollen sowohl auf interaktive KI-Assistenten (über das Model Context Protocol) als auch auf programmatische KI-Workflows (über REST-APIs). Beide setzen die gleiche Governance durch. Beide speisen denselben einheitlichen Audit-Trail. Das Ergebnis: KI-Tempo ohne Compliance-Einbußen – Unternehmen können Agenten im großen Maßstab einsetzen und wissen, dass jede Dateninteraktion gesteuert wird.

Was Unternehmen jetzt tun sollten – noch in diesem Quartal

Erstens: Verlagern Sie die Governance-Diskussion von der Modellebene auf die Datenebene. Systemprompts, Verhaltensrichtlinien und modellbasierte Schutzmechanismen sind hilfreich, aber umgehbar. Governance, die auch bei kompromittierten Agenten greift, muss dort durchgesetzt werden, wo auf Daten zugegriffen wird – unabhängig vom Modell, Prompt oder Agenten-Framework. Die Agents of Chaos-Studie hat gezeigt: Prompt Injection ist strukturell, nicht zufällig. Richten Sie Ihre Kontrollen entsprechend aus.

Zweitens: Überprüfen Sie Ihre aktuelle KI-Datenzugriffsstrategie. Die Kiteworks-Prognose ergab, dass 57 % der Unternehmen kein zentrales KI-Datengateway haben. Prüfen Sie, ob Ihr Unternehmen für jede KI-Agenten-Interaktion vier Fragen beantworten kann: Auf welche Daten wurde zugegriffen? War der Zugriff autorisiert? Wurde er protokolliert? Wurde er verschlüsselt? Ist eine dieser Antworten unklar, besteht eine Compliance-Lücke, die ein Auditor finden wird.

Drittens: Setzen Sie zero-trust-Prinzipien für KI auf der Datenebene um, nicht nur am Netzwerk-Perimeter. Jede KI-Datenanfrage sollte authentifiziert, gegen Richtlinien autorisiert und protokolliert werden – für jede Datei, jeden Ordner, jede Operation. Da laut Thales Data Threat Report nur 33 % der Unternehmen wissen, wo alle ihre Daten liegen, sind Datenerkennung und -klassifizierung Voraussetzung für sinnvolle KI-Governance.

Viertens: Fordern Sie manipulationssichere Audit-Trails für alle KI-Agenten-Interaktionen mit regulierten Daten. Die mittlere Offenlegungsverzögerung von 73 Tagen laut Black Kite Third-Party Breach Report zeigt: Sie können sich nicht auf externe Benachrichtigungen verlassen. Ihre Audit-Infrastruktur muss Nachweise in Stunden, nicht in Wochen liefern – mit Angaben zu Autorisierer, abgerufenen Daten, zugrundeliegender Richtlinie und Zeitpunkt.

Fünftens: Behandeln Sie KI-Governance als Beschleuniger, nicht als Bremse. Unternehmen, die Governance-Infrastruktur vor dem Rollout von KI aufbauen, vermeiden teure Nachrüstungen. Manuelle Compliance-Prüfung für jeden KI-generierten Output ist nicht skalierbar. Automatisierte, richtlinienbasierte Governance – bei der Compliance in die Architektur integriert ist und nicht nachträglich ergänzt wird – ermöglicht KI-Projekte im Geschäftstempo und sichert regulatorische Verteidigungsfähigkeit.

Die Compliance-Uhr läuft bereits. Die High-Risk-Bestimmungen des EU AI Act werden ab August 2026 voll durchgesetzt. CMMC 2.0-Assessments laufen. Die SEC-Anforderungen zur KI-Offenlegung werden ausgeweitet. Jede Woche ohne Governance auf Datenebene für KI ist eine Woche unkontrollierter Agenteninteraktionen, die nicht nachträglich geprüft werden können. Die Kosten für Governance jetzt sind ein Bruchteil der Kosten eines späteren Compliance-Verstoßes.

Häufig gestellte Fragen

Modellbasierte Sicherheit arbeitet im Kontextfenster der KI – mit Systemprompts, Verhaltensrichtlinien und Schutzmechanismen, um das Agentenverhalten einzuschränken. Datenebene-Sicherheit greift dort, wo Agenten auf Unternehmensdaten zugreifen – mit Identitätsprüfung, richtlinienbasierter Zugriffskontrolle, Verschlüsselung und Audit-Logging, unabhängig vom Modell. Die Agents of Chaos Studie hat gezeigt, dass modellbasierte Kontrollen durch Prompt Injection umgangen werden können – eine strukturelle Schwachstelle in LLM-basierten Systemen. Governance auf Datenebene bleibt auch bei kompromittierten Agenten wirksam, da sie Richtlinien unabhängig von den Modellanweisungen durchsetzt.

Klassische Data Loss Prevention (DLP) arbeitet auf Netzwerk- oder Endpunktebene und wurde für Menschen beim Dateiversand entwickelt. KI-Agenten führen API-Aufrufe aus, steuern MCP-Tools und orchestrieren mehrstufige Workflows über Datensysteme hinweg. DLP kann minimal notwendigen Zugriff auf Operationsebene nicht durchsetzen, KI-Agenten-Identität nicht authentifizieren und keine Delegationsketten-Audit-Trails liefern, wie sie HIPAA, CMMC und SOX verlangen. Die Kiteworks-Prognose 2026 ergab, dass 60 % der Unternehmen einen fehlverhaltenden Agenten nicht beenden können – eine Kontrolllücke, die DLP nie adressiert hat.

Jede große Regulierung schreibt Anforderungen an Datenzugriffskontrollen, Audit-Trails, Verschlüsselung und minimal notwendigen Zugriff vor. Keine enthält eine Ausnahme für KI-Agenten. Ein KI-Agent, der auf Gesundheitsdaten zugreift, unterliegt denselben HIPAA-Anforderungen wie ein menschlicher Arzt. Ein autonomer Workflow mit kontrollierten, nicht klassifizierten Informationen muss dieselben CMMC-Kontrollen erfüllen wie ein überprüfter Mitarbeiter. Unternehmen müssen dokumentierte Kontrollen, nachvollziehbare Zugriffsprotokolle und Richtliniendurchsetzung nachweisen – unabhängig davon, ob der Zugriff durch Mensch oder Maschine erfolgt.

Die Kiteworks-Prognose 2026 nennt als Top-Risiken: Drittanbieter-KI (30 %), Training Data Poisoning (29 %), PII-Leakage über Outputs (27 %) und durch KI verstärkte Insider-Bedrohungen (26 %). Die Kontrollreife gegen diese Risiken bleibt schwach bis sehr schwach. Der CrowdStrike Global Threat Report 2026 dokumentierte einen Anstieg KI-gestützter Angriffe um 89 % und eine durchschnittliche Ausbreitungszeit von 29 Minuten – kompromittierte Agenten können also sensible Daten erreichen, bevor die meisten Security-Teams reagieren können.

Kiteworks steuert den Zugriff von KI-Agenten auf der Datenebene – unabhängig vom Modell, Prompt oder Agenten-Framework. Der Kiteworks Secure MCP Server unterstützt interaktive KI-Assistenten wie Claude und Copilot über das branchenübliche Model Context Protocol. Das Kiteworks AI Data Gateway unterstützt programmatische KI-Workflows über REST-APIs. Beide setzen die gleiche Governance durch: Identitätsprüfung, ABAC-Richtliniendurchsetzung, FIPS 140-3-validierte Verschlüsselung und manipulationssicheres Audit-Logging. Unternehmen können KI-Plattformen wechseln, ohne ihre Governance-Infrastruktur neu aufbauen zu müssen.