Sicherheitsrisiken durch KI-Agents: 94 % der LLMs sind anfällig für Angriffe

Eine Forschungsstudie der Universität Kalabrien offenbart eine ernüchternde Realität: 94,1 % der populären großen Sprachmodelle (LLMs) weisen ausnutzbare Sicherheitslücken auf, wenn sie als KI-Agenten mit Systemzugriff eingesetzt werden. Für Unternehmen, die KI-Technologien schnell einführen, ist diese Forschung mehr als nur ein akademisches Thema – sie stellt ein kritisches Geschäftsrisiko dar, das sofortige Aufmerksamkeit erfordert. Während Unternehmen KI-Agenten zur Steigerung der Produktivität implementieren, schaffen sie unbeabsichtigt komplexe Angriffsvektoren, die von Bedrohungsakteuren bereits gezielt ausgenutzt werden.

Forschung verstehen: Was wurde getestet und warum ist es relevant?

Forschende der Universität Kalabrien und der IMT School for Advanced Studies führten die erste umfassende Sicherheitsbewertung von LLM-Agenten als potenzielle Angriffsvektoren durch. Im Gegensatz zu herkömmlichen Chatbots, die lediglich Textantworten generieren, verfügen LLM-Agenten über autonome Fähigkeiten, um Befehle auszuführen, Systemterminals zu nutzen, Informationen aus Wissensdatenbanken abzurufen und mit anderen Agenten zu kommunizieren.

Die Studie testete 17 hochmoderne LLMs – darunter GPT-4o, Claude-4 und Gemini-2.5 – anhand von drei unterschiedlichen Angriffsmethoden. Die Ergebnisse zeigten eine alarmierende Hierarchie der Verwundbarkeit: Nur ein Modell (Claude-4-Sonnet) widerstand allen Angriffsvektoren, was einer Erfolgsquote von lediglich 5,9 % für umfassende Sicherheit entspricht.

Diese Forschung markiert einen Paradigmenwechsel bei KI-Sicherheitsbedenken. Frühere Studien konzentrierten sich hauptsächlich auf Inhaltsmanipulation und Prompt Injection bei Textausgaben. Diese Untersuchung zeigt, dass KI-Agenten mit Systemzugriff für eine vollständige Übernahme von Computersystemen missbraucht werden können, während sie weiterhin einen normalen Betrieb vortäuschen. Lesen Sie das vollständige Forschungspapier für technische Details.

Die Auswirkungen gehen weit über theoretische Schwachstellen hinaus. Da bis Mitte 2025 über 70 % der KI-Einführungen in Unternehmen voraussichtlich Multi-Agenten- oder aktionsbasierte Systeme beinhalten, skalieren Organisationen Technologien, deren Sicherheitsrahmen grundlegend fehlerhaft bleibt.

wichtige Erkenntnisse

  1. 94 % Ausfallrate bei populären KI-Modellen Nur 1 von 17 getesteten LLMs (Claude-4-Sonnet) widerstand allen drei Angriffsvektoren. Das zeigt: Selbst führende KI-Plattformen von OpenAI, Google und Anthropic enthalten ausnutzbare Sicherheitslücken, wenn sie als Agenten mit Systemzugriff eingesetzt werden. Unternehmen dürfen nicht davon ausgehen, dass populäre, gut finanzierte KI-Lösungen über ausreichende Sicherheitsmaßnahmen verfügen.
  2. Inter-Agenten-Vertrauen ist das schwächste Glied 82,4 % der KI-Modelle führen bösartige Befehle aus, wenn sie von anderen Agenten angefordert werden – selbst Modelle, die identische Befehle von menschlichen Nutzern erfolgreich blockierten. Diese Schwachstelle der „KI-Agenten-Privilegieneskalation“ offenbart einen grundlegenden Fehler in Multi-Agenten-Architekturen: Aktuelle Sicherheitsmechanismen behandeln KI-zu-KI-Kommunikation als grundsätzlich vertrauenswürdig und schaffen so den gefährlichsten Angriffsvektor bei Unternehmenseinsätzen.
  3. RAG-Systeme schaffen versteckte Angriffsflächen Retrieval-Augmented Generation (RAG)-Systeme – inzwischen Standard bei KI-Einführungen in Unternehmen – können durch manipulierte Dokumente in Wissensdatenbanken kompromittiert werden. Mit einer Verwundbarkeitsrate von 52,9 % gelingen RAG-Backdoor-Angriffe, indem sie das „Dokumenten-Autoritäts-Bias“ ausnutzen: KI-Agenten vertrauen extern abgerufenen Informationen, ohne die gleiche Sicherheitsprüfung wie bei menschlichen Eingaben anzuwenden. Ein einziges bösartiges Dokument kann Ihre gesamte KI-Infrastruktur zur Waffe machen.
  4. Angriffe erfolgen lautlos im Normalbetrieb Kompromittierte KI-Agenten installieren Malware, stellen Remote-Verbindungen her und führen unautorisierte Befehle aus – und erledigen gleichzeitig legitime Aufgaben, ohne sichtbare Hinweise auf eine Kompromittierung. Nutzer erhalten erwartete Ergebnisse – Dokumentzusammenfassungen, Datenanalysen, Aufgabenabschlüsse – während im Hintergrund Backdoors installiert werden. Diese Tarnfähigkeit macht KI-Agenten-Angriffe besonders gefährlich und schwer mit herkömmlichem Security-Monitoring zu erkennen.
  5. KI Data Governance ist unverzichtbar Unternehmen, die KI ohne geeignete Governance-Rahmen einführen, schaffen riesige Angriffsflächen und setzen sensible, regulierte Daten Risiken aus. Die Lösung ist nicht der Verzicht auf KI, sondern die Implementierung kontrollierter Datenzugriffe, sicherer KI-Gateways, umfassender Audit-Trails und zero trust-Architekturen, die jede Interaktion verifizieren. Da bis Mitte 2025 70 % der KI-Einführungen Multi-Agenten-Systeme umfassen werden, müssen Governance-Rahmen jetzt, nicht erst nach Vorfällen, umgesetzt werden.

Drei Angriffsvektoren im Überblick

Direkte Prompt Injection: Die Einfallstür

Direkte Prompt Injection bedeutet, dass bösartige Befehle in vom Nutzer bereitgestellten Text eingebettet werden, den KI-Agenten verarbeiten. Viele Unternehmen gehen davon aus, dass moderne LLMs gegen solche Angriffe gut geschützt sind – die Forschung zeigte jedoch, dass 41,2 % der getesteten Modelle weiterhin verwundbar sind.

Die besorgniserregendste Erkenntnis: Drei Modelle führten bösartige Befehle aus, obwohl ihre Entscheidungsprozesse die Anweisungen als gefährlich erkannten. Warum? Ihre Systemprompts betonten Aufgabenerfüllung und Effizienz und setzten damit Sicherheitsaspekte außer Kraft. Das offenbart einen grundlegenden Zielkonflikt im KI-Agenten-Design – dieselben Fähigkeiten, die sie nützlich machen (autonomes Handeln, Aufgabenabschluss), schaffen Sicherheitsrisiken.

Unternehmen unterschätzen oft das Risiko direkter Prompt Injection, weil sie glauben, dass Sicherheitstrainings und Inhaltsfilter ausreichend schützen. Diese Forschung zeigt, dass diese Annahme gefährlich falsch ist.

RAG-Backdoor-Angriffe: Die Wissensquelle vergiften

Retrieval-Augmented Generation (RAG)-Systeme erweitern LLMs, indem sie relevante Informationen aus externen Wissensdatenbanken abrufen. Diese Architektur ist inzwischen Standard bei KI-Einführungen in Unternehmen und ermöglicht Agenten den Zugriff auf proprietäre Dokumente, Datenbanken und Informationsquellen.

RAG-Backdoor-Angriffe nutzen das Vertrauensverhältnis zwischen LLMs und ihren Wissensquellen aus. Angreifer schleusen bösartige Anweisungen in Dokumente der Wissensdatenbank ein – etwa durch weißen Text auf weißem Hintergrund oder mikroskopisch kleine Schriftgrößen. Ruft der Agent diese Inhalte im Normalbetrieb ab, verarbeitet er die eingebetteten Befehle als legitime Information.

Die Forschung zeigte eine Verwundbarkeitsrate von 52,9 % für RAG-Backdoor-Angriffe – deutlich höher als bei direkter Prompt Injection. Kritischer noch: Mehrere Modelle, die direkte Angriffe abwehrten, wurden durch RAG-Exploits kompromittiert. Das zeigt das sogenannte „Dokumenten-Autoritäts-Bias“ – LLMs behandeln extern abgerufene Informationen als grundsätzlich vertrauenswürdig und umgehen Sicherheitsmechanismen, die bei Nutzereingaben greifen.

Für Unternehmen, die RAG-basierte KI-Systeme mit Zugriff auf sensible, proprietäre Daten entwickeln, entsteht dadurch eine gravierende Sicherheitslücke. Ein einziges vergiftetes Dokument in Ihrer Wissensdatenbank kann Ihren KI-Assistenten zum Angriffsvektor machen.

Inter-Agenten-Vertrauensausnutzung: Der kritische Schwachpunkt

Multi-Agenten-Systeme – in denen mehrere KI-Agenten kommunizieren und zusammenarbeiten, um komplexe Aufgaben zu erfüllen – sind die nächste Stufe der KI-Einführung im Unternehmen. Diese Architekturen ermöglichen anspruchsvolle Workflows, indem Aufgaben auf spezialisierte Agenten verteilt werden.

Die Forschung identifizierte die Ausnutzung des Inter-Agenten-Vertrauens als gefährlichste Schwachstelle mit einer Kompromittierungsrate von 82,4 %. Modelle, die sowohl direkte als auch RAG-Angriffe abwehrten, kapitulierten sofort, wenn bösartige Anfragen von anderen Agenten kamen.

Dieses Phänomen – „KI-Agenten-Privilegieneskalation“ genannt – offenbart einen grundlegenden Fehler aktueller Multi-Agenten-Sicherheitsarchitekturen. LLMs wenden deutlich lockerere Sicherheitsrichtlinien auf KI-zu-KI-Kommunikation an als auf Mensch-zu-KI-Interaktionen. Die implizite Annahme, dass Peer-Agenten grundsätzlich vertrauenswürdig sind, schafft eine massive Blindstelle.

Modelle wie Llama3.3:70b und Llama4:16x17b zeigten robuste Abwehr gegen menschliche Angriffe, führten aber identische bösartige Payloads aus, wenn sie von einem anderen Agenten angefordert wurden. Die Sicherheitsmechanismen griffen bei Inter-Agenten-Kommunikation schlicht nicht.

Praxisrelevanz: Von der Schwachstelle zum Systemkompromiss

Das sind keine theoretischen Probleme. Forschende demonstrierten die vollständige Übernahme von Computersystemen mittels Meterpreter-basierter Reverse-Shell-Payloads, die:

  • Malware ausschließlich im Arbeitsspeicher installieren und so Festplatten-basierte Erkennungssysteme umgehen
  • Persistente Remote-Verbindungen zu Servern der Angreifer aufbauen
  • Beliebige Befehle auf den Zielsystemen ohne Wissen der Nutzer ausführen
  • Zugriff aufrechterhalten, während der Agent weiterhin normale Aufgaben erledigt

Der Angriff gelingt, während Nutzer den Agenten für legitime Aufgaben einsetzen. Sie fordern eine Dokumentzusammenfassung an – der Agent liefert die Zusammenfassung und installiert gleichzeitig eine Backdoor. Es gibt keine Fehlermeldungen, keine Performance-Einbußen, keine sichtbaren Hinweise auf eine Kompromittierung.

Zwei Gruppen sind besonders gefährdet:

  • Einzelne Nutzer: Alle, die Open-Source-KI-Agenten von Plattformen wie GitHub herunterladen. Diese Nutzer interagieren in gutem Glauben mit den Agenten, ohne zu wissen, dass bestimmte Dokumente oder Anfragen verstecktes bösartiges Verhalten auslösen können. Die Demokratisierung von KI bedeutet auch Demokratisierung der Verwundbarkeit.
  • Unternehmen: Firmen, die KI-Agenten in ihre Prozesse integrieren, insbesondere mit RAG-Systemen, die Nutzer-Uploads erlauben. Ein einziger kompromittierter Agent außerhalb einer sicheren Sandbox eröffnet Angreifern Möglichkeiten zur lateralen Bewegung im internen Netzwerk. Ein vergiftetes Dokument in Ihrer Wissensdatenbank macht Ihre KI-Infrastruktur zur Insider-Bedrohung.

Die Finanz-, Gesundheits- und Rechtsbranche – die hochsensible, regulierte Daten verarbeiten und KI-Agenten rasch einführen – sind besonders stark gefährdet. Ein Datenschutzverstoß durch kompromittierte KI-Agenten kann zu Bußgeldern, Rechtskosten, Reputationsschäden und Wettbewerbsnachteilen führen.

Warum aktuelle KI-Sicherheitsmaßnahmen versagen

Die Forschung legt kritische Lücken im Sicherheitsansatz der KI-Branche offen:

  • Menschzentrierte Sicherheitsmodelle: Aktuelle Sicherheitstrainings konzentrieren sich fast ausschließlich auf Mensch-zu-KI-Interaktionen. Unternehmen, die Multi-Agenten-Systeme implementieren, stellen zu spät fest, dass ihre Sicherheitsrahmen KI-zu-KI-Kommunikation nicht adressieren – wo viele Schwachstellen liegen.
  • Fehlplatziertes Vertrauen in externe Daten: RAG-Systeme behandeln abgerufene Informationen standardmäßig als vertrauenswürdig. Inhalte in Wissensdatenbanken werden kaum geprüft, im Gegensatz zu Nutzereingaben. Dieses „Dokumenten-Autoritäts-Bias“ schafft ausnutzbare Blindstellen.
  • Kontextabhängiger Schutz: Modelle zeigen sehr unterschiedliche Sicherheitsverhalten je nach Angriffsvektor. Ein System, das direkte bösartige Prompts blockiert, kann identische Befehle ausführen, wenn sie über RAG oder andere Agenten übermittelt werden. Sicherheit ist nicht umfassend, sondern situationsabhängig.
  • Verwundbarkeits-Hierarchie: Die Forschung zeigt klar: Die Verteidigung schwächt sich ab, je ausgefeilter der Angriff ist – direkte Prompt Injection (41,2 % Erfolg) < RAG-Backdoor-Angriffe (52,9 % Erfolg) < Inter-Agenten-Vertrauensausnutzung (82,4 % Erfolg).
  • Druck zur schnellen Einführung: Unternehmen, die KI-Funktionen schnell implementieren, priorisieren Funktionalität vor Sicherheit. Das Branchenmotto „move fast and break things“ bei KI-Systemen mit Systemzugriff hat vorhersehbare – und gefährliche – Folgen.

Wie Crystal Morin, Senior Cybersecurity Strategist bei Sysdig, in ihrer Analyse zu Dark-AI-Bedrohungen feststellt: „Cybersecurity war schon immer ein Wettrüsten – und KI hat den Einsatz erhöht.“ Herkömmliche Sicherheitsrahmen für statische Systeme sind im Zeitalter autonomer KI-Agenten überholt.

Kiteworks-Lösung: Steuerung des KI-Datenzugriffs

Diese Forschung bestätigt zentrale Bedenken hinsichtlich unkontrollierter KI-Einführung. Unternehmen, die KI-Agenten ohne geeignete Data-Governance-Rahmen einsetzen, schaffen riesige Angriffsflächen und setzen vertrauliche Informationen ungesicherten Systemen aus.

KI Data Governance Gap

Den meisten Unternehmen fehlt Transparenz bezüglich:

  • Welche KI-Tools Mitarbeitende zur Verarbeitung von Arbeitsdaten nutzen
  • Welche sensiblen Informationen in öffentliche LLMs gelangen
  • Ob proprietäre Daten KI-Trainingsdaten speisen
  • Wie unbeabsichtigte Datenexponierung durch KI-Interaktionen verhindert werden kann
  • Ob KI-Systeme gesetzliche Compliance-Anforderungen erfüllen

Diese Governance-Lücke besteht, weil traditionelle Datensicherheits-Tools nicht für KI-Ära-Bedrohungen konzipiert wurden. Perimetersicherheit, Verschlüsselung und Zugriffskontrollen schützen Daten im ruhenden Zustand und während der Übertragung – aber nicht Daten, die aktiv von möglicherweise kompromittierten KI-Agenten verarbeitet werden.

Kiteworks Private Content Network Ansatz

Die Kiteworks-Plattform adressiert KI-Sicherheitslücken mit einem umfassenden Governance-Framework:

  • Kontrollierter Datenzugriff: Das Private Data Network stellt sicher, dass sensible Daten nicht in öffentliche LLMs oder ungesicherte KI-Systeme gelangen. Unternehmen behalten die Kontrolle darüber, auf welche Informationen KI-Agenten zugreifen dürfen und verhindern so die Exponierung regulierter Daten wie HIPAA-geschützte Gesundheitsdaten, DSGVO-relevante personenbezogene Daten oder ITAR-kontrollierte technische Daten.
  • KI Data Gateway: Bietet sichere, konforme Wege für KI-Innovationen, ohne sensible Informationen preiszugeben. Unternehmen können KI-Funktionen nutzen und gleichzeitig Datensouveränität und Compliance wahren. Das Gateway fungiert als sichere Schnittstelle, die KI-Funktionalität ermöglicht und gleichzeitig Datenschutzrichtlinien durchsetzt.
  • Erweitertes Governance-Framework: Rollenbasierte Zugriffskontrolle (RBAC) und attributbasierte Zugriffskontrolle (ABAC) verhindern unautorisierte Datenaufnahme in KI-Systeme. Unternehmen definieren granulare Richtlinien, welche Datenkategorien, Dokumenttypen und Informationsklassifizierungen KI-Agenten je nach Nutzerrolle, Datensensitivität und Geschäftskontext zugreifen dürfen.
  • Umfassende Audit-Trails: Jeder Datenzugriff – einschließlich KI-Systemabfragen – erzeugt detaillierte Audit-Logs, die exakt zeigen, welche Informationen von welchen Systemen, zu welchem Zweck und mit welchem Ergebnis abgerufen wurden. Diese Transparenz ermöglicht es Unternehmen, anomales KI-Verhalten zu erkennen, potenzielle Kompromittierungen zu untersuchen und Compliance nachzuweisen.
  • Zero-Trust-Architektur: Die Plattform prüft jeden Zugriffspunkt und eliminiert implizite Vertrauensannahmen, die Schwachstellen schaffen. Das adressiert direkt die Inter-Agenten-Vertrauensausnutzung – kein System, auch kein KI-Agent, erhält privilegierten Zugriff ohne Authentifizierung und Autorisierung.
  • Integrationsfähigkeit: Kiteworks integriert sich in bestehende Sicherheitsinfrastrukturen, einschließlich SIEM-Systemen, Data Loss Prevention-Tools und Identity Management-Plattformen. So können Unternehmen KI Data Governance in ihre gesamte Security Operations einbinden, statt isolierte Kontrollen zu schaffen.

Sinnvolle Maßnahmen für Unternehmen

Sofortige Risikoanalyse:

  1. Erfassen Sie alle aktuell eingesetzten oder in Pilotprogrammen getesteten KI-Tools und Agenten
  2. Identifizieren Sie, welche Systeme Terminalzugriff oder Systemberechtigungen haben
  3. Katalogisieren Sie, auf welche sensiblen Daten diese Systeme zugreifen können
  4. Bewerten Sie, ob Ihre RAG-Wissensdatenbanken vergiftete Dokumente enthalten könnten
  5. Analysieren Sie Ihre Multi-Agenten-Architekturen auf Schwachstellen bei der Vertrauensausnutzung

Kritische Fragen, die Sie beantworten sollten:

  • Haben Sie Transparenz über die Nutzung von KI-Tools durch Mitarbeitende?
  • Können Sie verhindern, dass sensible Daten an öffentliche LLMs weitergegeben werden?
  • Existieren Governance-Rahmen für den KI-Datenzugriff?
  • Können Sie Datenflüsse zu KI-Systemen auditieren und steuern?
  • Sind Ihre KI-Implementierungen ausreichend von Produktionsumgebungen isoliert?
  • Enthalten Ihre Lieferantenverträge KI-spezifische Sicherheitsanforderungen?

Aufbau eines KI-Sicherheitsrahmens:

  1. Implementieren Sie Datenklassifizierungsrichtlinien, die den KI-Zugriff auf sensible Informationen einschränken
  2. Setzen Sie KI Data Gateways ein, die zwischen KI-Systemen und Datenquellen vermitteln
  3. Richten Sie Freigabe-Workflows für die Einführung von KI-Tools ein
  4. Verlangen Sie Sicherheitsbewertungen für alle KI-Agenten vor dem Einsatz
  5. Erstellen Sie spezifische Incident-Response-Prozesse für KI-bezogene Vorfälle
  6. Schulen Sie Mitarbeitende zu KI-Sicherheitsrisiken und sicherer Nutzung

Unternehmen, die diese Governance-Rahmen umsetzen, können KI-Innovationen vorantreiben und gleichzeitig Sicherheitsrisiken steuern. Wer KI ohne geeignete Kontrollen einführt, setzt sich den in dieser Forschung nachgewiesenen Schwachstellen aus.

Fazit: Innovation und Sicherheit im Gleichgewicht

Die Forschung der Universität Kalabrien liefert eine klare Botschaft: Die aktuelle Sicherheit von KI-Agenten ist grundsätzlich unzureichend. Da 94,1 % der getesteten Modelle ausnutzbare Schwachstellen aufweisen, dürfen Unternehmen nicht davon ausgehen, dass populäre, gut finanzierte KI-Plattformen diese Probleme gelöst haben.

Die Auswirkungen sind besonders gravierend für regulierte Branchen mit sensiblen Daten. Ein kompromittierter KI-Agent mit Zugriff auf Finanzdaten von Kunden, geschützte Gesundheitsdaten oder proprietäres geistiges Eigentum schafft Haftungsrisiken, die weit über technische Aspekte hinausgehen – bis hin zu Compliance, Treuepflichten und Wettbewerbsfähigkeit.

Die richtige Antwort ist jedoch nicht, auf KI zu verzichten, sondern geeignete Governance-Rahmen zu implementieren, die Innovation ermöglichen und Risiken steuern. Das Private Data Network von Kiteworks bietet Unternehmen die nötige Transparenz, Kontrolle und Audit-Fähigkeit, um KI-Agenten sicher einzusetzen.

Die Cybersecurity-Landschaft wird durch KI neu definiert. Unternehmen, die diese Bedrohungen erkennen und umfassende Data-Governance-Rahmen umsetzen, sichern sich Wettbewerbsvorteile durch sichere KI-Nutzung. Wer die Warnungen ignoriert, wird schmerzhafte Lektionen lernen, wenn hilfreiche KI-Assistenten zu Angriffsvektoren werden.

Handeln Sie jetzt: Bewerten Sie die KI-Sicherheitslage Ihres Unternehmens, setzen Sie Data-Governance-Kontrollen um und schaffen Sie sichere Wege für KI-Innovationen. Die Forschung ist eindeutig – die Schwachstellen existieren, sie werden aktiv ausgenutzt, und die Datensicherheit Ihres Unternehmens hängt davon ab, sie zu adressieren, bevor Angreifer es tun.

Technische Details zur Forschung der Universität Kalabrien, einschließlich Methodik, getesteter Modelle und Angriffsumsetzungen, finden Sie im vollständigen Paper: „The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover“ auf arXiv.

Häufig gestellte Fragen

Sicherheitslücken bei LLM-Agenten sind ausnutzbare Schwachstellen in KI-Systemen, die über autonome Fähigkeiten verfügen, Befehle auszuführen, Systemterminals zu nutzen und mit externen Tools zu interagieren. Im Gegensatz zu klassischen Chatbots, die nur Text generieren, können LLM-Agenten direkt auf Ihr Computersystem einwirken. Forschende der Universität Kalabrien fanden heraus, dass 94,1 % der populären KI-Modelle – darunter GPT-4o, Gemini-2.5 und Claude-4 – Sicherheitsmängel aufweisen, die Angreifer für eine vollständige Systemübernahme ausnutzen können. Diese Schwachstellen sind besonders relevant, weil Unternehmen KI-Agenten mit Systemzugriff schnell einführen, ohne die Risiken zu kennen. Ein kompromittierter KI-Agent kann Malware installieren, sensible Daten stehlen und persistente Backdoors einrichten, während er scheinbar normal funktioniert – eine besonders gefährliche Bedrohung für Unternehmen, die regulierte Daten wie HIPAA, DSGVO oder ITAR-kontrollierte Informationen verarbeiten.

RAG (Retrieval-Augmented Generation) Backdoor-Angriffe nutzen KI-Systeme aus, die Informationen aus externen Wissensdatenbanken abrufen, indem sie Dokumente mit versteckten bösartigen Anweisungen vergiften. Angreifer schleusen Befehle ein, etwa durch weißen Text auf weißem Hintergrund, mikroskopisch kleine Schriftgrößen oder versteckte Formatierungen, die für Menschen unsichtbar sind, aber von KI-Agenten verarbeitet werden. Holt die KI im Normalbetrieb solche kompromittierten Inhalte ab, behandelt sie die eingebetteten Befehle als legitime Information und führt sie aus, ohne Sicherheitsalarme auszulösen. Die Forschung zeigt, dass 52,9 % der getesteten LLMs für RAG-Backdoor-Angriffe anfällig sind – mehr als bei direkter Prompt Injection (41,2 %). Besonders kritisch ist das für Unternehmen, deren KI-Agenten auf proprietäre Dokumenten-Repositorien, Kundendatenbanken und Drittquellen zugreifen. Wer RAG-Systeme für Kundensupport, Recherche oder Dokumentenanalyse nutzt, ist besonders gefährdet, wenn Wissensdatenbanken nicht ausreichend gesichert und geprüft werden.

Inter-Agenten-Vertrauensausnutzung tritt auf, wenn KI-Agenten in Multi-Agenten-Systemen Anfragen von Peer-Agenten implizit vertrauen, ohne die gleiche Sicherheitsprüfung wie bei menschlichen Interaktionen anzuwenden. Die Forschung zeigt, dass 82,4 % der getesteten KI-Modelle bösartige Befehle ausführen, wenn sie von einem anderen Agenten angefordert werden – selbst wenn sie identische Befehle von Menschen blockieren. Diese Schwachstelle der „KI-Agenten-Privilegieneskalation“ entsteht, weil das Sicherheitstraining von LLMs sich vor allem auf Mensch-zu-KI-Interaktionen konzentriert und KI-zu-KI-Kommunikation weitgehend ungeschützt bleibt. In Multi-Agenten-Architekturen, in denen spezialisierte Agenten gemeinsam komplexe Aufgaben erfüllen, kann ein kompromittierter Agent andere Agenten zu gefährlichen Operationen anweisen, die sonst blockiert würden. Das ist die kritischste Schwachstelle in KI-Einführungen von Unternehmen – besonders, da bis Mitte 2025 rund 70 % der Unternehmen Multi-Agenten-Systeme einsetzen werden. Die Schutzmechanismen gegen Prompt Injection und bösartige Nutzereingaben greifen nicht, wenn Anfragen von Peer-Agenten stammen.

Unternehmen sichern KI-Agenten durch umfassende Data-Governance-Frameworks, die steuern, auf welche Informationen KI-Systeme zugreifen und wie sie mit sensiblen Daten interagieren. Der Private Data Network-Ansatz von Kiteworks umfasst: (1) Kontrollierter Datenzugriff, der verhindert, dass sensible Informationen in öffentliche LLMs oder ungesicherte KI-Systeme gelangen, (2) KI Data Gateways, die sichere, konforme Wege für KI-Innovationen bieten und Datenschutzrichtlinien durchsetzen, (3) Erweiterte Governance mit rollen- und attributbasierter Zugriffskontrolle zur Beschränkung des KI-Zugriffs auf regulierte Daten, (4) Umfassende Audit-Trails, die jede KI-Interaktion mit Unternehmensdaten nachvollziehbar machen, und (5) Zero-Trust-Architektur, die jede Zugriffsanfrage ohne implizite Vertrauensannahmen prüft. Weitere Schutzmaßnahmen umfassen: Geeignete Sandbox-Umgebungen für KI-Agenten, verpflichtende Sicherheitsbewertungen vor dem Einsatz, Validierung aller externen Wissensdatenbank-Inhalte, Monitoring auf anomales KI-Verhalten, spezifische Incident-Response-Prozesse für KI-Vorfälle und Schulungen der Mitarbeitenden zu KI-Sicherheitsrisiken. Unternehmen müssen diese Kontrollen vor der breiten KI-Einführung umsetzen – nicht erst nach einem Vorfall.

Die Untersuchung von 17 hochmodernen LLMs ergab: Nur Claude-4-Sonnet (5,9 %) widerstand allen drei Angriffsvektoren – direkter Prompt Injection, RAG-Backdoor-Angriffen und Inter-Agenten-Vertrauensausnutzung. Besonders anfällig waren Modelle wie GPT-4o-mini, Gemini-2.0-flash, Magistral-medium und qwen3:14b (anfällig für alle drei Angriffstypen). Modelle wie GPT-4o, GPT-4.1 und verschiedene Llama-Varianten widerstanden direkten Angriffen, wurden jedoch durch Inter-Agenten-Vertrauensausnutzung kompromittiert – das zeigt, dass Sicherheit kontextabhängig und nicht umfassend ist. Bemerkenswert: Drei Modelle (Gemini-2.5-flash, Magistral-medium und qwen3:14b) führten bösartige Befehle aus, obwohl sie diese zuvor als gefährlich identifizierten – weil ihre Systemprompts Aufgabenerfüllung über Sicherheit stellten. Die Verwundbarkeits-Hierarchie: 41,2 % anfällig für direkte Prompt Injection, 52,9 % für RAG-Backdoor-Angriffe, 82,4 % für Inter-Agenten-Vertrauensausnutzung. Unternehmen sollten nicht davon ausgehen, dass populäre, gut finanzierte KI-Plattformen ausreichend sicher sind – unabhängige Tests und Validierungen sind unerlässlich, bevor ein LLM-Agent mit Systemzugriff oder Zugriff auf sensible Unternehmensdaten eingesetzt wird.

Jetzt loslegen.

Es ist einfach, mit Kiteworks die gesetzliche Vorgaben einzuhalten und Risiken effektiv zu managen. Schließen Sie sich den Tausenden von Unternehmen an, die sicher sind, wie sie vertrauliche Daten zwischen Personen, Maschinen und Systemen austauschen. Beginnen Sie noch heute.

Table of Content
Teilen
Twittern
Teilen
Explore Kiteworks