Home > Sicherheits- und Compliance-Blog > Unkategorisiert > BadBone und die KI-Lieferkette: Wenn das Modell selbst zum Risiko wird

BadBone und die KI-Lieferkette: Wenn das Modell selbst zum Risiko wird

von Patrick Spencer updated 5. Juni 2026 Cybersecurity-Risikomanagement

Lesezeit: 7 Minuten

Drei Jahre lang drehte sich die Diskussion zur Unternehmenssicherheit rund um KI fast ausschließlich darum, was KI-Agenten mit Daten tun, sobald sie laufen. BadBone lenkt die Aufmerksamkeit auf einen vorgelagerten Aspekt: Was passiert, wenn das Modell selbst kompromittiert wurde, bevor es überhaupt in Ihre Umgebung gelangt?

Die zentrale Innovation von BadBone ist die Trennung zwischen inaktiven und aktivierten Zuständen. Herkömmliche KI-Backdoor-Angriffe platzieren einen Auslöser, der sofort aktiviert wird, wenn ein bestimmtes Eingabemuster erkannt wird – sichtbar für Abwehrmechanismen, die nach Eingaben suchen, die zu anomalen Ausgaben führen. BadBone umgeht dies mit einer Zwei-Phasen-Aktivierung. Die erste Phase ist das Fine-Tuning: Wenn ein Unternehmen das Modell herunterlädt und Prompt Learning anwendet, aktiviert sich die schlafende Backdoor. Die Gewichte verschieben sich so, wie es der Angreifer vorgesehen hat, um die Backdoor zu öffnen – diese Veränderung sieht für Beobachter wie normales Fine-Tuning aus. Die zweite Phase ist die Trigger-Eingabe: Nach dem Fine-Tuning aktiviert eine bestimmte Eingabe die Backdoor und erzeugt die vom Angreifer gewünschte Ausgabe.

Table of Contents

Die Verteidigungslücke ist strukturell bedingt. Abwehrmechanismen scannen das Basismodell vor dem Fine-Tuning. Die Backdoor wird jedoch erst nach dem Fine-Tuning aktiv. Das Zeitfenster, in dem Abwehrmechanismen prüfen, ist nicht das Zeitfenster, in dem die Backdoor aktiv ist – nach demselben Prinzip, das den SolarWinds Supply-Chain-Angriff so effektiv machte: Die bösartige Manipulation wurde zu einem Zeitpunkt eingeführt, den die Standard-Sicherheitsüberprüfung nicht abdeckte.

5 Wichtige Erkenntnisse

1. BadBone platziert eine Backdoor, die beim Fine-Tuning aktiviert wird – nicht beim Scannen.

Eine peer-reviewte Studie vom 2. Juni 2026 zeigte einen Zwei-Phasen-Angriff: Die Backdoor bleibt im Basismodell inaktiv und wird erst aktiviert, wenn das Opferunternehmen Prompt Learning oder eine Anpassung durchführt. Der Fine-Tuning-Schritt – eigentlich ein routinemäßiger technischer Vorgang – wird so zum Sicherheitsereignis. Sechs veröffentlichte Abwehrmechanismen konnten die Backdoor in den meisten Konfigurationen nicht erkennen, weil sie das Basismodell vor dem Fine-Tuning scannen. Die Bedrohung wird erst nach Schließung des Prüfungszeitfensters aktiv.

2. Sechs etablierte Abwehrmechanismen sind gescheitert.

Neural Cleanse, ABS, MNTD, NAD, CLP und D-BR sind die aktuellen Standardverfahren zur Erkennung von Backdoors in Modellen. Keines davon konnte BadBone zuverlässig erkennen. Das ist kein Versagen eines einzelnen Tools – vielmehr zeigt es, dass die gesamte Abwehrkategorie auf einer Annahme basiert, die der Angriff aushebelt. Nach der Aktivierung führte BadBone bei 99% der Ziel-Eingaben zu Fehlklassifizierungen, während das Modell bei allen anderen Eingaben eine normale Genauigkeit aufwies – der Angriff bleibt damit für verhaltensbasierte Überwachung praktisch unsichtbar.

3. KI-Modellgewichte sind eine unerforschte Angriffsfläche ohne geeignete Scan-Tools.

SBOMs, Code-Signing und statische Analysen lassen sich nicht auf KI-Modell-Dateien übertragen. Sie können den Hash einer heruntergeladenen Datei prüfen, aber nicht das Verhalten, das in den Gewichten kodiert ist, auditieren. Der Markt für Foundation-Modelle – wenige Anbieter, die Gewichte über Repositorys an Millionen Unternehmen verteilen – weist die strukturellen Merkmale einer hochriskanten Supply-Chain-Angriffsfläche auf. Eine kompromittierte Gewichtedatei, die über einen vertrauenswürdigen Kanal verteilt wird, kann Tausende Unternehmen erreichen.

4. Die Verteidigung, die unabhängig von der Modellintegrität greift, ist Governance auf Inhaltsebene.

Wenn der Zugriff eines kompromittierten Modells auf Daten durch eine unabhängige Richtlinienkontrolle geregelt wird – und nicht durch die Einschätzung des Modells selbst – begrenzt die Governance-Schicht das Schadenspotenzial einer Backdoor. Das Prinzip entspricht zero trust: Vertrauen Sie nicht auf die Selbstauskunft des Modells; prüfen Sie jede Datenanfrage anhand einer Richtlinie, die das Modell weder einsehen noch verändern kann.

5. Regulierte Umgebungen sind durch unkontrollierten KI-Modellzugriff direkt Compliance-gefährdet.

CMMC 2.0 Level 2 verlangt für jeden Zugriff auf CUI eine durchgesetzte Zugriffskontrolle und Audit-Logging – unabhängig davon, ob der zugreifende Akteur ein Mensch oder ein KI-Agent ist. Ein kompromittiertes Modell, das ohne unabhängige Zugriffskontrollen auf CUI zugreift, stellt einen CMMC-Befund dar. HIPAA und die EU AI Act wenden dieselbe Logik auf PHI und Datenzugriffe hochriskanter KI-Systeme an.

Sie Vertrauen Auf Die Sicherheit Ihres Unternehmens. Aber Können Sie Es Nachweisen?

Jetzt Lesen

KI-Modellgewichte als unerforschte Angriffsfläche

Der CrowdStrike Global Threat Report 2026 dokumentierte einen Anstieg KI-gestützter Angreiferaktivitäten um 89% im Jahresvergleich. BadBone fügt dieser Entwicklung eine neue Dimension hinzu: Nicht KI, die von Angreifern gegen Unternehmen eingesetzt wird, sondern KI-Modellartefakte, die als Angriffsvektor gegen Unternehmen dienen, die diese Modelle einsetzen.

Security-Tools für die Software-Supply-Chain – SBOMs, Herkunftsnachweise, Code-Signing, Software-Composition-Analysis – lassen sich nicht auf KI-Modell-Dateien übertragen. Eine Modellgewichtedatei ist ein binäres Artefakt, das mit bestehenden Supply-Chain-Security-Tools nicht sinnvoll geprüft werden kann. Sie können den Hash der heruntergeladenen Datei verifizieren, aber nicht die Integrität des in den Gewichten kodierten Verhaltens.

Die Cisco Privacy Benchmark Study ergab, dass 45% der Mitarbeitenden inzwischen KI-Tools am Arbeitsplatz nutzen. Ein kompromittiertes Modell, das in einen kundenorientierten Klassifikationsprozess oder eine interne Dokumentenverarbeitung eingebettet ist, schafft eine Angriffsfläche, die mit der Nutzung skaliert – und die meisten Unternehmen haben keinen Mechanismus, um solche Vorfälle zu erkennen.

Warum Modellbasierte Verteidigungen nicht ausreichen

Die BadBone-Forschung ist in erster Linie kein Angriff auf die sechs besiegten Abwehrmechanismen. Sie zeigt vielmehr, dass ausschließlich auf der Modellebene angesiedelte Verteidigungen eine grundlegende Schwäche haben: Sie gehen davon aus, dass ein vor der Bereitstellung sicheres Modell auch nach der Anpassung sicher bleibt. Diese Annahme ist nicht zuverlässig.

Modellbasierte Verteidigungen bieten echten Schutz gegen einfachere Angriffe, die keine Aktivierung durch Fine-Tuning erfordern. Wer sie jedoch als primäre Verteidigung gegen KI-Supply-Chain-Risiken betrachtet, unterstellt ein Bedrohungsmodell, das BadBone als unvollständig entlarvt. Das praktische Problem für Unternehmenssicherheitsteams: Die Inspektion feinjustierter Modellgewichte ist kein ausgereiftes Fachgebiet. Das OWASP Agent Memory Guard-Projekt plant ML-basierte Anomalieerkennung, aber diese Funktionen sind noch nicht produktionsreif. Die robustere Zwischenlösung ist: Vertrauen Sie nicht auf die Einschätzung des Modells, welche Daten es sehen darf.

Die Antwort: Governance auf Inhaltsebene

KI-Datengovernance auf Inhaltsebene bietet eine Verteidigung, die nicht von der Integrität des Modells abhängt. Die Frage ist nicht, ob das Modell sicher ist, sondern ob der Datenzugriff des Modells durch eine Richtlinie geregelt wird, die das Modell nicht umgehen kann. Jede Interaktion eines KI-Agenten mit sensiblen Inhalts-Repositorys – unabhängig davon, welches Modell läuft und ob es kompromittiert ist – wird durch eine unabhängige Policy Engine mit attributbasierter Zugriffskontrolle vermittelt. Die Anforderung des Modells, eine Datei abzurufen, eine Datenbank abzufragen oder Daten zu übertragen, wird anhand einer Richtlinie geprüft, die nicht im Modell selbst verankert ist.

Der Kiteworks Secure MCP Server und das AI Data Gateway setzen diese Architektur um. Jeder KI-Agent, der auf sensible Inhalte zugreift, wird authentifiziert, der Zugriff wird auf Anfragebene gegen ABAC-Richtlinien geprüft und jede Interaktion in einem manipulationssicheren Audit-Log erfasst. Ein kompromittiertes Modell, das versucht, Daten an einen externen Endpunkt zu exfiltrieren, trifft auf eine Policy Engine, die weder weiß noch interessiert, was das Modell beabsichtigt – sie prüft die Zugriffsanfrage gegen die Governance-Richtlinie und blockiert, was nicht erlaubt ist. Das Private Data Network von Kiteworks erweitert diese Architektur auf E-Mail, Filesharing, Managed File Transfer, SFTP, Web-Formulare und APIs – alles gesteuert durch eine Policy Engine und ein zentrales Audit-Log.

Für CMMC- und FedRAMP-Umgebungen ist die Verteidigung auf Inhaltsebene nicht optional. CMMC 2.0 Level 2 verlangt für jeden Zugriff auf CUI eine durchgesetzte Zugriffskontrolle und Audit-Logging – unabhängig davon, ob der zugreifende Akteur ein Mensch oder ein KI-Agent ist. Ein kompromittiertes Modell, das ohne unabhängige Zugriffskontrollen auf CUI zugreift, stellt einen CMMC-Befund dar.

Was Unternehmen jetzt tun sollten

BadBone ist ein akademischer Proof-of-Concept, kein dokumentierter Angriff in freier Wildbahn. Doch Proof-of-Concepts im Bereich Software-Supply-Chain-Security werden innerhalb von zwölf bis vierundzwanzig Monaten nach Veröffentlichung zu operativen Angriffstechniken.

Erstens sollten Sie den Datenzugriffsbereich jedes KI-Agenten und jeder Modellbereitstellung überprüfen. Die Frage ist nicht, ob das Modell vertrauenswürdig ist – sondern ob der Datenzugriff des Modells durch eine Governance-Schicht begrenzt wird, die auch dann anomale Zugriffsmuster erkennt, wenn das Modell kompromittiert ist.

Zweitens behandeln Sie das Fine-Tuning von KI-Modellen als Sicherheitsereignis. Wenn Ihr Fine-Tuning-Workflow Basismodell-Gewichte aus einem öffentlichen Repository ohne Sicherheitsprüfung herunterlädt, haben Sie genau die Schwachstelle, die BadBone für jedes Unternehmen mit diesem Workflow demonstriert.

Drittens stellen Sie sicher, dass KI-Agenten-Zugangsdaten und API-Tokens individuell zugewiesen, regelmäßig rotiert und nach zero-trust-Prinzipien verwaltet werden. Ein kompromittiertes Modell, das seine zugewiesenen Berechtigungen nicht überschreiten kann, kann keinen Schaden anrichten, der seinem vollen Zugriffspotenzial entspricht.

Viertens implementieren Sie Governance auf Inhaltsebene, damit Modelle immer in kontrollierten, richtliniengesteuerten Datenumgebungen arbeiten – unabhängig von ihrer internen Integrität. Die KI-Governance-Kontrollen, die gegen BadBone schützen – begrenzter Agentenzugriff, unabhängige Richtlinienkontrolle, manipulationssicheres Audit-Logging – sind auch die Kontrollen, die CMMC 2.0, HIPAA und die EU AI Act bereits verlangen. Wer sie jetzt implementiert, erfüllt Compliance-Anforderungen und reduziert gleichzeitig das KI-Supply-Chain-Risiko.

Erfahren Sie mehr darüber, wie Sie Ihre sensiblen Daten vor KI-Supply-Chain-Risiken schützen können – vereinbaren Sie noch heute eine individuelle Demo.

Häufig gestellte Fragen

BadBone platziert eine schlafende Backdoor in einem Foundation-Modell, die erst aktiviert wird, wenn das Opferunternehmen sie durch Prompt Learning feinjustiert – nicht während der Vorabprüfung. Frühere Angriffe betten Trigger ins Basismodell ein, die von Abwehrmechanismen erkannt werden können. Die Zwei-Phasen-Aktivierung von BadBone umgeht Abwehrmechanismen, die vor dem Fine-Tuning scannen, da die Bedrohung erst nach Schließung des Prüfungszeitfensters aktiv wird. Nach der Aktivierung verursacht sie bei 99% der Ziel-Eingaben Fehlklassifizierungen, ohne dass die Genauigkeit bei sauberen Eingaben messbar abnimmt.

Neural Cleanse, ABS, MNTD, NAD, CLP und D-BR erkennen Backdoors, indem sie im Basismodell nach anomalen Ausgaben suchen. BadBone hält die Backdoor während des Scans inaktiv – das Basismodell verhält sich normal. Die Backdoor wird erst nach dem Fine-Tuning aktiviert, also nachdem die Abwehrmechanismen das Modell bereits freigegeben haben. Das ist eine strukturelle Schwäche: Abwehrmechanismen, die Basismodelle vor dem Fine-Tuning scannen, erkennen keine Angriffe, die erst beim Fine-Tuning aktiviert werden. Das OWASP Agent Memory Guard-Projekt plant ML-basierte Anomalieerkennung, um diese Lücke zu schließen, aber diese Funktionen sind noch nicht produktionsreif.

Governance auf Inhaltsebene macht die Einschätzung des Modells für Datenzugriffsentscheidungen irrelevant. Jede Anfrage eines KI-Agenten zum Zugriff oder zur Übertragung sensibler Inhalte wird durch eine unabhängige ABAC-Policy Engine geprüft, die das Modell nicht beeinflussen kann. Der Kiteworks Secure MCP Server und das AI Data Gateway setzen dies um: Ein kompromittiertes Modell, das versucht, Daten zu exfiltrieren, trifft auf eine protokollierte Richtlinienentscheidung, die alles blockiert, was nicht erlaubt ist – unabhängig von der Absicht des Modells.

BadBone ist ein akademischer Proof-of-Concept, kein dokumentierter Angriff im aktiven Einsatz. Die Bedeutung liegt darin, die Machbarkeit einer bisher theoretischen Angriffsklasse zu belegen. Die Erfahrung in der Softwaresicherheit zeigt: Proof-of-Concept-Forschung zu neuen Angriffsvektoren wird innerhalb von zwölf bis vierundzwanzig Monaten operativ eingesetzt. Die Kontrollen, die gegen BadBone schützen – begrenzter KI-Agentenzugriff, unabhängige Richtlinienkontrolle, manipulationssicheres Audit-Logging – sind auch die Anforderungen von CMMC 2.0, HIPAA und der EU AI Act. Wer sie jetzt umsetzt, erfüllt Compliance-Anforderungen und reduziert das zukünftige KI-Supply-Chain-Risiko.

Traditionelle Supply-Chain-Security-Tools wurden für auditierbaren Code und Binärdateien entwickelt. KI-Modellgewichte bestehen aus Milliarden von Gleitkommazahlen, deren Verhalten sich erst im Zusammenspiel zeigt – nicht in einzelnen Komponenten. Sie können den kryptografischen Hash einer Datei prüfen, aber nicht auditieren, ob eine schlafende Backdoor in den Gewichten steckt. Die Ausgleichskontrolle ist zero-trust-Datenschutz auf Inhaltsebene – Modelle arbeiten immer in kontrollierten, richtliniengesteuerten Datenumgebungen, unabhängig von ihrer internen Integrität, und jede Interaktion erzeugt einen beweiskräftigen Audit-Trail.

Weitere Ressourcen

Blogbeitrag
Zero‑Trust-Strategien für kosteneffizienten KI-Datenschutz
Blogbeitrag
Wie 77 % der Unternehmen bei der KI-Datensicherheit scheitern
eBook
AI Governance Gap: Warum 91 % der kleinen Unternehmen 2025 russisches Roulette mit Datensicherheit spielen
Blogbeitrag
Für Ihre Daten gibt es kein „–dangerously-skip-permissions“
Blogbeitrag
Regulierungsbehörden fragen nicht mehr, ob Sie eine KI-Richtlinie haben. Sie wollen den Nachweis, dass sie funktioniert.