間接プロンプトインジェクションが現実に:ガードレールだけでは防げない理由

主なポイント

  1. 間接プロンプトインジェクションが現実化。攻撃者はウェブページやドキュメント、メールに隠れた指示を埋め込み、運用中のAIエージェントがそれを読み取り実行することで、フィッシングやマルウェアを使わずにデータ流出を可能にします。
  2. 従来のツールではこの攻撃を検知できません。SIEM、DLP、エンドポイント監視は異常を検知できません。AIは設計通りに動作し、攻撃者の指示に従っているだけだからです。
  3. モデルのガードレールはセキュリティ対策ではありません。システムプロンプトや安全フィルターは簡単に回避され、主要なLLMに対する脱獄・インジェクションの成功率は最大100%に達することが研究で示されています。
  4. データ層でのガバナンスが必須です。監査やコンプライアンス基準を満たすには、認証済みかつポリシーベースのアクセス制御と改ざん検知可能なログ記録をデータ層で実施する必要があります。

GoogleとForcepointの研究者は、運用中のAIシステムに対して実際に行われた間接プロンプトインジェクション攻撃を記録しています。攻撃者はウェブページやドキュメント、メールに隠れた指示を埋め込みます。AIエージェントがそのコンテンツを閲覧・要約・処理する際に指示を読み取り、実行します。その結果、データ流出や認証情報の漏洩、攻撃者が管理するサーバーへの外部送信が、AI自身によって引き起こされます。

クリックすべきフィッシングリンクも、実行すべき悪意あるバイナリも、警告を出すべき異常なログインもありません。エージェントは「設計通り」にコンテンツを読み取り、行動しているだけであり、コンテンツは攻撃者の意図通りに動いています。従来のセキュリティツールは何も問題を検知しません。2023年以降理論上とされてきたリスクが、経営層レベルの運用課題へと現実化する瞬間です。

5つの主なポイント

1. 間接プロンプトインジェクションはもはや理論ではない

GoogleとForcepointの研究者は、攻撃者がウェブコンテンツやドキュメント、メールに埋め込んだ隠れた指示を使い、AIエージェントを操作してフィッシングやマルウェア、人間の介入なしにデータ流出を引き起こしていることを記録しました。GrafanaGhost、ForcedLeak(Salesforce Agentforce)、GeminiJack(Google Gemini)、DockerDashも同様の手法でした。ラボと本番環境のギャップは消えつつあります。

2. 従来のセキュリティツールではこの攻撃を検知できない

AIエージェントが攻撃者の指示を読み取り、正規のチャネルで行動すると、SIEMルールやDLPフィルター、エンドポイント監視は異常を検知できません。流出は通常のAIの動作に見えるため、セキュリティスタックの視点ではAIは設計通りに動いています。データ流出には悪意あるエンドポイントが必要という従来の認識は、AI自体が流出ツールとなる場合には当てはまりません。

3. モデルレベルのガードレールは設定であり、セキュリティではない

システムプロンプトは上書き可能で、安全フィルターも回避されます。査読付きNeurIPS研究では、主要LLMに対する脱獄成功率がほぼ100%に達しました。InjecAgentベンチマークでは、GPT-4エージェントが間接プロンプトインジェクションに対し、ベースラインで24%、強化攻撃では47%の脆弱性を示しました。モデル層のコントロールは設定項目であり、監査要件を満たすものではありません。

4. 監査の課題が急務に

HIPAA、CMMC、PCI、SOXの監査人は「モデルにアクセス禁止を指示した」だけではアクセス制御の証拠として認めません。監査人が認証するのは設定ではなく、強制執行の事実です。規制当局がAIエージェントによるデータセットへのアクセス阻止の証拠を求めた際、必要なのはポリシーと人間の承認者に紐づいたログ記録であり、システムプロンプトではありません。

5. アーキテクチャの修正点はデータ層ガバナンス

強制執行はモデルからデータ層へ移行すべきです。すべてのAIリクエストを認証し、リアルタイムで属性ベースアクセス制御を評価し、データ返却前に完全な帰属情報付きでログ化します。これにより、モデルが侵害された場合やプロンプトが改ざんされた場合、新たな脱獄手法が登場した場合でも、強制執行が維持されます。エージェントは、許可されていないデータを読み取ることができません。

組織のセキュリティ、信じていませんか?その証明、できますか

今すぐ読む

GrafanaGhostは「例外」ではなく「予兆」だった理由

Noma SecurityによるGrafanaGhostの脆弱性公開(2026年4月)は、GrafanaのAIアシスタントをサイレントなデータ流出チャネルに変えるゼロクリック脆弱性を記録しました。研究者はURLパラメータに指示を埋め込み、それがGrafanaのログに記録されました。AIがログを処理し、指示に従って財務指標やインフラのテレメトリ、顧客情報を画像レンダーリクエストに埋め込んで攻撃者サーバーへ送信しました。たった1つのキーワードでモデルの安全フィルターを回避できました。

GrafanaGhost自体は修正済みですが、この攻撃手法自体は残っています。ForcedLeak(Salesforce Agentforce)、GeminiJack(Google Gemini)、DockerDashも同じ構図でした。既存プラットフォームに後付けされたAI機能、信頼できないコンテンツがモデルに届き、モデルが攻撃者の指示で行動、セキュリティツールは何も検知せず。過去18カ月で既存エンタープライズツールに追加されたAI機能は、すべて「発見待ちのGrafanaGhost」になり得ます――可観測性プラットフォーム、チケッティングシステム、CRM、コードエディタ、コラボレーションスイート、マーケティングオートメーションなど。

査読論文が私たちに伝えようとしてきたこと

2023年以降、学術研究は一貫した警鐘を鳴らしています。Wei、Haghtalab、SteinhardtによるNeurIPS論文 Jailbroken: How Does LLM Safety Training Fail?では、任意の有害プロンプトに対し、少なくとも1つの脱獄手法がほぼ100%成功することが示されました。CMUとAI Safety CenterのチームによるUniversal and Transferable Adversarial Attacksでは、Vicuna-7Bで88%、GPT-3.5で87.9%の攻撃成功率が示され、アーキテクチャを超えた転用も容易でした。構造的な結論は「スケール拡大だけでは失敗を解決できない」「防御的な学習だけでは勝てない」ということです。

エージェント固有の結果はさらに深刻です。InjecAgentベンチマークでは、ReActフレームワークを用いたGPT-4エージェントが間接プロンプトインジェクションに対し、ベースラインで24%、強化攻撃では47%の脆弱性を示しました。AgentDojoベンチマーク(米英AIセーフティ機関が評価に利用)では、防御策が攻撃成功率を下げる一方で、モデルの有用性も大きく低下することが分かりました。セキュリティと有用性のトレードオフは本質的であり、「効く防御策」はエージェントを使い物にならなくし、「有用性を保つ防御策」は攻撃面を開いたままにします。2026年4月に変わったのは、ラボと本番環境のギャップが消えたことです。

「ガードレールがある」はもはや防御策にならない理由

現在、AIエージェントを管理する多くの企業は、モデルの振る舞いを指示するシステムプロンプト、危険な出力をブロックする安全フィルター、高リスク行動の人間によるレビューの3つに頼っています。しかし、いずれも本質的なセキュリティコントロールではなく、単なる設定項目です。

Kiteworks 2026年予測レポートでは、225社中41%〜44%がAIエージェントに対し、人間による監督やモニタリング、データ最小化など基本的なガバナンスコントロールを導入していないことが判明しました。封じ込めはさらに深刻で、55%〜63%が目的バインディング、キルスイッチ、ネットワーク分離を欠いています。多くの組織はAIエージェントを「監視」する投資はしても、「止める」投資はしていません。

さらに根本的な課題として、モデルガードレール型のアプローチでは監査要件を満たせません。HIPAA、CMMC、PCI、SOXの監査人は「モデルにアクセス禁止を指示した」だけではアクセス制御の証拠として認めません。監査人が認証するのは強制執行であり、設定ではありません。規制当局がAIエージェントによるデータセットへのアクセス阻止の証拠を求めた際、必要なのはログ化された強制執行の事実であり、システムプロンプトではありません。

アーキテクチャの修正点:強制執行をデータ層へ

AIの振る舞いをモデル層で管理するのではなく、AIのアクセスをデータ層で管理しましょう。すべてのAIリクエスト――対話型アシスタント、RAGパイプライン、自律エージェントいずれも――は認証され、リアルタイムで属性ベースアクセス制御ポリシーに照らして評価され、データ返却前に完全な帰属情報付きでログ化される必要があります。強制執行の判断はエージェントとデータの間で行われ、モデル内部ではありません。

データ層ガバナンスには、モデルレベルのガードレールでは実現できない4つの特性があります:

認証されたアイデンティティ。すべてのエージェントIDは、ワークフローを委任した人間の承認者と暗号的に紐づけられ、認証情報はモデルのコンテキストに一切晒されません。委任チェーンは監査記録に保持され、プロンプトインジェクションによる秘密情報流出を直接的に防ぎます。

ポリシー強制のアクセス。認可は、エージェントのID・データの分類・リクエストのコンテキストを毎回ポリシーに照らして評価します。属性ベースアクセス制御は、ロールベースでは表現できない多次元ロジックを扱えます。

検証済み暗号化。保存中・転送中のデータはFIPS 140-3認証済み暗号モジュールで保護されます(ベストエフォートのTLSではありません)。これにより、人間・AIエージェント双方のデータアクセスに対し、連邦および規制業界要件を満たします。

改ざん検知可能な監査ログすべてのAIインタラクションは正規化された監査ログとしてリアルタイムでSIEMにストリーミングされます。規制当局が証拠を求めた際、調査ではなくレポートで回答できます。エージェントはユーザーの権限を継承し、どんな指示が侵害コンテンツ経由で届いても、それを超えてアクセスすることはできません。

KiteworksによるAIエージェント向けデータ層ガバナンスの実装

Kiteworks Secure MCP ServerとAI Data Gatewayは、AIシステムとエンタープライズデータの間に位置し、リクエスト元のモデル・フレームワーク・オーケストレーション層を問わず、データ層でガバナンスを強制します。

Secure MCP Serverは、ClaudeやMicrosoft CopilotのようなLLMアプリケーションが業界標準のModel Context Protocol経由でエンタープライズデータと連携できるようにします。すべての操作はOAuth 2.0認証で管理され、認証情報はOSキーチェーンに保存され、LLMのコンテキストには一切晒されません――プロンプトインジェクションによる秘密流出への直接的な対策です。ABACポリシーはすべてのファイル・フォルダー・フォーム操作をリアルタイムで評価します。レート制限で大量抽出を防ぎ、TLS検証・パストラバーサル遮断・監査ログ機能で規制当局が求める証拠を提供します。

AI Data Gatewayは、RAGパイプラインや自動化ワークフロー向けのプログラム的な同等機能を提供します。すべての取得リクエストは認証され、ABACポリシーに基づき認可され、返却前にログ化されます――AIプラットフォームを問わず、ベンダーロックインなしで実現します。同じガバナンスコントロールが人間ユーザー、サービスアカウント、AIエージェントすべてに適用されます。

Kiteworks Private Data Networkは、このアーキテクチャをすべてのデータ交換チャネル――メール、ファイル共有、SFTP、MFT、Webフォーム、API――に拡張し、1つのポリシーエンジンと統合監査ログで一元管理します。Kiteworks 2026年予測によれば、AIエージェントを本番運用している組織は51%、封じ込めコントロールを欠く組織は55%〜63%に上ります。導入速度とAIガバナンス成熟度のギャップは、エンタープライズAIポートフォリオにおける最大の未管理リスクです。データ層ガバナンスがこのギャップを埋めます。

次の脆弱性公開までに組織がすべきこと

まず、機密データに関わるすべてのAI統合を棚卸ししましょう。信頼できない入力を読み、規制対象コンテンツにアクセスするAI機能を持つツールはすべてリスト化してください。過去18カ月でAI機能が追加されたプラットフォームから着手しましょう――これらは脅威モデルなしで後付けされた可能性が高いです。

次に、モデルレベルのガードレールをコンプライアンス証拠として扱うのをやめましょう。NIST AIリスクマネジメントフレームワークやOWASP Top 10 for LLM Applicationsも、モデル層のコントロールは必要だが十分ではないと指摘しています。規制データに関わるすべてのAIシステムにデータ層での強制執行を義務付けてください。

三番目に、封じ込めのギャップを解消しましょう。目的バインディングで、1つのタスクに認可されたエージェントが他のタスクを実行できないようにします。キルスイッチで異常動作するエージェントを即時停止。ネットワーク分離でエージェントがデータ送信できる先を制限します。Kiteworks 2026年予測では、55%〜63%の組織がこれら基本コントロールを欠いています――それぞれ四半期単位のプロジェクトでリスクの一分野を解消できます。

四番目に、すべてのAIエージェントに暗号的なアイデンティティを要求しましょう。静的サービスアカウントや共有OAuthトークンは自律エージェントのIDとして不十分です。すべてのエージェントは、ワークフローを委任した人間の承認者と暗号的に紐づいた検証済みIDを持つべきです。HIPAAの「認可された人員」要件やCMMCのアクセス制御ファミリーを満たす監査証跡は、サービスアカウント名で終わってはなりません。

五番目に、OWASP Top 10 for LLM ApplicationsやAgentDojoベンチマークの既知パターンを使い、AI統合を間接プロンプトインジェクションに対してレッドチームテストしましょう。GrafanaGhostはGrafanaのセキュリティチームではなく、研究者によって発見されました。自組織がこの脆弱性クラスのテストを積極的に行っていなければ、次に発見するのは「誰か」になります。

脆弱性公開のペースは加速しています。規制データを守る強制執行が「モデルが指示通り動くこと」に依存しているのか、「モデルが指示通り動かなくても維持されるコントロール」に依存しているのか――この選択こそが、2026年のセキュリティプログラムで最も重要なアーキテクチャ判断となります。

AIデータガバナンスや機密データ保護についてさらに詳しく知りたい方は、カスタムデモを今すぐご予約ください

よくあるご質問

間接プロンプトインジェクションにより、攻撃者はウェブページやPDF、メールに隠れた指示を埋め込めます。エージェントがそのコンテンツを読むと、顧客ポートフォリオへのアクセスや口座データの取得、記録の攻撃者宛送信などが、マルウェアや異常ログインの警告なしに実行されます。Kiteworks 2026年予測では、55%〜63%の組織がAIエージェントのアクセス制御と封じ込めを欠いており、SECやFINRA規制データがこの攻撃クラスに直接さらされています。

安全性トレーニングは強制執行ではありません。NeurIPSの研究では、主要LLMに対する脱獄成功率がほぼ100%に達し、GrafanaGhostでは単一キーワードでGrafanaの防御を回避できました。HIPAAは「認可された人員」に紐づいたログ化された強制執行を求めており、設定だけでは不十分です。規制当局は「モデルに指示した」だけではアクセス制御の証拠として認めません。

準拠したRAGには、すべての取得リクエストに対する認証、認証済みユーザー権限に基づくABACポリシー評価、FIPS 140-3認証暗号化、改ざん検知可能な監査ログが必要です。Kiteworks AI Data Gatewayはこのアーキテクチャを提供し、すべてのAIクエリをモデルに依存せずデータ層で統治し、完全な帰属情報をリアルタイムでSIEMにストリーミングします。

CMMCレベル2のアクセス制御ファミリーは、AIエージェントによるCUIアクセスも含め、すべてのアクセスに対して認可と監査の強制を求めます。Kiteworks 2026年予測では、防衛産業基盤組織のうちCMMC対応準備ができているのは46%にとどまります。ABAC強制、FIPS 140-3暗号化、改ざん検知ログによるデータ層ガバナンスは、AC・AU・IAコントロールファミリーを人間・AIアクセスの両方で同時に満たします。

OWASP Top 10 for LLM ApplicationsやAgentDojoベンチマーク(いずれも公開済み)から始めましょう。過去18カ月で既存ツールに追加されたAI機能をすべて棚卸ししてください。AI機能が信頼できない入力を読み、機密データにアクセスし、外部送信を行う場合は、データ層ガバナンスが必須です。Secure MCP ServerとAI Data Gatewayが強制アーキテクチャを提供します――まずは棚卸しから始めましょう。

追加リソース

  • ブログ記事
    手頃なAIプライバシー保護のためのゼロトラスト戦略
  • ブログ記事
    77%の組織がAIデータセキュリティで失敗している理由
  • eBook
    AIガバナンスギャップ:2025年に91%の中小企業がデータセキュリティでロシアンルーレットをしている理由
  • ブログ記事
    あなたのデータに「–dangerously-skip-permissions」は存在しない
  • ブログ記事
    規制当局は「AIポリシーがあるか」ではなく「機能している証拠」を求めている

よくあるご質問

攻撃者はウェブページやドキュメント、メールに隠れた指示を埋め込みます。AIエージェントがそのコンテンツを閲覧・要約・処理する際に指示を読み取り、実行することで、フィッシングリンクやマルウェア、異常ログインなしにデータ流出・認証情報漏洩・攻撃者サーバーへの外部送信が発生します。

AIエージェントが攻撃者の指示を読み取り、正規チャネルで行動すると、流出は通常のAI動作に見えます。セキュリティスタックの視点ではAIは設計通りに動作しているため、異常なアクティビティとして検知されません。

システムプロンプトは上書き可能で、安全フィルターも回避されます。査読付き研究では、主要LLMに対する脱獄成功率がほぼ100%に達しています。これらのコントロールは設定項目であり、HIPAA、CMMC、PCI、SOXなどの監査要件を満たす強制的なセキュリティ対策ではありません。

すべてのAIリクエストを認証し、リアルタイムで属性ベースアクセス制御に照らして評価、データ返却前に完全な帰属情報付きでログ化することで、強制執行をデータ層に移します。これにより、モデルが侵害されても、エージェントは許可されていないデータを読み取ることができません。

まずは試してみませんか?

Kiteworksを使用すれば、規制コンプライアンスの確保とリスク管理を簡単に始めることができます。人、機械、システム間でのプライベートデータの交換に自信を持つ数千の組織に参加しましょう。今すぐ始めましょう。

Table of Content
Share
Tweet
Share
Explore Kiteworks