ガードレールが機能しないとき:AIコーディングツールとデータ層の課題
記者会見も、侵害通知レターもありませんでした。広く利用されているAIコーディングアシスタントに存在した脆弱性――研究者によれば、プロンプトインジェクションと組み合わせることで、本来アクセスできない環境からデータを引き出すことが可能だった――は静かに修正され、世の中は何事もなかったかのように動き続けました。問題は、ツールのネットワークサンドボックスにおけるSOCKS5ホスト名ヌルバイトインジェクションであり、これにより本来制限されるはずのアウトバウンドトラフィックが許可リストをすり抜けてしまう脆弱性でした。この修正にはCVEもリリースノートの記載もありませんでした。
静けさこそが、注目すべき点です。ファイルを読み、コマンドを実行し、リポジトリにアクセスするAIツールは今やあらゆる場所に存在し、アシスタントが業務を遂行する境界線と、攻撃者の手先となる境界線は、多くの組織が認識しているよりもはるかに薄いのです。興味深いのは「このバグが修正されたかどうか」ではありません――修正されました。問題は、次に修正されない場合に、あなたの防御がどうなっているかです。
5つの重要なポイント
1. 静かに修正されたサンドボックスバイパスは、単なる好奇心ではなく、今後の予兆である。
AIコーディングツールのサンドボックスエスケープがプロンプトインジェクションと連鎖し、データ流出経路が生まれました――静かに修正され、CVEもリリースノートもなし。修正は、失敗した境界線の修復でした。多くの組織には、その背後に第二の防御線がありません。次のエクスプロイトは事前に警告されることはなく、唯一の防御が直前に破られた層だけであれば、それがインシデントレポートの冒頭となります。
2. モデル層のガードレールはカテゴリとして破綻する。
約15,000件のカスタムAIアシスタントを調査した研究では、95%以上が十分なセキュリティ対策を欠き、96.51%がロールプレイ操作に脆弱であることが判明しました。システムプロンプト、フィルター、サンドボックスは、行動が交渉可能な層でのみ行動を制御します――そして研究者たちは、モデルがルールを破るように誘導できる入力を次々と発見しています。より賢いプロンプトも、所詮プロンプトです。AIガバナンスは、モデルの説得が及ばない場所で機能しなければなりません。
3. コンプライアンスが規制するのはデータアクセスであり、実行者ではない。
HIPAA、サイバーセキュリティ成熟度モデル認証、GDPR、PCI DSSは、誰がデータにアクセスできるか、そしてその証明ができるかを規定しています。人間かAIエージェントかは問題ではありません。つまり、ガバナンスはデータ層の責任です。アクセスが承認されていたか、暗号化されていたか、ログが残っていたか――これらはすべてデータ層の問いであり、モデル層の問いではありません。
4. 既存ツールはAIエージェントを検知できない。
DLP、WAF、EDRは、人間によるアクティビティを監視するために設計されています。認可されたエージェントが正規のAPIコールを行っても、これらの検査モデルには該当しません。侵害されたAIツールがデータを流出させても、それらのツールには「AIツールが本来の業務をしている」ようにしか見えません。唯一真実が見えるのはデータ層だけです。Kiteworks 2026年予測によれば、60%の組織がAI特有の異常検知を備えていません。
5. データ層で制御すれば、騙されたモデルでも許可されていないデータには手が届かない。
属性ベースアクセス制御と改ざん検知可能な監査ログをすべてのAIデータリクエストに適用することで、操作されたモデルも封じ込められます。拒否するのはモデルの「良い行動」ではなく、ポリシーエンジンです。Kiteworks 2026年予測によれば、43%の組織しかAIデータゲートウェイを中央集約しておらず、残り57%はモデルが侵害された際に生き残る制御点を持っていません。
組織のセキュリティを信じていませんか。本当に証明できますか?
Read Now
実際に何が起きたのか:サンドボックスバイパスとプロンプトインジェクションの連鎖
製品名を取り除けば、仕組みはシンプルです。AIコーディングツールはサンドボックス内で動作し――これは本来の業務範囲を超えないための境界線です。研究者はその境界線を突破する方法を発見しました。重要なのは、これがプロンプトインジェクションと組み合わさる点です。
プロンプトインジェクションとは、攻撃者がAIの読むコンテンツ――コードコメント、ファイル、ウェブページ、サポートチケットなど――の中に指示を隠し、モデルに悪意ある入力を正規のコマンドとして認識させる手法です。プロンプトインジェクションとサンドボックスバイパスを連鎖させれば、完全な経路が完成します:悪意ある指示が入り、結果的なアクションを止めるべき境界線が消え、データが通常のツール通信に見える経路で外部に流出します。どのステップも特別なものではありません。被害は、それらがいかにスムーズにつながるかにあります。
ベンダーは修正を行いました――それは良いことです。しかし、修正内容に注目してください。失敗した境界線の修復でした。防御と脆弱性が同じ場所に存在していたのです。その場所が破られたとき、第二の防御線はありません。これは特定のツールやベンダーだけの話ではなく、一般化すべきパターンです。
ガードレールが存在する層は、繰り返し破られる層である
現在のAIセキュリティの多くは、モデル層に構築されています:システムプロンプト、行動ガイドライン、コンテンツフィルター、サンドボックス境界など。これらは有用ですが、カテゴリとして回避可能でもあります――しかも頻繁に。約15,000件のカスタムAIアシスタントを調査した研究では、95%以上が十分なセキュリティ対策を欠き、96.51%がロールプレイ操作、92.20%がシステムプロンプト漏洩に脆弱であることが判明しました。プロンプトインジェクション対策を導入した主要プラットフォームも、研究者によって次々と回避されています。
これは特定のベンダーを批判するものではありません。行動が交渉可能な層で制御しようとする構造的な限界です。プロンプトは指示から逸脱させることができます。CrowdStrike 2026年グローバル脅威レポートでは、AIを活用した攻撃者活動が前年比89%増加し、検知の82%がマルウェア非依存であることが示されました――攻撃者は検知可能なツールを使うのではなく、正規のアクセスを悪用する傾向が強まっています。広範かつガバナンスのないAIエージェントは、まさにその悪用が依存する「正規アクセス」なのです。
では、論争の余地がない制御とは何か?答えは「より賢いプロンプト」ではありません。モデルの説得が及ばない場所にこそ、答えがなければなりません。
モデルではなくデータをガバナンスする
制御をモデルからデータ自体に移しましょう。モデルは侵害・操作・置き換えが可能です。規制データに誰がアクセスできるかというルールは、モデル内に存在する必要はありません。データへのアクセス時点で制御でき、モデルが騙されて何を試みても、そこで強制できます。
すべてのコンプライアンスフレームワークは、実際にはデータアクセスを規制しています。HIPAA、サイバーセキュリティ成熟度モデル認証、GDPR、PCI DSS――アクセスが承認されていたか、データが暗号化されていたか、やり取りがログに記録されていたか、そして後から証明できるかを規定しています。モデル層の制御が答えるのは「モデルに不正行為をさせられるか?」という問いです。データ層の制御が答えるのは全く別の問い――「モデルが何を要求したとしても、この特定のアクセスがこのリクエスターに今許可されているか?」です。前者は、研究者が少し時間をかければ何度も「はい」と答えが出ています。後者は、モデルの判断に一切依存しません。
中央集約型AIデータゲートウェイを持つ組織は43%に過ぎず、60%はAI特有の異常検知を備えておらず、63%はエージェントの目的制限を強制できず、60%は不正なエージェントを停止できない――Kiteworks 2026年予測より。AIの導入意欲は普遍的ですが、制御能力はそうではありません。
DLP、WAF、EDRが侵害されたエージェントを検知できない理由
多くの組織が運用しているセキュリティスタックは、人間を監視するために設計されています。AIエージェントは人間とは異なる挙動を示し、そのトラフィックパターンのギャップこそが、侵害されたエージェントの隠れ場所です。DLPは、個人アカウントにスプレッドシートをメール送信する人間を検知するように調整されていますが、認可されたエージェントが正規のAPIコールを行っても反応しません。WAFは人間のインバウンドトラフィックを検査しますが、エージェントによるマシン間通信は対象外です。EDRはデバイス上のプロセスやバイナリを監視しますが、認可された統合が要求するセマンティックな内容は見ていません。
これらの死角が重なることで、侵害されたAIツールがデータを流出させても、どのツールにも「AIツールが本来の業務をしている」ようにしか見えません。マルウェアに偽装する必要すらなく、トラフィックはネットワークレベルで認可・認証されています。唯一真実が見えるのはデータ層――実際に何が要求され、何が返されたかの記録だけです。
モデルが反論できない制御
Kiteworks Secure MCP Serverは、AIアシスタントをModel Context Protocol経由でエンタープライズコンテンツに接続しますが、すべてのリクエストはデータ返却前に属性ベースアクセス制御で評価されます。エージェントはタスクに必要なコンテキストだけを取得し、それ以上は取得できません。プロンプトインジェクションでモデルが範囲外のデータを要求しても、拒否するのはモデルの「良い行動」ではなくポリシーエンジンです。リクエストは認証され、作業を承認した人間に紐付けられ、データ分類やエージェントIDに基づいて評価され、FIPS 140-3認証暗号化下でのみ返却されます。これらの判断はモデルの行動に依存せず、モデルがどう振る舞おうと実行されます。
すべてのリクエスト(許可・拒否問わず)は、改ざん検知可能な監査ログに記録され、セキュリティチームの監視スタックに直接連携されます。DLPやファイアウォールに本来検知できないエージェントの不正行為を見抜かせる代わりに、すべてのエージェントデータ操作の記録が、アクセスが発生した層に既に存在します――属性付与、タイムスタンプ付与、リアルタイムでSIEMにストリーミング。AIデータゲートウェイはこれをRAGパイプラインにも拡張。Kiteworksプライベートデータネットワークは、メール、ファイル共有、マネージドファイル転送、SFTP、ウェブフォーム、API全体に拡張します――1つのポリシーエンジン、1つの統合監査ログ。
AIを導入するチームが今すぐ行うべきこと
まず、すべてのAIアクセス経路を棚卸ししてください。すべてのアシスタント、コパイロット、エージェントがエンタープライズコンテンツを読み取ったり移動したりできる経路を洗い出しましょう――セキュリティ部門に無断で導入されたものも含めて。見えないアクセスは制御できません。
次に、制御をデータ層に移しましょう。モデルをデフォルトで信頼しないものとし、操作されたモデルが到達できない場所にアクセス判断を置きます。Kiteworks 2026年予測によれば、中央集約型AIデータゲートウェイを持つ組織は43%――モデルが侵害されてもアクセス判断が生き残る制御点です。
三番目に、すべてのエージェントに最小権限と目的制限を強制しましょう。現在63%の組織が目的制限を強制できていません――多くのエージェントは定義された範囲を持たず、リダイレクトされれば自由に動き回れます。
四番目に、すべてのAIデータ操作を改ざん検知可能な形で記録しましょう。リクエストを承認した人間に紐付け、SIEMに記録をストリーミングします。監査人から「どのエージェントが何にアクセスしたか」と問われたとき、答えは既に存在していなければなりません。
五番目に、即座に発動できる封じ込め制御を構築しましょう。Kiteworks 2026年予測によれば、60%の組織が不正なエージェントを停止できません。数秒でエージェントを遮断できる能力は、インシデントと侵害の分かれ目です。この判断はアーキテクチャ上のものであり、本稿で唯一、攻撃者が言葉巧みに回避できない要素です。
AIエージェントワークフローから機密コンテンツを守る方法について詳しく知りたい方は、カスタムデモを今すぐご予約ください。
よくあるご質問
プロンプトインジェクションは、AIが読むコンテンツ――ファイル、コードコメント、ウェブページなど――の中に悪意ある指示を隠し、モデルに敵対的な入力を正規のコマンドとして認識させる手法です。サンドボックスバイパスと組み合わせることで、注入された指示がAIに許可範囲外のデータアクセスや流出を引き起こすことが可能になります。多くのカスタムAIアシスタントがこの種の攻撃に脆弱であることが研究で明らかになっています。
サンドボックスはAIツールを割り当てられたタスク内に閉じ込める役割を持ちます。バイパスされると、その境界を超えてアクセスできるようになります。プロンプトインジェクションと組み合わさると危険性はさらに増大します。攻撃者はAIに不正行為を指示し、かつ本来行動を止めるはずの制御を取り除くことができる――これにより封じ込めの欠陥がデータ流出経路へと変わります。これは、最近修正された脆弱性が可能にした連鎖です。
モデル層のガードレールは、行動が交渉可能な層で行動を制御します――そのため攻撃者は、モデルがルールを破るように誘導できる入力を何度も発見しています。15,000システムの調査では、カスタムAIアシスタントの96.51%がロールプレイ操作に脆弱と判明。Kiteworks 2026年予測によれば、60%の組織がAI異常検知を備えていません。ガードレールが破られた際に備えるものがほとんどなく、データ層のアクセス制御こそが不可欠な第二防御線となります。
データ層ガバナンスは、データ取得時点でアクセスルールを強制する仕組みです――モデルやプロンプトとは独立しています。すべてのリクエストは認証され、データ分類やエージェントIDに基づくポリシーで評価され、ログに記録されます。Kiteworks 2026年予測によれば、中央集約型AIデータゲートウェイを運用している組織は43%のみ。Secure MCP ServerおよびAIデータゲートウェイがその制御点を提供します。
一般的にはできません。DLP、WAF、EDRは人間によるトラフィックやファイル操作を検査しますが、認可されたAIエージェントによる正規のAPIコールは検知対象外です。Kiteworks 2026年予測によれば、60%の組織がAI異常検知を備えていません。可視性を確保するには、すべてのエージェントリクエストとそのポリシー結果を記録するデータ層での改ざん検知可能な監査ログが必要です。
追加リソース
- ブログ記事
ゼロトラスト戦略で実現する手頃なAIプライバシー保護 - ブログ記事
77%の組織がAIデータセキュリティで失敗している理由 - eBook
AIガバナンスギャップ:2025年に91%の中小企業がデータセキュリティでロシアンルーレット状態に - ブログ記事
あなたのデータに「–dangerously-skip-permissions」は存在しない - ブログ記事
規制当局は「AIポリシーがあるか」ではなく「機能している証拠」を求めている