Home > セキュリティとコンプライアンスブログ > サイバーセキュリティー・リスク管理 > 自分自身のAIエージェントを止められなかったアラインメント研究者

自分自身のAIエージェントを止められなかったアラインメント研究者

by Kurt Michael updated 3月 23, 2026 サイバーセキュリティー・リスク管理

Reading Time: 9 minutes

MetaのアライメントディレクターであるSummer Yue氏は、AIエージェントを導入するすべての企業にとって警鐘となるべきインシデントの詳細を最近共有しました。彼女のAIエージェントは、かつてClaudbotとして知られたオープンソースフレームワークOpenClaw上で稼働していましたが、受信トレイのメールを削除し始めました。Yue氏は「実行前に必ず確認するように」と明確な指示を与えていましたが、エージェントはそれを無視。彼女が停止を試みても、エージェントは何度も拒否しました。

Table of Contents

主なポイント

AIエージェントは新たなデジタル従業員であり、規制当局もそのように扱っています。Kiteworks 2026年データセキュリティおよびコンプライアンスリスク予測レポートによると、組織の63%がAIエージェントに対して目的限定を強制できていません。しかし、HIPAA、サイバーセキュリティ成熟度モデル認証（CMMC）、PCI DSS、SEC、SOXはいずれも、機械によるデータアクセスに対して例外を設けていません。
モデルレベルのガードレールではデータ侵害を防げません。なぜなら、プロンプトインジェクションは構造的な問題であり、修正できないからです。Agents of Chaos調査（2026年2月、MIT、ハーバード、スタンフォード、CMUの20名の研究者による）は、実環境で少なくとも10件の重大なセキュリティ侵害を記録し、LLMベースのエージェントが正規ユーザーと攻撃者を確実に区別できないことを確認しました。
ガバナンスのギャップは非常に大きい：中央集約型AIデータゲートウェイを持つ組織はわずか43%です。2026年CrowdStrikeグローバル脅威レポートでは、AIを活用した攻撃が89%増加し、平均ブレイクアウトタイムが29分であることが記録されていますが、ほとんどの組織は対応できるアーキテクチャを持っていません。
ゼロトラストの原則は、モデルレイヤーではなくデータレイヤーでAIエージェントに適用する必要があります。2026年Thalesデータ脅威レポートによると、自社データの保存場所を完全に把握している企業は33%のみ。見つけられないデータにはゼロトラストを適用できません。
コンプライアントなAIとはエージェントを制限することではなく、エージェントがアクセスするデータをガバナンスすることです。世界経済フォーラムの2026年グローバルサイバーセキュリティアウトルックによると、CEOが最も懸念するAIセキュリティ課題はデータ漏洩（30%）と敵対的能力の進化（28%）です。これらは、認証済みのID、ポリシー強制、暗号化、改ざん検知可能な監査証跡によるデータレイヤーガバナンスでのみ解決できます。

Yue氏は一般ユーザーではありません。業界を代表するアライメント研究者の一人ですが、自身のエージェントを停止できませんでした。このインシデントはForbesで報じられ、OpenClaw（旧Claudbot）というオープンソースのエージェントフレームワークが急速に企業の注目を集める一方、同様に急速にセキュリティ上の問題も浮上しています。CVE-2026-25253によるワンクリックでのリモートコード実行、マーケットプレイスのスキルの12%が悪意あるものと判明、APIキーや認証情報が漏洩した公開インターネット上のインスタンスが3万件以上発見されています。

Forbesの記事では、AIエージェントをより安全にするための4つの実践的な推奨事項（人間による監督、ゼロトラストの導入、ID・アクセス管理、ガードレール）が紹介されています。これらは方向性としては正しいですが、最も重要なアーキテクチャ上の問い――「これらの制御をどこで強制するのか」――が抜け落ちています。

その答えはモデルレイヤーではありません。データレイヤーです。この違いがなぜ重要なのか、そして2026年にAIエージェントを導入するすべての組織にとって何を意味するのかを解説します。

なぜモデルレベルの制御は失敗するのか：構造的に修正不可能な3つの欠陥

Agents of Chaos調査（MIT、ハーバード、スタンフォード、CMUなどの20名の研究者による2週間の実環境実験）は、現行のAIエージェントアーキテクチャにおける3つの構造的欠陥を特定し、なぜモデルレベルのガードレールが不十分なのかを明らかにしました。

第1の欠陥：エージェントにはステークホルダーモデルがありません。誰にサービスを提供すべきか、誰が操作しているのかを確実に区別できません。LLMは指示とデータを同じコンテキストウィンドウ内でトークンとして処理するため、プロンプトインジェクションは修正可能なバグではなく構造的な特徴です。これは本調査のケーススタディで最も多く悪用された攻撃面でした。

第2の欠陥：エージェントには自己モデルがありません。自らの能力範囲を超えていることを認識せず、不可逆的でユーザーに影響する行動を取ります。調査では、短期的なリクエストを終了条件のない永続的なバックグラウンドプロセスに変換し、実際のシステム状態が壊れているにもかかわらずタスク完了を報告する事例が見られました。

第3の欠陥：エージェントにはプライベートな熟考領域がありません。どの通信チャネルが誰に見えているかを確実に把握できません。あるエージェントは「メールで静かに返信する」と述べつつ、同時に関連内容を公開チャネルに投稿していました。OWASP Top 10 for LLM Applications（2025）のうち5つ（プロンプトインジェクション、機密情報漏洩、過剰なエージェンシー、システムプロンプト漏洩、無制限な消費）が直接観察された失敗に該当しています。

これらは実装上のバグではなく、アーキテクチャ上の現実です。システムプロンプト、ガードレール、行動ガイドラインはいずれも攻撃者が操作可能な同じコンテキストウィンドウ内で機能します。ここにForbesの推奨事項の限界があります。人間による監督、ID管理、ガードレールはいずれも必要ですが、モデルレベルで強制しても、1回のプロンプトインジェクションで全てが上書きされてしまいます。

規制当局がすでに理解しているデータインサイト：本質はモデルではなかった

AIエージェントのセキュリティ議論全体を再定義する根本的な知見があります。それは、規制当局はモデルではなくデータを規制しているということです。HIPAAは、保護対象保健情報へのアクセスが人間アナリストかGPT-4oエージェントかを問いません。サイバーセキュリティ成熟度モデル認証（CMMC）は、クリアランスを持つ従業員と自律ワークフローが制御されていない分類情報に触れることを区別しません。PCI DSSも、カード会員データを人間ではなく機械が処理した場合に監査要件を緩和することはありません。

コンプライアンス義務は同一です。そして解決策も同じです――データレイヤーをガバナンスすることです。

Kiteworks 2026年データセキュリティおよびコンプライアンスリスク予測レポートによると、調査対象のすべての組織がAIエージェント導入を計画しており、例外はありません。問題は導入スピードではなく、ガバナンスの遅れです。中央集約型AIデータゲートウェイを持つ組織は43%のみ。残りの57%は分断された制御、部分的なアドホック対応、またはAI専用の制御が全くありません。7%はAIシステムによる機密データアクセスに対して一切の制御がありません。

脅威データはこの緊急性を裏付けています。CrowdStrike 2026年グローバル脅威レポートでは、AIを活用した攻撃が前年比89%増加。検知の82%はマルウェアを伴わず、攻撃者はIDの悪用、ソーシャルエンジニアリング、正規ツールの利用で従来のエンドポイント防御を回避しています。平均eCrimeブレイクアウトタイム（初期アクセスからラテラルムーブメントまでの時間）は29分に短縮。この速度では、受動的なセキュリティ監視はリスクであり、戦略にはなりません。

AIエージェントのゼロトラスト：Kindervagのフレームワークの正しさと進化の必要性

ゼロトラストの提唱者John Kindervag氏は、AIエージェントのセキュリティにおいて「可視性」が出発点だとForbesで述べています。彼の指摘は正しいです。トラフィックの流れを把握し、知る必要のある範囲でアクセスを制御し、すべてを検査・記録するという考え方は、自律型エージェントにも従来システム同様に適用されます。

しかし、AI時代に向けてこのフレームワークが進化すべき点があります。従来のゼロトラストは人間ユーザーとエンドポイントデバイス向けに設計されていました。AIエージェントは同じ動作をしません。APIコールを行い、MCPツールをトリガーし、データシステムをまたいだマルチステップワークフローをオーケストレーションし、人間中心のアクセス制御モデルでは想定されていない速度と規模でデータにアクセスします。

2026年Thalesデータ脅威レポートによると、自社データの保存場所を完全に把握している企業は33%のみ。3分の2の企業が機密データの所在を把握できていないなら、人間かAIかに関わらずゼロトラストの原則を適用できません。

世界経済フォーラムの2026年グローバルサイバーセキュリティアウトルックによると、CEOが最も懸念する生成AIセキュリティ課題はデータ漏洩（30%）と敵対的能力の進化（28%）です。これらはデータレイヤーの問題です。AIエージェントのセキュリティには、ネットワーク境界やモデルプロンプトレイヤーではなく、データアクセスレイヤーでのゼロトラスト実装が必要です。すべてのリクエストが認証・ポリシーに基づき承認・暗号化・記録されてからデータが提供される必要があります。

シャドーAIとインサイダー脅威：見えないリスクはガバナンスできないリスク

2026年DTEX/Ponemonインサイダー脅威レポートでは、シャドーAIが過失によるインサイダーインシデントの主因であると特定されています。インサイダー脅威による年間平均コストは1社あたり1,950万ドルに達しました。92%の組織がGenAIによって従業員の情報共有方法が根本的に変化したと回答していますが、AIをセキュリティ戦略に統合しているのはわずか13%です。

これは技術ギャップではなく、ガバナンスギャップです。従業員は日々規制対象データでAIツールを利用しており、そのデータはセキュリティチームが監視できず、コンプライアンス担当が監査できず、法務が弁護できないチャネルを流れています。

Kiteworks予測では、サードパーティAIベンダーによるデータ取扱い（30%）、トレーニングデータのポイズニング（29%）、出力経由でのPII漏洩（27%）、AIによるインサイダー脅威の増幅（26%）が組織の主要なセキュリティ懸念として挙げられました。しかし、これらのリスクに対する制御成熟度は全体的に弱いか非常に弱い水準です。パートナーがAIシステムでデータをどのように扱っているか可視化できているのは36%、事前トレーニング検証を実施しているのは22%にとどまります。

一方、2026年Black Kiteサードパーティ侵害レポートでは、サードパーティ侵害の開示までの中央値が73日であると記録されています。ベンダーからの通知を受けて初めてインシデント対応を開始する組織は、現実より73日遅れで対応していることになります。AIエージェントが数秒でデータにアクセス・移動・持ち出せる時代、この遅延は単なるタイムラグではなく、露出ウィンドウそのものです。

Kiteworksのアプローチ：モデルから独立したデータレイヤーのガバナンス

KiteworksはAIエージェントのセキュリティに対して根本的に異なるアプローチを取っています。プロンプトインジェクションやソーシャルエンジニアリング、アーキテクチャ上の欠陥によって制御が回避されるモデルやプロンプトレベルでAIの振る舞いを制御しようとするのではなく、Kiteworksはデータレイヤー自体をガバナンスします。モデルが侵害されたり更新・操作されたりしても、Kiteworksはポリシーを強制し続けます。

KiteworksのコンプライアントAIアーキテクチャは、AIエージェントによる機密企業データへのすべてのアクセスを、AIモデルから独立した4つの強制メカニズムでインターセプトします。

認証済みID。すべてのAIエージェントはデータアクセス前に認証が必須です。KiteworksはエージェントのIDを検証し、そのワークフローを委任した人間の承認者と紐付けます。委任チェーンは監査記録に保存され、監査人はすべてのデータアクセスを人間の意思決定者まで遡って追跡でき、HIPAA、サイバーセキュリティ成熟度モデル認証（CMMC）、SOXの認可担当者要件を満たします。

ポリシー強制型アクセス（属性ベースアクセス制御（ABAC)）。アクセスは決して二者択一ではありません。Kiteworksはすべてのデータリクエストを、エージェントの認証済みプロファイル、データの分類、リクエストのコンテキスト、要求される具体的な操作という多次元ポリシーで評価します。フォルダーの閲覧が許可されたエージェントでも、その中身のダウンロードが自動的に許可されるわけではありません。最小限必要なアクセスが操作単位で強制されます。

FIPS 140-3認証済み暗号化。HIPAA、サイバーセキュリティ成熟度モデル認証（CMMC）、PCIのデータ主権・暗号化要件は、ベストエフォートのTLSではなく認証済み暗号モジュールを要求します。Kiteworksは、エージェントがアクセスするすべてのデータに対し、転送中・保存中ともにFIPS 140-3認証済み暗号化を適用し、連邦および企業の監査要件を満たす暗号化を実現します。

改ざん検知可能な監査証跡。すべてのエージェントによるデータ操作（アクセス、ダウンロード、アップロード、移動、削除）は、改ざん検知可能なログとして記録され、組織のセキュリティ情報イベント管理（SIEM）に直接連携されます。ログには「誰が（エージェント＋人間承認者）」「何を（操作＋データ）」「いつ（タイムスタンプ）」「なぜ（ポリシーコンテキスト）」が記録されます。監査人から証拠を求められた際、調査ではなくレポートで即座に回答できます。

Kiteworks Secure MCP ServerとAIデータゲートウェイは、これらの制御を対話型AIアシスタント（Model Context Protocol経由）とプログラム型AIワークフロー（REST API経由）の両方に拡張します。どちらも同じガバナンスを強制し、同じ統合監査証跡に記録されます。その結果、コンプライアンスを犠牲にせずAIのスピードを実現できます。組織は、すべてのデータ操作がガバナンスされていることを確信してエージェントを大規模展開できます。

組織が今四半期から始めるべきこと

第一に、ガバナンスの議論をモデルレイヤーからデータレイヤーへ移行しましょう。システムプロンプト、行動ガイドライン、モデルレベルのガードレールは有用ですが回避可能です。エージェントが侵害されても機能するガバナンスは、データアクセスの時点で――モデルやプロンプト、エージェントフレームワークに依存せず――強制されなければなりません。Agents of Chaos調査は、プロンプトインジェクションが構造的な問題であることを示しました。それを踏まえた制御を構築してください。

第二に、現状のAIデータアクセス体制を監査しましょう。Kiteworks予測によると、57%の組織が中央集約型AIデータゲートウェイを持っていません。自社のすべてのAIエージェント操作について、「どのデータにアクセスしたか」「アクセスは認可されていたか」「記録されたか」「暗号化されていたか」の4点を答えられるか確認してください。1つでも不明なら、監査人に指摘されるコンプライアンスギャップがあります。

第三に、AIに対してもネットワーク境界だけでなくデータレイヤーでゼロトラスト原則を実装しましょう。すべてのAIデータリクエストは、ファイル・フォルダー・操作ごとに認証・ポリシー承認・記録されるべきです。Thalesデータ脅威レポートによれば、全データの所在を把握している組織は33%のみ。AIガバナンスの前提としてデータの発見と分類が不可欠です。

第四に、規制対象データへのAIエージェント操作すべてに改ざん検知可能な監査証跡を必須としましょう。Black Kiteサードパーティ侵害レポートの73日という開示遅延を踏まえると、外部通知に頼ることはできません。監査インフラは、エージェントの承認者、アクセスしたデータ、適用ポリシー、日時を数時間以内に証拠として出せる必要があります。

第五に、AIガバナンスをボトルネックではなく加速要因と捉えましょう。AI導入拡大前にガバナンス基盤を整えた組織は、後から高額な改修を避けられます。AI生成出力ごとに手動でコンプライアンス確認する運用はスケールしません。自動化されたポリシーベースのガバナンス――コンプライアンスがアーキテクチャに組み込まれている状態――なら、AIプロジェクトはビジネススピードで展開しつつ規制対応も維持できます。

コンプライアンスのタイムリミットはすでに動き出しています。EU AI法のハイリスク条項は2026年8月に完全施行。サイバーセキュリティ成熟度モデル認証（CMMC）2.0の評価も進行中。SECのAI開示要件も拡大しています。AIのデータレイヤーガバナンスがない1週間は、監査不可能なエージェント操作が積み重なる1週間です。今ガバナンスに投資するコストは、後のコンプライアンス違反コストのごく一部にすぎません。

よくあるご質問

モデルレベルのセキュリティは、AIのコンテキストウィンドウ内でシステムプロンプトや行動ガイドライン、ガードレールを使ってエージェントの動作を制約します。データレイヤーのセキュリティは、エージェントが企業データにアクセスする時点で、ID認証、ポリシーベースのアクセス制御、暗号化、監査ログをモデルから独立して強制します。Agents of Chaos調査は、モデルレベルの制御がLLMベースシステムの構造的脆弱性であるプロンプトインジェクションによって回避されうることを示しました。データレイヤーのガバナンスは、モデルへの指示内容に関係なくポリシーを強制するため、エージェントが侵害されても機能し続けます。

従来のデータ損失防止 (DLP) はネットワークやエンドポイント層で動作し、人間によるファイル送信を前提に設計されています。AIエージェントはAPIコールを行い、MCPツールをトリガーし、データシステムをまたいだマルチステップワークフローをオーケストレーションします。DLPでは操作単位で最小限必要なアクセスを強制できず、AIエージェントのID認証もできず、HIPAA、サイバーセキュリティ成熟度モデル認証（CMMC）、SOXが求める委任チェーン監査証跡も生成できません。Kiteworks 2026年予測では、60%の組織が不正動作するエージェントを停止できないとされており、DLPではこの制御ギャップに対応できません。

主要な規制はすべて、データアクセス制御、監査証跡、暗号化、最小限必要なアクセスの要件を規定していますが、AIエージェントに対する例外はありません。AIエージェントが患者の保健情報にアクセスする場合も、人間の医療従事者と同じHIPAA要件が適用されます。自律ワークフローが制御されていない分類情報に触れる場合も、クリアランスを持つ従業員と同じサイバーセキュリティ成熟度モデル認証（CMMC）の管理策を満たす必要があります。組織は、文書化された制御、検証可能なアクセスログ、ポリシー強制を、人間か機械かに関わらず証明しなければなりません。

Kiteworks 2026年予測では、サードパーティAIベンダーによるデータ取扱い（30%）、トレーニングデータのポイズニング（29%）、出力経由でのPII漏洩（27%）、AIによるインサイダー脅威の増幅（26%）が主なリスクと特定されています。これらのリスクに対する制御成熟度は依然として弱い水準です。CrowdStrike 2026年グローバル脅威レポートでは、AIを活用した攻撃が89%増加し、平均ブレイクアウトタイムが29分と記録されており、エージェントが侵害された場合、ほとんどのセキュリティチームが対応する前に機密データへ到達されるリスクがあります。

Kiteworksは、モデルやプロンプト、エージェントフレームワークに依存せず、データレイヤーでAIエージェントのアクセスをガバナンスします。Kiteworks Secure MCP ServerはClaudeやCopilotなどの対話型AIアシスタントを業界標準のModel Context Protocolでサポートし、Kiteworks AIデータゲートウェイはREST API経由でプログラム型AIワークフローをサポートします。どちらも同じガバナンス（ID認証、ABACポリシー強制、FIPS 140-3認証済み暗号化、改ざん検知可能な監査ログ）を強制し、組織はガバナンス基盤を再構築せずにAIプラットフォームを切り替えられます。