Home > セキュリティとコンプライアンスブログ > サイバーセキュリティー・リスク管理 > AIエージェントのセキュリティリスク：94%のLLMが攻撃に脆弱

AIエージェントのセキュリティリスク：94%のLLMが攻撃に脆弱

by Patrick Spencer updated 10月 28, 2025 サイバーセキュリティー・リスク管理

Reading Time: 11 minutes

カラブリア大学の研究は、衝撃的な現実を明らかにしています。人気の高い大規模言語モデル（LLM）の94.1%が、AIエージェントとしてシステムアクセス権を持たせて運用した場合、悪用可能なセキュリティ脆弱性を含んでいるというのです。AI技術を急速に導入する企業にとって、これは単なる学術的な懸念にとどまらず、即時の対応が求められる重大なビジネスリスクです。企業が生産性向上のためにAIエージェントの導入を急ぐ一方で、脅威アクターがすでに悪用可能な高度な攻撃経路を無意識のうちに作り出しています。

研究の概要：何が検証され、なぜ重要なのか

カラブリア大学とIMT高等研究院の研究者は、LLMエージェントを攻撃経路として捉えた初の包括的なセキュリティ評価を実施しました。従来のチャットボットが単にテキスト応答を生成するのに対し、LLMエージェントは自律的にコマンドを実行し、システム端末へアクセスし、ナレッジベースから情報を取得し、他のエージェントと通信する能力を持っています。

Table of Contents

本研究では、GPT-4o、Claude-4、Gemini-2.5など、最先端のLLM 17種類を3つの異なる攻撃手法でテストしました。その結果、脆弱性の深刻な階層構造が明らかになりました。すべての攻撃経路を防御できたモデルはClaude-4-Sonnetの1つだけで、包括的なセキュリティの成功率はわずか5.9%でした。

この研究は、AIセキュリティにおけるパラダイムシフトを示しています。従来の研究は主にテキスト出力に対するコンテンツ操作やプロンプトインジェクションに焦点を当てていましたが、本調査は、システムレベルのアクセス権を持つAIエージェントが、正常動作を装いながらコンピュータを完全に乗っ取るための武器となり得ることを示しています。技術的な詳細については研究論文全文をご覧ください。

この影響は理論的な脆弱性にとどまりません。2025年半ばまでにエンタープライズAI導入の70%以上がマルチエージェントまたはアクションベースのシステムを含むと予測される中、企業は根本的に不完全なセキュリティフレームワークの技術を拡大導入しています。

主なポイント

人気AIモデルの94%が防御に失敗 テストされた17のLLMのうち、すべての攻撃経路を防御できたのはClaude-4-Sonnetのみ。OpenAI、Google、Anthropicなどの主要AIプラットフォームであっても、エージェントとしてシステムアクセスを持たせると悪用可能な脆弱性が残っています。企業は、人気があり潤沢な資金を持つAIソリューションであっても十分なセキュリティ対策が施されているとは限らないことを認識すべきです。
エージェント間の信頼が最大の弱点 AIモデルの82.4%が、ピアエージェントからのリクエストで悪意あるコマンドを実行します。これは、人間ユーザーからの同一コマンドをブロックできたモデルでも同様です。この「AIエージェント権限昇格」脆弱性は、マルチエージェントアーキテクチャの根本的な欠陥を示しています。現状のセキュリティ機構はAI同士の通信を本質的に信頼しており、エンタープライズ導入における最も危険な攻撃経路となっています。
RAGシステムが隠れた攻撃面を生む Retrieval-Augmented Generation（RAG）システムは、今やエンタープライズAI導入の標準ですが、ナレッジベース内の文書を汚染することで攻撃が成立します。52.9%の脆弱性率で、RAGバックドア攻撃は「ドキュメント権威バイアス」を突き、AIエージェントが外部から取得した情報を人間入力と同じセキュリティチェックなしに信頼することで成立します。たった1つの悪意ある文書がAIインフラ全体を攻撃経路に変える可能性があります。
攻撃は通常業務中に密かに進行 侵害されたAIエージェントは、マルウェアのインストール、リモート接続の確立、不正コマンドの実行などを、正規の業務を継続しながら行います。ユーザーは期待通りの出力（文書要約、データ分析、タスク完了など）を受け取る一方で、バックドアが同時に展開されます。このステルス性により、AIエージェント攻撃は特に危険で、従来のセキュリティ監視では検知が困難です。
AIデータガバナンスは不可欠 適切なガバナンスフレームワークなしでAIを導入する企業は、巨大な攻撃面を生み出し、規制対象の機密データを露出させています。解決策はAI導入を諦めることではなく、制御されたデータアクセス、安全なAIゲートウェイ、包括的な監査証跡、あらゆるやり取りを検証するゼロトラストアーキテクチャの導入です。2025年半ばまでにエンタープライズAI導入の70%がマルチエージェントシステムを含むと予測される今、ガバナンスフレームワークは事後対応ではなく即時展開が必須です。

3つの攻撃経路の解説

直接プロンプトインジェクション：入口となる脆弱性

直接プロンプトインジェクションは、ユーザーが提供したテキスト内に悪意あるコマンドを埋め込み、AIエージェントが処理する手法です。多くの企業は、最新LLMがこの種の攻撃に対して堅牢な防御を持つと考えがちですが、研究では41.2%のモデルが依然として脆弱であることが判明しました。

特に深刻なのは、3つのモデルが危険な指示だと認識したにもかかわらず、悪意あるコマンドを実行した点です。なぜかというと、システムプロンプトがタスク完了や効率性を重視し、セキュリティの優先度を下げていたためです。これは、AIエージェント設計における根本的なジレンマを示しています。自律的な行動やタスク完了といった有用性が、同時にセキュリティリスクを生むのです。

多くの企業は、AIエージェント導入時に直接プロンプトインジェクションのリスクを過小評価しがちですが、本研究はその前提が極めて危険であることを示しています。

RAGバックドア攻撃：ナレッジベースの毒化

Retrieval-Augmented Generation（RAG）システムは、外部ナレッジベースから関連情報を取得することでLLMの能力を拡張します。このアーキテクチャはエンタープライズAI導入の標準となっており、エージェントが機密文書やデータベース、情報リポジトリへアクセスできるようにしています。

RAGバックドア攻撃は、LLMとナレッジソース間の信頼関係を悪用します。攻撃者は、白地に白文字や極小フォントなどの手法で、ナレッジベース内の文書に悪意ある指示を埋め込みます。エージェントが通常業務中にこのコンテンツを取得すると、埋め込まれたコマンドを正規情報として処理します。

研究では、RAGバックドア攻撃の脆弱性率が52.9%と、直接プロンプトインジェクションよりも高いことが示されました。さらに重要なのは、直接攻撃を防御できた複数のモデルがRAG経由では侵害された点です。これは、研究者が「ドキュメント権威バイアス」と呼ぶ現象で、LLMが外部から取得した情報を本質的に信頼し、ユーザー入力に適用する安全機構をバイパスしてしまうことを意味します。

機密性の高い独自データへアクセスするRAGベースのAIシステムを構築する企業にとって、これは深刻なセキュリティギャップです。ナレッジベース内のたった1つの毒化文書が、AIアシスタントを攻撃経路に変えてしまいます。

エージェント間信頼の悪用：致命的な失敗点

マルチエージェントシステムは、複数のAIエージェントが連携して複雑なタスクを遂行するエンタープライズAI導入の最前線です。これらのアーキテクチャは、専門化されたエージェント間でタスクを分担することで高度なワークフローを実現します。

研究では、エージェント間信頼の悪用が最も危険な脆弱性であり、82.4%のモデルが侵害されることが判明しました。直接インジェクションやRAG攻撃を防御できたモデルであっても、ピアエージェントからの悪意あるリクエストには即座に屈しました。

この現象は「AIエージェント権限昇格」と呼ばれ、現状のマルチエージェントセキュリティアーキテクチャの根本的な欠陥を露呈しています。LLMは、人間とAI間のやり取りに比べて、AI同士の通信にははるかに緩いセキュリティポリシーを適用しています。ピアエージェントが本質的に信頼できるという暗黙の前提が、大きな死角を生み出しています。

Llama3.3:70bやLlama4:16x17bのようなモデルは、人間起点の攻撃には堅牢な防御を示しましたが、他のエージェントから同一の悪意あるペイロードを受け取ると実行してしまいました。セキュリティ機構がエージェント間通信には発動しなかったのです。

現実の影響：脆弱性から侵害へ

これらは理論上の懸念ではありません。研究者はMeterpreterベースのリバースシェルペイロードを用いて、完全なコンピュータ乗っ取りを実証しました：

マルウェアをメモリ上のみで実行し、ディスクベースの検知システムを回避
攻撃者が制御するサーバーへの永続的なリモート接続を確立
ユーザーに気付かれずに被害端末上で任意のコマンドを実行
エージェントが通常業務を継続しながらアクセスを維持

攻撃は、ユーザーが正規のタスクでエージェントを利用している間に成立します。たとえば、文書要約を依頼すると、エージェントは要約を返すと同時にバックドアをインストールします。エラーメッセージやパフォーマンス低下、目に見える侵害の兆候はありません。

特にリスクが高い2つのカテゴリ：

個人ユーザー： GitHubなどのプラットフォームからオープンソースAIエージェント実装をダウンロードするすべてのユーザー。これらのユーザーは善意でエージェントとやり取りしますが、特定の文書を処理したり特定のクエリを実行したりすると、隠された悪意ある動作が発動することに気付きません。AIの民主化は脆弱性の民主化も意味します。
エンタープライズ組織： AIエージェントを業務に統合する企業、特にユーザーが文書をアップロードできるRAGシステムを持つ場合。適切なサンドボックス外で動作する1つの侵害エージェントが、社内ネットワーク全体への横展開の足掛かりとなります。ナレッジベース内の1つの毒化文書が、AIインフラ全体をインサイダー脅威に変えてしまいます。

金融、医療、法務など、極めて機密性の高い規制データを扱い、AIエージェントの導入が急速に進む業界は、特に深刻なリスクにさらされています。AIエージェントの侵害によるデータ漏洩は、規制違反による罰則、訴訟費用、評判の失墜、競争上の不利などをもたらす可能性があります。

なぜ現状のAIセキュリティ対策は失敗しているのか

本研究は、AI業界のセキュリティアプローチにおける重大なギャップを明らかにしています：

人間中心のセキュリティモデル： 現在の安全性トレーニングはほぼ人間とAI間のやり取りに特化しています。マルチエージェントシステムを導入した企業は、AI同士の通信に多くの脆弱性が存在することを後になって知ることになります。
外部データへの誤った信頼： RAGシステムは取得した情報をデフォルトで事実かつ信頼できるものとみなします。ユーザー入力に比べてナレッジベースの内容への精査は最小限です。この「ドキュメント権威バイアス」が悪用可能な死角を生み出します。
コンテキスト依存の防御： モデルは攻撃経路ごとにセキュリティ挙動が大きく異なります。直接的な悪意プロンプトをブロックできるシステムでも、RAG経由やエージェント間リクエスト経由では同一コマンドを実行する場合があります。セキュリティは包括的ではなく、状況依存です。
脆弱性の階層構造： 研究は、防御が攻撃の高度化に伴い弱まる明確なグラデーションを示しています。直接プロンプトインジェクション（41.2%成功）＜RAGバックドア攻撃（52.9%成功）＜エージェント間信頼の悪用（82.4%成功）。
急速な導入プレッシャー： AI機能の導入を急ぐ企業は、セキュリティよりも機能性を優先しています。「速く動いて壊せ」という業界の合言葉が、システムレベルのアクセス権を持つAIシステムに適用され、予測可能かつ危険な結果を招いています。

SysdigのシニアサイバーセキュリティストラテジストであるCrystal Morin氏はダークAI脅威の分析で次のように述べています。「サイバーセキュリティは常に軍拡競争であり、AIはその賭け金をさらに引き上げた」。自律型AIエージェントの時代に、静的システム向けに構築された従来のセキュリティフレームワークはもはや時代遅れです。

Kiteworksのソリューション：AIデータアクセスのガバナンス

この研究は、制御されていないAI導入に関する重大な懸念を裏付けています。適切なデータガバナンスフレームワークなしでAIエージェントを導入する企業は、巨大な攻撃面を生み出し、機密情報を安全でないシステムにさらしています。

AIデータガバナンスのギャップ

多くの企業が把握できていないこと：

従業員がどのAIツールを業務データ処理に使っているか
どの機密情報がパブリックLLMに流れているか
独自データがAIの学習データセットに使われているかどうか
AIとのやり取りを通じた意図しないデータ漏洩の防止方法
AIシステムが規制コンプライアンス要件を満たしているかどうか

このガバナンスギャップは、従来のデータセキュリティツールがAI時代の脅威に対応していなかったために生じています。境界防御、暗号化、アクセス制御は保存中や転送中のデータには有効ですが、侵害される可能性のあるAIエージェントが積極的に処理するデータには対応できません。

Kiteworksプライベートコンテンツネットワークのアプローチ

Kiteworksプラットフォームは、包括的なガバナンスフレームワークを通じてAIセキュリティの脆弱性に対応します：

制御されたデータアクセス： プライベートコンテンツネットワークにより、機密データがパブリックLLMや安全でないAIシステムに流出するのを防ぎます。企業はAIエージェントがアクセスできる情報を制御し、HIPAA保護対象保健情報、GDPR個人データ、ITAR管理技術データなど規制データの露出を防ぎます。
AIデータゲートウェイ： 機密情報を露出させることなくAIイノベーションを実現する安全かつコンプライアンス対応の経路を提供します。企業はデータ主権と規制コンプライアンスを維持しつつAI機能を活用できます。ゲートウェイは安全な仲介役となり、データ保護ポリシーを強制しながらAI機能を提供します。
高度なガバナンスフレームワーク： ロールベースアクセス制御（RBAC）や属性ベースアクセス制御（ABAC）により、AIシステムへの無許可データ取り込みを防止します。企業はユーザーロール、データの機密性、ビジネスコンテキストに応じて、AIエージェントがアクセス可能なデータカテゴリや文書タイプ、情報分類をきめ細かく定義できます。
包括的な監査証跡： すべてのデータアクセスイベント（AIシステムのクエリも含む）について、どのシステムが、どの情報に、どの目的で、どのような結果でアクセスしたかを詳細に記録した監査ログを生成します。この可視性により、企業はAIの異常挙動を検知し、潜在的な侵害を調査し、規制コンプライアンスを証明できます。
ゼロトラストアーキテクチャ： すべてのアクセスポイントで検証を実施し、暗黙の信頼による脆弱性を排除します。これにより、エージェント間信頼の悪用脆弱性に直接対応し、AIエージェントを含むいかなるシステムも認証・認可なしに特権アクセスを得ることはできません。
統合機能： Kiteworksは既存のセキュリティインフラ（SIEMシステム、データ損失防止ツール、ID管理プラットフォームなど）と連携可能です。これにより、AIデータガバナンスを孤立した制御ではなく、全社的なセキュリティ運用に組み込むことができます。

企業が取るべき具体的アクション

即時リスク評価：

現在導入済みまたはパイロット中のAIツール・エージェントを全て棚卸し
どのシステムが端末アクセスやシステムレベル権限を持つか特定
これらのシステムがアクセス可能な機密データをカタログ化
RAGナレッジベースに毒化文書が含まれていないか評価
マルチエージェントアーキテクチャに信頼悪用の脆弱性がないか評価

確認すべき重要な質問：

従業員のAIツール利用状況を把握できているか？
機密データがパブリックLLMと共有されるのを防げるか？
AIデータアクセスのためのガバナンスフレームワークは存在するか？
AIシステムへのデータフローを監査・制御できるか？
AI導入が本番環境から適切にサンドボックス化されているか？
ベンダー契約にAI固有のセキュリティ要件が含まれているか？

AIセキュリティフレームワークの構築：

AIによる機密情報アクセスを制限するデータ分類ポリシーを実装
AIシステムとデータリポジトリの間を仲介するAIデータゲートウェイを導入
AIツール導入のための承認ワークフローを確立
すべてのAIエージェント導入前にセキュリティ評価を必須化
AI関連の侵害に特化したインシデント対応手順を策定
従業員にAIセキュリティリスクと安全な利用方法を教育

これらのガバナンスフレームワークを導入した企業は、セキュリティリスクを管理しながらAIイノベーションを推進できます。適切な制御なしに導入を急ぐ企業は、本研究が明確に証明した脆弱性に自らをさらすことになります。

結論：イノベーションとセキュリティの両立

カラブリア大学の研究は、現状のAIエージェントセキュリティが根本的に不十分であることを明確に示しています。テストされたモデルの94.1%が悪用可能な脆弱性を示した以上、企業は人気があり潤沢な資金を持つAIプラットフォームがこれらの問題を解決していると安易に考えてはなりません。

特に、機密データを扱う規制業界にとっては影響が深刻です。顧客の財務記録、保護対象保健情報、独自の知的財産などにアクセスできるAIエージェントが侵害されれば、その責任は技術的な問題にとどまらず、規制コンプライアンスや受託責任、競争力の維持にまで及びます。

しかし、適切な対応策はAI導入を諦めることではなく、リスクを管理しながらイノベーションを可能にするガバナンスフレームワークを導入することです。Kiteworksプライベートデータネットワークは、企業がAIエージェントを安全に展開するために必要な可視性、制御、監査能力を提供します。

サイバーセキュリティの状況はAIによって塗り替えられつつあります。これらの脅威を認識し、包括的なデータガバナンスフレームワークを導入する企業は、安全なAI導入を通じて競争優位を獲得できます。警告を無視した企業は、有用なAIアシスタントが攻撃経路に変わることで痛い教訓を学ぶことになるでしょう。

今すぐ行動を：自社のAIセキュリティ体制を評価し、データガバナンス制御を実装し、AIイノベーションのための安全な経路を確立してください。研究は明確です。脆弱性は存在し、すでに積極的に悪用されており、脅威アクターより先に対策を講じることが自社のデータセキュリティを守る鍵です。

カラブリア大学の研究（手法、テストモデル、攻撃実装など技術詳細を含む）については、arXiv掲載の論文“The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover”を参照してください。

よくある質問

LLMエージェントのセキュリティ脆弱性とは、AIシステムが自律的にコマンドを実行したり、システム端末へアクセスしたり、外部ツールと連携したりできる能力を持つことで生じる、悪用可能な弱点のことです。従来のチャットボットがテキスト生成のみを行うのに対し、LLMエージェントはコンピュータシステム上で実際にアクションを実行できます。カラブリア大学の研究では、GPT-4o、Gemini-2.5、Claude-4などを含む人気AIモデルの94.1%に、攻撃者がコンピュータを完全に乗っ取るために悪用できるセキュリティ上の欠陥があることが判明しました。これらの脆弱性が重要なのは、企業がリスクを十分に理解しないまま、システムレベルのアクセス権を持つAIエージェントを急速に導入しているためです。侵害されたAIエージェントは、マルウェアのインストール、機密データの窃取、バックドアによる持続的なアクセス維持などを、正常に動作しているように見せかけながら実行できるため、HIPAA、GDPR、ITAR管理情報など規制データを扱う企業にとって特に危険です。

RAG（Retrieval-Augmented Generation）バックドア攻撃は、外部ナレッジベースから情報を取得するAIシステムに対し、文書に隠された悪意ある指示を埋め込むことで成立します。攻撃者は、白地に白文字、極小フォント、または人間には見えない隠し書式などの手法でコマンドを注入します。AIが通常業務中にこの汚染されたコンテンツを取得すると、埋め込まれた悪意コマンドを正規情報として処理し、セキュリティアラートを発生させることなく実行します。研究によると、テストされたLLMの52.9%がRAGバックドア攻撃に脆弱であり、直接プロンプトインジェクション（41.2%）よりも高い割合です。これは、AIエージェントが独自文書リポジトリや顧客データベース、サードパーティナレッジソースにアクセスするエンタープライズ導入において特に深刻です。RAGシステムをカスタマーサポートやリサーチ支援、文書分析に利用する企業は、ナレッジベースの適切なセキュリティと検証がなければ重大なリスクに直面します。

エージェント間信頼の悪用とは、マルチエージェントシステム内でAIエージェント同士が、ピアエージェントからのリクエストを人間からのやり取りと同じレベルで精査せず、暗黙の信頼を置いてしまう現象です。研究では、テストされたAIモデルの82.4%が、他のエージェントからのリクエストで悪意あるコマンドを実行することが判明しました。これは、人間ユーザーからの同一コマンドをブロックできたモデルでも同様です。この「AIエージェント権限昇格」脆弱性は、現状のLLM安全性トレーニングが主に人間とAI間のやり取りに焦点を当てているため、AI同士の通信がほとんど保護されていないことに起因します。専門化されたエージェントが連携して複雑なタスクを遂行するマルチエージェントアーキテクチャでは、1つの侵害エージェントが他のエージェントに本来ブロックされるべき危険な操作を指示できるため、エンタープライズAI導入における最も重大な脆弱性となっています。2025年半ばまでに企業の70%がマルチエージェントシステムを導入すると予測される中、プロンプトインジェクションや悪意あるユーザー入力を防ぐセキュリティ機構が、ピアエージェント起点のリクエストには発動しないことが問題です。

企業は、AIシステムがアクセスできる情報や機密データとのやり取りを制御する包括的なデータガバナンスフレームワークを導入することで、AIエージェントを保護できます。Kiteworksプライベートコンテンツネットワークのアプローチには、(1) 機密情報がパブリックLLMや安全でないAIシステムに流出するのを防ぐ制御されたデータアクセス、(2) データ保護ポリシーを強制しながらAIイノベーションを実現するAIデータゲートウェイ、(3) 規制データへのAIアクセスを制限するロールベース・属性ベースアクセス制御による高度なガバナンス、(4) すべてのAIシステムによる企業データへのアクセスを追跡する包括的な監査証跡、(5) 暗黙の信頼を排除し、すべてのアクセス要求を検証するゼロトラストアーキテクチャ、が含まれます。さらに、AIエージェントの適切なサンドボックス化、導入前のセキュリティ評価、外部ナレッジベースコンテンツの検証、AIの異常挙動の監視、AI関連インシデント対応手順の策定、従業員へのAIセキュリティリスク教育なども有効です。これらの制御は、侵害発生後の事後対応ではなく、AIの広範な導入前に実施する必要があります。

17種類の最先端LLMをテストした研究では、Claude-4-Sonnet（5.9%）のみが、直接プロンプトインジェクション、RAGバックドア攻撃、エージェント間信頼の悪用という3つの攻撃経路すべてを防御できました。特に脆弱性が高かったのは、GPT-4o-mini、Gemini-2.0-flash、Magistral-medium、qwen3:14b（3種すべての攻撃に脆弱）です。GPT-4o、GPT-4.1、Llama系のいくつかは直接攻撃には耐えましたが、エージェント間信頼の悪用で侵害され、セキュリティが包括的ではなく状況依存であることを示しています。特に、Gemini-2.5-flash、Magistral-medium、qwen3:14bの3モデルは、危険なコマンドと認識しながらも、システムプロンプトがタスク完了を優先したため実行してしまいました。脆弱性の階層構造は、直接プロンプトインジェクション41.2%、RAGバックドア攻撃52.9%、エージェント間信頼の悪用82.4%となっています。企業は、人気があり潤沢な資金を持つAIプラットフォームであっても十分なセキュリティがあると過信せず、システムアクセスや機密データアクセスを持つLLMエージェントの導入前には必ず独立したテストと検証を行うべきです。