コンテンツに移動
セキュリティ & アイデンティティ

How Google Does It: 効果的な AI レッドチームの構築

2026年4月17日
https://storage.googleapis.com/gweb-cloudblog-publish/images/GettyImages-2193460418.max-2600x2600.jpg
Daniel Fabian

Director, Red Teaming

Seth Rosenblatt

Security Editor, Google Cloud

Get original CISO insights in your inbox

The latest on security from Google Cloud's Office of the CISO, twice a month.

Subscribe

Google がどのようにセキュリティを運用しているのか、考えたことはないでしょうか。「How Google Does It」シリーズでは、Google のスペシャリストが、セキュリティに関する喫緊のトピック、課題、懸念事項に対する Google のアプローチについて詳しく解説し、インサイト、所見、重要なヒントを紹介しています。今回は、レッドチーム担当ディレクターである Daniel Fabian が、攻撃者よりも先に AI システムの脆弱性を発見することについて、Google の AI レッドチームから得た教訓を共有します。

Google のレッドチームは、その発足以来、Google のセキュリティ アプローチに不可欠な存在となり、防御チームの信頼できるスパーリング パートナーとして、従業員、ユーザー、お客様の保護に貢献しています。Google は、最新のテクノロジー イノベーションに対応するためにレッドチームの取り組みを継続的に進化させており、その一環として AI 専門のレッドチームを設置しました。

AI レッドチームは、従来のレッドチームと同様に、国家や高度な持続的脅威(APT)グループからサイバー犯罪者、ハクティビスト、悪意のあるインサイダーまで、Google を標的とする敵対者をシミュレートするために実際の攻撃を行います。しかし、私たちの使命は一つで、それは AI デプロイメントを狙う脅威アクターの思考を理解することです。

そのため、AI レッドチームは、脅威インテリジェンス チームが現在確認している複雑な技術的攻撃を模倣して実行するため、そして敵対者が将来試みる可能性のある新しい攻撃に Google が備えるために必要となる、AI に関する専門知識を持っています。こうした取り組みは、潜在的な脆弱性や弱点を特定し、攻撃を予測してより強力かつ迅速な防御を構築する能力を高めるうえで重要な役割を果たしています。

従来のセキュリティ防御は、過去の豊富な侵害データに基づいて構築されることが多いですが、実社会での AI に対する攻撃は(今のところ)幸いにも稀であるため、このタイプのレッドチームは、対策のための最も重要なツールの一つとなっています。より安全な AI を実現するために、Google がどのようにレッドチームを活用しているか、その重要な側面を詳しく見ていきましょう。

1.現実的な攻撃シナリオを作る

AI に対する現実的な攻撃シナリオをシミュレートするとき、AI レッドチームは攻撃者のように考える必要があります。演習を開始するには、攻撃者が誰で、どのような能力を持ち、どのような目標を達成したいのかを定義します。次に、攻撃者がその目標をどのように達成するかについてのアイデアを出します。その際には、攻撃者がどのような対象を狙い、成功するためにどのような手順を踏む必要があるかを考慮に入れます。

Google は、最新の敵対的攻撃に関する調査や、Google 全体における AI の統合状況を確認することで、まだ理論上の話であり実行には至らないであろう攻撃と比較して、実際的で現実味がある攻撃を把握しています。たとえば、プロンプト インジェクション攻撃は現在、リスクが大幅に高まっています。これは、AI エージェントが質問への回答などの基本的なタスクを処理するだけでなく、複雑な多段階のビジネス ワークフローを実行し、機密データの取り込みや重要なアクションを同時に行うようになったためです。

AI に関連するセキュリティ問題の大部分は、モデルがプロダクトに統合され、機密情報へのアクセスなどの処理を行う能力が与えられたときに顕在化します。

AI のシステムと機能の強化に伴い、こうした脅威は変化を続けます。AI に頼る実際のプロダクトや機能について、現時点で何が実現可能かを把握するだけでなく、将来どのような攻撃が可能になるかを把握することも不可欠です。Google は、Mandiant、Google Threat Intelligence Group(GTIG)、Google の Trust and Safety チームによるコンテンツ不正利用のレッドチーム演習、Google DeepMind による最新の敵対的攻撃調査など、Google の脅威インテリジェンス チームからの最新の分析情報を活用して、最新の脅威に対応しています。

2.決定的な考え方から確率的な考え方にシフトする

AI への攻撃について Google が学んだことの中で特に直感に反するものの一つとして、それが従来のサイバーセキュリティでよく知られる決定的で再現可能な不正プログラムよりも、ソーシャル エンジニアリングに近いということがあります。AI システムは確率的に動作するため、パターン認識に優れ、ランダムなノイズや不確実性に対するレジリエンスがあります。

しかし、攻撃に関しては、この確率的な性質が攻撃者に有利に働く可能性があります。攻撃者は AI モデルを意図的にプローブして、モデルが誤った動作を開始する特定のポイントを見つけることができるからです。

AI に対する攻撃は、コードの欠陥を探すのではなく、モデルにガードレールを破らせたり、プロダクトやユーザーの利益に反する行動を取らせたりすることに注力するものが増えています。そのため、セキュリティの観点から見ると、分離されているモデルは、一般的に攻撃者にとって魅力的な標的ではありません(モデルの重みを盗もうとする場合を除く)。

AI に関連するセキュリティ問題の大部分は、モデルがプロダクトに統合され、機密情報へのアクセスなどの処理を行う能力が与えられたときに顕在化します。エージェントのコンテキストでは、ビジネス ドキュメントなどの機密情報に関する知識と、「現実世界」とやり取りする能力(玄関ドアの開錠や出前の注文など)により、エージェントは攻撃者にとって非常に興味深い標的となります。

この変化に対応するため、AI レッドチームは攻撃方法を変更し、実社会の攻撃者にとって最も関連性が高く現実的であると考えられる戦術、手法、手順(TTP)を使用して、さまざまなシステム防御をテストしています。プロンプト攻撃、トレーニング データの抽出、モデルへのバックドア、アドバーサリアル エグザンプル、データ ポイズニング、データの引き出しなど、幅広い攻撃をシミュレートしています。

また、機能、脅威、動機の変化に応じて、このリストを改良しています。特に AI 時代においては、テクノロジーが驚くべきペースで成熟しているため、手法を定期的に評価し、更新することが重要です。現時点では比較的無害な攻撃が、明日には壊滅的なものになる可能性があります。

3.従来のセキュリティと AI の専門知識を組み合わせる

現実的な攻撃のシミュレーションを行うには、可能な限り、従来のセキュリティと AI の専門知識を組み合わせることが重要です。実社会の脅威アクターは組織の境界を意識せず、目標を達成するために必要なあらゆる手段を使用します。AI に対する標的型攻撃が最も抵抗の少ないルートである場合もあれば、従来のセキュリティ侵害がそうである場合もあります。

Google は、レッドチーム演習でこの点を考慮し、従来のレッドチームと定期的に協力して、アイデアやスキルセットを共有し、現実的なエンドツーエンドの敵対的オペレーションを遂行しています。たとえば、AI を標的とするために使用する TTP の中には、内部システムの侵害、ラテラル ムーブメント、関連する AI パイプラインへのアクセス権の取得など、特定の内部アクセスを必要とするものもあります。

このようなシナリオでは、2 つのチームが協力して、AI レッドチームが攻撃を成功させるための準備を整えることがあります。全体として、新たな攻撃のパターンや手法を標準的な脅威アクターのオペレーションの手順に組み込むことは、潜在的な問題を特定して解決し、防御チームが将来の状況に備えるために非常に効果的であることがわかりました。

4.行動基準を厳守

Google は、ユーザーのセキュリティとプライバシーを常に最優先事項としています。標的にできる対象に多くの制約はありませんが、行ってよいことと、行ってはいけないことを具体的に定めた厳格な行動基準があります。

たとえば、Google のエンゲージメントは、Alphabet が完全に所有および管理するシステム、サービス、デバイスに限定されています。また、標的を強制、買収、脅迫することもできません。最も重要なこととして、どの演習でも実際のお客様データにアクセスすることはありません。お客様データへのアクセスにつながる可能性のある問題を Google が発見した場合でも、いかなる状況でも実際のお客様データに触れることがないよう、対策を講じます。

実際の脅威アクターは Google の行動基準に従わないため、演習を現実的なものにするために、標的にしても問題のない疑似アカウントを作成するなど、忠実なシミュレーションを設定しています。

Google の行動基準では、演習の過程で発生したすべてのことを詳細なアクティビティ ログに記録することが求められています。このログには次の 3 つの目的があります。

  • 監査可能な証跡を提供することで、本番環境のシステムとデータ、そして演習に取り組むレッドチームのメンバーを保護します。
  • ブルーチームが、レッドチームの活動と実際の攻撃を自信を持って区別できるよう助けます。
  • 演習後に、ブルーチームが検出したものと見逃したものとを比較するために使用します。

今後の展望: AI を恐れない

多くのレッドチームにとって、複雑な AI システムへの攻撃は大変で圧倒されるような作業です。しかし、最も重要なアセットは、ほとんどのレッドチームがすでに持っているもの、つまり強力な攻撃者のマインドセットであることがわかりました。

AI システムの仕組みをできるだけ理解することは有益ですが、多くの攻撃(プロンプト インジェクションなど)に、コンピュータ サイエンスや数学の博士号は必要ありません。脅威アクターのように考え、特に可能性の高い攻撃経路、戦略、ツール、アプローチを想像することで、特に現実的な演習が実現し、攻撃を阻止する方法について最良の教訓が得られます。

AI が攻撃に使用された場合、ブルーチームに新たな課題が生じます。攻撃者はネットワーク上をマシンの速度で移動し、検出パイプラインが攻撃を SOC に報告する前に機密情報がすでに漏洩している可能性があります。Google がレッドチームでの AI の採用に多大な労力を費やしているのは、実社会の攻撃者も AI を使用していると知っているからです。攻撃は以前よりも高速化、高度化、大規模化しています。

Google のミッションを推進するためには、学び続けることが必要です。Google は、すべての攻撃シミュレーションの影響を厳密に評価し、その影響と、検出機能と防止機能のレジリエンスを分析しています。その結果は文書化し、攻撃の経緯、詳細として担当チームや関係者と共有しています。これが、セキュリティ アプローチの改善、調査の促進、開発作業やセキュリティへの投資の判断に役立ち、また、同様に刺激的な、新たな課題となっています。

この記事には、Cloud Security Podcast のエピソード「AI Red Teaming: Surprises, Strategies, and Lessons from Google(AI レッドチーム: Google からのサプライズ、戦略、教訓)」と「How We Attack AI? Learn More at Our RSA Conference Panel!(AI への攻撃: 詳細は RSA Conference のパネルで)」から得られたインサイトが含まれています。

※この投稿は米国時間 2026 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

- レッドチーム担当ディレクター、Daniel Fabian

- Google Cloud セキュリティ編集者、Seth Rosenblatt

投稿先