AI データ セキュリティにコンテキストが欠けている理由
Scott Ellis
Group Product Manager
Ivan Medvedev
Engineering Manager
※この投稿は米国時間 2026 年 3 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。
AI は基本的にデータドリブンです。データは、モデルのトレーニングとチューニング、エージェントによる計画と推論、エンドユーザーとのやり取りの促進に使用されます。しかし、機密データの漏洩、不要なデータの収集、データの不正使用などのリスクも生じます。
AI 時代では、手動タグ設定と単純なキーワード マッチングに依存するセキュリティ管理だけでは不十分です。データ保護を効果的に行うには、コンテキストを理解することが重要になりました。
この課題に対処するため、Google Cloud の Sensitive Data Protection(SDP)は、高度な AI テクノロジーを使用して、新しい一連のコンテキスト分類器(医療や金融など)と画像オブジェクト検出器(顔やパスポートなど)を強化しました。強化されたルールエンジンは、データの(画像やリッチドキュメント内のデータも含む)コンテキストを理解することにより、機密情報をより効果的に特定してマスクし、AI エージェントが必要なデータのみにアクセスできるようにします。
この新しい SDP 機能の一般提供が開始され、初期トレーニング、ファインチューニング、リアルタイムのエージェント回答など、AI の取り組みのあらゆる段階でデータの価値を安全に引き出すことができるようになりました。個人情報(PII)などの機密性の高い識別子を選択的に削除できるようにすることで、関連するリスクを伴うことなく、モデルに高品質のデータをフィードできます。
ここでは、これらの新しい SDP 機能を AI 戦略に統合する方法をいくつかご紹介します。
Vertex AI での AI チューニングとデータ サニタイゼーション
Gemini のようなモデルを自社のビジネスデータでチューニングすると、データに隠れた新たなリスクが入り込む可能性があります。Vertex AI では、Sensitive Data Protection を使用することで、マネージド データ検出を有効にしてこれらのリスクを軽減できます。組織や選択したプロジェクトを継続的にスキャンすることで、機密マーカーが検出されます。これには、非構造化画像データ内のマーカーも含まれます。
たとえば、SDP の検出では、高度な光学式文字認識(OCR)とオブジェクト検出を使用して、クレジットカード番号、顔、写真付き身分証明書を検出できます。機密データが検出された場合、破棄してトレーニング データセットの価値を低下させるのではなく、SDP を使用して秘匿化されたバージョンを生成できます。
下の画像は、破損した梱包が人物の隣に置かれている様子を示しています。このシステムでは、プライバシーを確保するために顔や人物全体を選択的に隠しながら、トレーニングのために画像を保持できます。


図 1: Sensitive Data Protection が AI トレーニング データから画像内の機密オブジェクトや不要なオブジェクトを秘匿化する
SDP で識別して AI トレーニング データから削除できるオブジェクト タイプの詳細なリストをご確認ください。
ライブ AI インタラクションの保護
モデルのチューニングとデプロイが完了すると、課題はライブ インタラクションの管理に移ります。エンドユーザーがビジネス エージェントと対話する際、モデルが処理する前に、各会話の内容が適切であり、コンプライアンスを確保していることを確認する必要があります。
Sensitive Data Protection は、自然言語のコンテキストをより深く理解できるため、この課題の解決に役立ちます。たとえば、ユーザーが「腕を骨折してタッチスクリーンが使えない」と入力すると、サービスは特定の健康状態コンテキスト(DOCUMENT_TYPE/CONTEXT/HEALTH)を検出します。これは機密データと認識されるため、入力を秘匿化するか、会話を完全にブロックするようシステムを構成できます。
一方、ユーザーが「Wi-Fi が壊れた」と言った場合、システムはセマンティックの違いを認識します。システムはこれを医療上の問題ではなく技術的な問題であると理解し、エージェントは注文のトラブルシューティングを進めることができます。
コンテキスト分類タイプの詳細なリストを見ると、Sensitive Data Protection が AI 会話のコンテキストの確認にどのように役立つかを確認できます。
コンテキストとルールを組み合わせた精度の向上
コンテキスト自体でも重要ですが、複雑なシナリオでは、従来の検出器と組み合わせる必要があることがよくあります。正規表現(regex)などの標準的なアプローチは、パターンの検出には効果的ですが、ニュアンスが欠けていることが多いため、誤検出につながります。
Sensitive Data Protection は、コンテキストとパターン マッチングを組み合わせることで、この問題に対処します。セマンティック カテゴリ(「金融」、「医療」、「法律」など)を理解することで、システムは検出結果を強化または抑制して、実際のリスクに合わせることができます。
たとえば、「注文番号は 75337 で、その次は 324323 です」というフレーズを考えてみましょう。この場合、サービスは信頼度の低い GENERIC_ID を検出します。コンテキストから標準的な追跡番号であることがわかるため、Sensitive Data Protection は秘匿化の必要がないと判断します。


図 2: Sensitive Data Protection がコンテキストに基づいてデータを保持する
次に、少し変更した「ウォレット番号は 75337 で、その次は 324323 です」を考えてみましょう。数字は同じですが、「ウォレット」という単語により強い DOCUMENT_TYPE/CONTEXT/FINANCE シグナルがトリガーされます。この金融コンテキストにより、ID 検出の信頼性が高まり、ID が秘匿化を必要とする機密データとして検証されます。


図 3: Sensitive Data Protection がユーザー コンテキストに基づいて機密データを秘匿化
AI エージェントの自律性が高まり、データ形式が複雑化するにつれて、ビジネスリスクを適切に軽減するため、デベロッパーには静的ルール以上のものが必要になります。Google Cloud の Sensitive Data Protection を使用すると、セキュリティを損なうことなくそれらのテクノロジーを導入できます。
使ってみる
Sensitive Data Protection は、Model Armor、Security Command Center、Contact Center as a Service のデータ検出とセキュリティ ガードレールを強化する、基盤となる検出および検査エンジンです。Cloud コンソールで新しいインライン構成とテスト インターフェースを直接確認し、Model Armor で使用する SDP を構成する方法を学習することができます。
- グループ プロダクト マネージャー、Scott Ellis
- エンジニアリング マネージャー、Ivan Medvedev



