Cloud Data Loss Prevention(Cloud DLP)の概要
Google Cloud Japan Team
※この投稿は米国時間 2022 年 7 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
センシティブ データは思いもよらぬ場所で目にすることがあります。たとえば、カスタマー サポートとのチャットやファイルのアップロードで、顧客がうっかりセンシティブ データを送ってしまうかもしれません。分析や機械学習にデータを使用する場合、ユーザーのプライバシーを保護するために、センシティブ データを適切に扱うことが大切です。データを扱う側にそのデータに対する責任が問われる場合があるため、データがどこにあり、どのように使用されているかを全体的に確認し、さらにそのデータが適切に扱われるようにするプロセスを作成することが重要です。そこで Cloud DLP が役に立ちます。
Cloud DLP とは
Cloud Data Loss Prevention(Cloud DLP)は、センシティブ データがデータベース、テキストベースのコンテンツ、さらには画像の中にあっても、それを検出、分類、保護できるように設計されたフルマネージド サービスです。このサービスを利用すれば、組織全体でセンシティブ データを可視化して分類できます。構造化データおよび非構造化データを調査し、マスキングやトークン化などの難読化および匿名化のメソッドを活かして変換することで、最終的にデータに関するリスクを低減できます。さらに Cloud DLP は、再識別分析を実行してデータ プライバシーにまつわるリスクをより適切に理解する手助けをします。再識別リスク分析は、データを分析し、対象が特定されるリスクを増大させるおそれのあるプロパティを見つけ出すプロセスです。たとえば、年齢、役職、郵便番号などのユーザー属性プロパティを含むマーケティング用のデータセットを考えてみましょう。表面上、これらのユーザー属性から個人が特定できるようには見えないかもしれません。しかし、年齢、役職、郵便番号の組み合わせによっては、少人数のグループまたは 1 人の個人の特定につながる可能性があり、その人物の再識別リスクを高めることになります。
仕組み
Cloud DLP は、既存のシステムに Cloud DLP を組み込むための API や、コードを使わず簡単に統合できるようにするコンソール UI など、複数のインターフェースを提供します。Content API メソッドはお客様がどこでもデータを調査して変換できるようにし、ライブ トラフィックの保護など、リアルタイムの操作を可能にします。BigQuery、Cloud Storage、Datastore のストレージ メソッドは、分析用に UI インターフェースと API インターフェースの両方を提供しており、大量の保存データをスキャンするのに便利です。BigQuery 向け自動 DLP を例に挙げると、これは GCP 組織全体のデータの検出と分類を自動化して継続的に実行することで、新しいプロジェクト、データセット、テーブルの作成時にデータリスクを可視化します。
データの調査と分類は、Google Cloud の Data Loss Prevention(DLP)テクノロジーを活用しています。このテクノロジーは 150 を超える組み込み情報タイプに対する検出項目を備え、豊富なカスタムルールと検出ルールを提供し、OCR を使用して構造化テーブル、非構造化テキスト、画像データを含むさまざまな形式をサポートします。
さまざまな匿名化の手法
Cloud DLP は、利便性を保ちながらセンシティブな情報を難読化できるようにする匿名化の手法を複数提供しています。
マスキング - 指定された固定文字で特定の文字数を置換し、文字列全体または一部をマスキングします。 この手法では、アカウント番号や社会保障番号の下 4 桁以外をすべてマスキングするといったことができます。
秘匿化 - 値を削除することで秘匿化します。
置換 - 各入力値を特定の値に置換します。
安全なハッシュによる仮名化 - データ暗号鍵を使用して生成された安全な一方向ハッシュで入力値を置換します。
フォーマット保持トークンによる仮名化 - フォーマット保持暗号化(FPE)を使用して、入力値を同じ文字セットと長さの「トークン」(サロゲート値)に置き換えます。 フォーマットを維持できることで、制限のあるスキーマやフォーマット要件のあるレガシー システムとの互換性を確保できます。
バケット化による一般化 - 入力値が存在する「バケット」(範囲)で入力値を置換してマスキングします。たとえば、特定の年齢を年齢層にバケット化したり、特徴的な個別の値を「低」、「中」、「高」などの範囲にバケット化したりすることができます。
日付シフト - ユーザーまたはエンティティごとに日付をランダムな数字でシフトします。これにより、一連のイベントまたはトランザクションの順序と期間を維持したまま、実際の日付を難読化できます。
時間抽出 - 日付、タイムスタンプ、TimeOfDay の値の一部を抽出または保持します。
Cloud DLP の匿名化メソッドは構造化データだけでなく非構造化データの難読化を扱うことができるため、実質すべてのワークロードに対してデータ保護とプライバシーを強化できます。
#GCPSketchnote をさらにご覧になるには、GitHub リポジトリをフォローしてください。同様のクラウド コンテンツについては、Twitter で @pvergadia をフォローしてください。thecloudgirl.dev もぜひご覧ください。
- Google、デベロッパー アドボケイト リード Priyanka Vergadia