デベロッパー

Cloud Data Loss Prevention（Cloud DLP）の概要

2022年7月25日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Data_Loss_Prevention_Hero_Image.max-2300x2300.png

Google Cloud Japan Team

※この投稿は米国時間 2022 年 7 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。

センシティブデータは思いもよらぬ場所で目にすることがあります。たとえば、カスタマーサポートとのチャットやファイルのアップロードで、顧客がうっかりセンシティブデータを送ってしまうかもしれません。分析や機械学習にデータを使用する場合、ユーザーのプライバシーを保護するために、センシティブデータを適切に扱うことが大切です。データを扱う側にそのデータに対する責任が問われる場合があるため、データがどこにあり、どのように使用されているかを全体的に確認し、さらにそのデータが適切に扱われるようにするプロセスを作成することが重要です。そこで Cloud DLP が役に立ちます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DLP_Overview.max-2000x2000.jpg

Cloud DLP とは

Cloud Data Loss Prevention（Cloud DLP）は、センシティブデータがデータベース、テキストベースのコンテンツ、さらには画像の中にあっても、それを検出、分類、保護できるように設計されたフルマネージドサービスです。このサービスを利用すれば、組織全体でセンシティブデータを可視化して分類できます。構造化データおよび非構造化データを調査し、マスキングやトークン化などの難読化および匿名化のメソッドを活かして変換することで、最終的にデータに関するリスクを低減できます。さらに Cloud DLP は、再識別分析を実行してデータプライバシーにまつわるリスクをより適切に理解する手助けをします。再識別リスク分析は、データを分析し、対象が特定されるリスクを増大させるおそれのあるプロパティを見つけ出すプロセスです。たとえば、年齢、役職、郵便番号などのユーザー属性プロパティを含むマーケティング用のデータセットを考えてみましょう。表面上、これらのユーザー属性から個人が特定できるようには見えないかもしれません。しかし、年齢、役職、郵便番号の組み合わせによっては、少人数のグループまたは 1 人の個人の特定につながる可能性があり、その人物の再識別リスクを高めることになります。

仕組み

Cloud DLP は、既存のシステムに Cloud DLP を組み込むための API や、コードを使わず簡単に統合できるようにするコンソール UI など、複数のインターフェースを提供します。Content API メソッドはお客様がどこでもデータを調査して変換できるようにし、ライブトラフィックの保護など、リアルタイムの操作を可能にします。BigQuery、Cloud Storage、Datastore のストレージメソッドは、分析用に UI インターフェースと API インターフェースの両方を提供しており、大量の保存データをスキャンするのに便利です。BigQuery 向け自動 DLP を例に挙げると、これは GCP 組織全体のデータの検出と分類を自動化して継続的に実行することで、新しいプロジェクト、データセット、テーブルの作成時にデータリスクを可視化します。

データの調査と分類は、Google Cloud の Data Loss Prevention（DLP）テクノロジーを活用しています。このテクノロジーは 150 を超える組み込み情報タイプに対する検出項目を備え、豊富なカスタムルールと検出ルールを提供し、OCR を使用して構造化テーブル、非構造化テキスト、画像データを含むさまざまな形式をサポートします。

さまざまな匿名化の手法

Cloud DLP は、利便性を保ちながらセンシティブな情報を難読化できるようにする匿名化の手法を複数提供しています。

マスキング - 指定された固定文字で特定の文字数を置換し、文字列全体または一部をマスキングします。この手法では、アカウント番号や社会保障番号の下 4 桁以外をすべてマスキングするといったことができます。
秘匿化 - 値を削除することで秘匿化します。
置換 - 各入力値を特定の値に置換します。
安全なハッシュによる仮名化 - データ暗号鍵を使用して生成された安全な一方向ハッシュで入力値を置換します。
フォーマット保持トークンによる仮名化 - フォーマット保持暗号化（FPE）を使用して、入力値を同じ文字セットと長さの「トークン」（サロゲート値）に置き換えます。フォーマットを維持できることで、制限のあるスキーマやフォーマット要件のあるレガシーシステムとの互換性を確保できます。
バケット化による一般化 - 入力値が存在する「バケット」（範囲）で入力値を置換してマスキングします。たとえば、特定の年齢を年齢層にバケット化したり、特徴的な個別の値を「低」、「中」、「高」などの範囲にバケット化したりすることができます。
日付シフト - ユーザーまたはエンティティごとに日付をランダムな数字でシフトします。これにより、一連のイベントまたはトランザクションの順序と期間を維持したまま、実際の日付を難読化できます。
時間抽出 - 日付、タイムスタンプ、TimeOfDay の値の一部を抽出または保持します。