このページでは、Google Cloud コンソールで機密データの保護を使用して、Cloud Storage ディレクトリを検査し、サポートされているファイルの匿名化されたコピーを作成する方法について説明します。
このオペレーションは、ビジネス プロセスで使用するファイルに個人情報(PII)などの機密データが含まれていないことを確認するのに役立ちます。機密データの保護では、機密データに関して Cloud Storage バケット内のファイルを検査し、それらのファイルの匿名化されたコピーを別のバケット内に作成できます。それから、匿名化されたコピーをビジネス プロセスで使用できます。
ストレージ内のデータを匿名化する際の事象の詳細については、ストレージ内の機密データの匿名化をご覧ください。
始める前に
このページでは、次の前提条件を想定しています。
課金を有効にしている。
機密データの保護を有効にしている。
匿名化するデータを含む Cloud Storage バケットがある。
このオペレーションに関する制限事項と考慮事項について参照してください。
ストレージの検査には OAuth スコープ https://www.googleapis.com/auth/cloud-platform
が必要です。詳細については、DLP API に対する認証をご覧ください。
必要な IAM のロール
このオペレーションのすべてのリソースが同じプロジェクトにある場合、サービス エージェントに対する DLP API サービス エージェントのロール(roles/dlp.serviceAgent
)で十分です。そのロールを使用すると、次のことができます。
- 検査ジョブを作成する
- 入力ディレクトリ内のファイルを読み取る
- 匿名化されたファイルを出力ディレクトリに書き込む
- 変換の詳細を BigQuery テーブルに書き込む
関連リソースには、検査ジョブ、匿名化テンプレート、入力バケット、出力バケット、変換の詳細テーブルなどがあります。
リソースを別のプロジェクトに用意する必要がある場合は、プロジェクトのサービス エージェントに次のロールも付与してください。
- 入力バケットまたはそれを含むプロジェクトに対するストレージ オブジェクト閲覧者のロール(
roles/storage.objectViewer
)。 - 出力バケットまたはバケットを含むプロジェクトに対するストレージ オブジェクト作成者のロール(
roles/storage.objectCreator
)。 - 変換の詳細テーブルまたはテーブルを含むプロジェクトに対する BigQuery データ編集者のロール(
roles/bigquery.dataEditor
)。
サービス エージェントにロールを付与するには、単一のロールを付与するをご覧ください。次のレベルでアクセスを制御することもできます。
概要
Cloud Storage ファイルの匿名化されたコピーを作成するには、指定した基準に従って機密データを検索する検査ジョブを構成します。次に、検査ジョブ内で [匿名化されたコピーを作成する] アクションを有効にします。機密データの保護が検出結果を変換する方法を指定する匿名化テンプレートを設定できます。匿名化テンプレートを指定しない場合は、デフォルトの匿名化動作の説明に沿って機密データの保護が検出結果を変換します。
[匿名化されたコピーを作成] アクションを有効にすると、機密データの保護はデフォルトで、スキャンに含まれるサポートされているファイル形式をすべて変換します。ただし、サポートされているファイル形式のサブセットのみを変換するようにジョブを構成できます。
省略可: 匿名化テンプレートを作成する
発見の変換方法を制御する場合は、次のテンプレートを作成します。これらのテンプレートでは、構造化ファイル、非構造化ファイル、画像での発見を変換できます。
匿名化テンプレート:非構造化ファイル(自由形式のテキスト ファイルなど)に使用するデフォルトの匿名化テンプレート。このタイプの匿名化テンプレートには、構造化コンテンツでのみサポートされているレコード変換を含めることはできません。このテンプレートが存在しない場合、機密データの保護は infoType の置換メソッドを使用して、非構造化ファイルを変換します。
構造化された匿名化テンプレート: CSV ファイルなどの構造化ファイルに使用する匿名化テンプレート。この匿名化テンプレートには、レコード変換を含めることができます。このテンプレートが存在しない場合、機密データの保護は作成したデフォルトの匿名化テンプレートを使用します。 それも存在しない場合、機密データの保護は infoType の置換メソッドを使用して構造化ファイルを変換します。
画像秘匿化テンプレート: 画像に使用する匿名化テンプレート。 このテンプレートが存在しない場合、機密データの保護は画像内のすべての検出結果をブラック ボックスで秘匿化します。
匿名化テンプレートを作成する方法を学習する。
匿名化アクションを含む検査ジョブを作成する
Google Cloud コンソールで、[ジョブまたはジョブトリガーの作成] ページに移動します。
機密データの保護ジョブの情報を入力し、[続行] をクリックして各手順を完了します。
以降のセクションでは、ページの関連するセクションに入力する方法について説明します。
入力データを選択
[入力データの選択] セクションで、次の操作を行います。
- (省略可)[名前] に検査ジョブの ID を入力します。
- [リソース ロケーション] で、[グローバル] または検査ジョブを保存するリージョンを選択します。
- [ロケーション] で [Google Cloud Storage] を選択します。
- [URL] に、入力ディレクトリのパスを入力します。入力ディレクトリには、スキャンするデータ(
gs://input-bucket/folder1/folder1a
など)が含まれています。入力ディレクトリを再帰的にスキャンする場合は、URL の末尾にスラッシュを追加し、[再帰的にスキャンする] を選択します。 [サンプリング] セクションの [サンプリング方法] リストで、[サンプリングなし] を選択します。
サンプリングは、匿名化で構成されたジョブとジョブトリガーではサポートされていません。
検出を構成する
[検出の設定] セクションで、検査する機密データの種類を選択します。これらは infoTypes と呼ばれます。事前定義済みの infoType リストから選択するか、テンプレートが存在する場合はテンプレートを選択することもできます。詳細については、検出の構成をご覧ください。
アクションの追加
[アクションを追加] セクションで、次の操作を行います。
- [匿名化されたコピーを作成する] をオンにします。
- 省略可: [匿名化テンプレート] で、匿名化テンプレートを作成した場合は、デフォルトの匿名化テンプレートの完全なリソース名を入力します。
- 省略可: [構造化匿名化テンプレート] で、構造化匿名化テンプレートを作成した場合は、構造化ファイル用の匿名化テンプレートの完全なリソース名を入力します。そうしなかった場合、機密データの保護はデフォルトのテンプレートを使用します(作成された場合)。
- 省略可: [画像秘匿化テンプレート] で、画像秘匿化テンプレートを作成した場合は、画像用の画像秘匿化テンプレートの完全なリソース名を入力します。
省略可: 機密データ保護で変換の詳細を BigQuery テーブルに保存する場合は、[変換の詳細を BigQuery にエクスポートする] を選択してから、次のように入力します。
- プロジェクト ID: BigQuery テーブルを含むプロジェクト。
- データセット ID: BigQuery テーブルを含むデータセット。
- テーブル ID: 機密データの保護が各変換の詳細を保存する必要があるテーブル。機密データの保護では、指定したテーブル ID を使用してこのテーブルを作成します。テーブル ID を指定しない場合、システムが自動的に作成します。
このテーブルには、実際の匿名化されたコンテンツは保存されません。
データが BigQuery テーブルに書き込まれると、課金と割り当て使用量は、宛先テーブルが含まれるプロジェクトに適用されます。
[Cloud Storage 出力先] に、匿名化されたファイルを保存する Cloud Storage ディレクトリの URL を入力します。このディレクトリは、入力ディレクトリと同じ Cloud Storage バケット内にすることはできません。
省略可: [ファイル形式] で、変換するファイルの種類を選択します。
追加できるその他のアクションの詳細については、アクションの追加をご覧ください。
Schedule
[スケジュール] セクションで、このジョブを繰り返しジョブにするかどうかを指定します。
- スキャンを 1 回だけ実行するには、このフィールドを [なし] のままにします。
- スキャンを定期的に実行するには、[周期スケジュールでジョブを実行するトリガーを作成] をクリックします。
詳細については、スケジュールをご覧ください。
まとめ
[スケジュール] セクションでジョブ構成を確認し、必要に応じてジョブを編集します。
[作成] をクリックします。
ジョブをスケジュールしなかった場合、機密データの保護はすぐに実行を開始します。ジョブが完了すると、システムは [ジョブの詳細] ページにリダイレクトします。このページでは、検査と匿名化のオペレーションの結果を確認できます。
変換の詳細を BigQuery テーブルにエクスポートすることを選択した場合は、テーブルに自動的に入力されます。機密データの保護が行った変換ごとに 1 行が表示されます。各変換の詳細には、説明、成功またはエラーコード、エラーの詳細、変換されたバイト数、変換されたコンテンツの場所、機密データの保護が変換を行った検査ジョブの名前などが含まれます。このテーブルには、実際の匿名化されたコンテンツは含まれません。
ファイルが匿名化されたことを確認する
- [ジョブの詳細] ページで [構成] タブをクリックします。
- 出力ディレクトリ内の匿名化されたファイルを表示するには、[Output bucket for de-identified Cloud Storage data] フィールドのリンクをクリックします。
変換の詳細を含む BigQuery テーブルを表示するには、[変換の詳細] フィールドのリンクをクリックします。
BigQuery テーブルにクエリを実行する方法については、インタラクティブ クエリの実行をご覧ください。
次のステップ
- ストレージ内のデータの匿名化プロセスの詳細を学習する。
- DLP API を使用して Cloud Storage に保存されている機密データを匿名化する方法を学習します。
- Cloud Storage で匿名化されたデータのコピーを作成する Codelab に取り組みます。
- 匿名化のための変換の詳細を確認する。
- 検査ジョブを作成およびスケジュール設定する方法を確認する。