このページでは、機密データの保護が Cloud Storage に保存されているデータの匿名化されたコピーを作成する方法について説明します。また、このオペレーションの制限と、開始前に考慮すべき点も示します。
機密データの保護を使用して Cloud Storage データの匿名化されたコピーを作成する方法については、以下をご覧ください。
- Google Cloud コンソールを使用して、Cloud Storage に保存されているデータの匿名化されたコピーを作成する
- API を使用して、Cloud Storage に保存されているデータの匿名化されたコピーを作成する
匿名化について
匿名化は、身元がわかる情報をデータから取り除くプロセスです。その目的は、プライバシー要件を満たしながらい、健康、財務、ユーザー属性の情報などの個人情報の利用と共有を可能にすることです。匿名化の詳細については、機密データの匿名化をご覧ください。
機密データの匿名化変換の詳細については、変換のリファレンスをご覧ください。機密データの保護が画像から機密データを秘匿する方法については、画像の検査と秘匿化をご覧ください。
この機能を使用する状況
この機能は、ビジネス オペレーションで使用するファイルに、個人を特定できる情報(PII)などの機密データが含まれている場合に役立ちます。この機能を使用すると、機密情報を難読化しながら、ビジネス プロセスの一環として情報を使用、共有できます。
匿名化プロセス
このセクションでは、Cloud Storage 内のコンテンツに対する機密データの保護における匿名化プロセスについて説明します。
この機能を使用するには、Cloud Storage ファイルの匿名化を行うように構成された検査ジョブ(DlpJob
)を作成します。
機密データの保護は、指定された場所にあるファイルをスキャンし、構成に従って検査します。各ファイルを検査する際に、機密データの保護によって機密データの基準に一致するデータを匿名化し、そのコンテンツを新しいファイルに書き込みます。新しいファイルのファイル名は常に元のファイルと同じになります。
この新しいファイルは、指定した出力ディレクトリに保存されます。スキャン結果にファイルが含まれるものの、匿名化基準を満たすデータがなく、処理中にエラーが発生しない場合、ファイルは変更されずに出力ディレクトリにコピーされます。
設定する出力ディレクトリは、入力ファイルを格納するバケットとは異なる Cloud Storage バケットに存在する必要があります。出力ディレクトリに、機密データの保護によって入力ディレクトリのファイル構造を反映するファイル構造が作成されます。
たとえば、次の入力ディレクトリと出力ディレクトリを設定するとします。
- 入力ディレクトリ:
gs://input-bucket/folder1/folder1a
- 出力ディレクトリ:
gs://output-bucket/output-directory
匿名化中、機密データの保護により匿名化されたファイルが gs://output-bucket/output-directory/folder1/folder1a
に保存されます。
匿名化されたファイルと同じファイル名が出力ディレクトリに存在する場合、そのファイルは上書きされます。既存のファイルを上書きしない場合は、この操作を行う前に出力ディレクトリを変更します。 または、出力バケットでオブジェクトのバージョニングを有効にすることを検討してください。
機密データが見つかり、匿名化されたかどうかに関係なく、元のファイルのファイルレベルのアクセス制御リスト(ACL)が新しいファイルにコピーされます。ただし、出力バケットが均一なバケットレベルの権限のみで構成され、きめ細かい(オブジェクト レベルの)権限で構成されていない場合、ACL は匿名化されたファイルにコピーされません。
次の図は、Cloud Storage バケットに保存されている 4 つのファイルの匿名化プロセスを示しています。各ファイルは、機密データの保護で機密データが検出されるかどうかに関係なくコピーされます。コピーされた各ファイルの名前は、元のファイルと同じ名前です。
料金
料金については、ストレージ内のデータの検査と変換をご覧ください。
サポートされているファイル形式
機密データの保護は、次のファイル形式グループを匿名化できます。
- CSV
- 画像
- テキスト
- TSV
デフォルトの匿名化動作
機密データの保護によって検出結果を変換する方法を定義する場合は、次のタイプのファイルに匿名化テンプレートを指定できます。
- 非構造化ファイル(自由形式のテキストを含むテキスト ファイルなど)
- CSV ファイルなどの構造化ファイル
- 画像
匿名化テンプレートを指定しない場合は、機密データの保護により検出結果が次のように変換されます。
- 非構造化ファイルと構造化ファイルでは、InfoType の置換で説明されているように、機密データの保護によってすべての検出結果が対応する infoType に置換されます。
- 画像では、機密データの保護は、すべての検出結果をブラック ボックスでカバーします。
制限事項と考慮事項
Cloud Storage データの匿名化されたコピーを作成する前に、次の点を考慮してください。
ディスク容量
このオペレーションは、Cloud Storage に保存されているコンテンツのみをサポートしています。
このオペレーションでは、機密データの保護が検査するときに、各ファイルのコピーが作成されます。元のコンテンツを変更または削除することはありません。コピーされたデータは、元のデータとほぼ同じディスク容量を消費します。
ストレージへの書き込みアクセス権
機密データの保護は元のファイルのコピーを作成するため、プロジェクトのサービス エージェントに Cloud Storage 出力バケットへの書き込みアクセス権が必要です。
サンプリングと検出制限の設定
このオペレーションはサンプリングをサポートしていません。具体的には、機密データの保護がスキャンおよび匿名化する各ファイルの量を制限できません。つまり、Cloud Data Loss Prevention API を使用している場合、DlpJob
のCloudStorageOptions
オブジェクトで、bytesLimitPerFile
とbytesLimitPerFilePercent
を使用できません。
また、返される結果の最大数を制御できません。DLP API を使用している場合、DlpJob
に FindingLimits
オブジェクトを設定できません。
データを検査するための要件
検査ジョブを実行すると、機密データの保護は、匿名化を実行する前に検査構成に従ってデータを検査します。検査プロセスをスキップすることはできません。
ファイル拡張子を使用するための要件
機密データの保護は、ファイル拡張子を利用して、入力ディレクトリ内にあるファイルのファイル形式を識別します。サポートされている形式のファイルであっても、ファイル拡張子のないファイルは匿名化されない場合があります。
スキップ済みファイル
ストレージ内のファイルを匿名化する場合、機密データの保護は以下のファイルをスキップします。
- 60,000 KB を超えるファイル。この上限を超える大きなファイルがある場合は、小さなチャンクに分割することを検討してください。
- サポートされていない形式のファイル。サポートされているファイル形式のリストについては、このページのサポートされているファイル形式をご覧ください。
- 匿名化構成から意図的に除外したファイル形式。DLP API を使用している場合、
DlpJob
のDeidentify
アクションのfile_types_to_transform
フィールドから除外したファイル形式はスキップされます。 - 変換エラーが発生したファイル。
匿名化されたテーブルの出力行の順序
匿名化されたテーブルの行の順序が元のテーブルの行の順序と一致することは保証されません。元のテーブルと匿名化されたテーブルを比較する場合、対応する行を識別するために行番号を利用することはできません。テーブルの行を比較する場合は、一意の ID を使用して各レコードを識別する必要があります。
一時的な鍵
変換メソッドとして暗号化メソッドを選択した場合は、まず Cloud Key Management Service を使用してラップされた鍵を作成する必要があります。その鍵を匿名化テンプレートに指定します。一時的な(生の)鍵はサポートされていません。
次のステップ
- DLP API を使用して Cloud Storage に保存されている機密データを匿名化する方法を学習します。
- Google Cloud Console を使用して Cloud Storage に保存されている機密データを匿名化する方法を学習します。
- Cloud Storage で匿名化されたデータのコピーを作成する Codelab に取り組みます。
- 機密データについてストレージを検査する方法を確認する。