Cloud Data Loss Prevention（Cloud DLP）は機密データの保護の一部になりました。API 名に変わりはありません。Cloud Data Loss Prevention API（DLP API）です。機密データの保護を構成するサービスについては、機密データの保護の概要をご覧ください。

機密データの保護の検査ジョブの作成とスケジューリング

このトピックでは、機密データ保護の検査ジョブの作成方法と、ジョブトリガーを作成して定期的な検査ジョブのスケジュールを設定する方法について詳しく説明します。機密データの保護 UI を使用して新しいジョブトリガーを作成する方法の簡単なチュートリアルについては、クイックスタート: 機密データの保護のジョブトリガーの作成をご覧ください。

検査ジョブとジョブトリガーの概要

機密データの保護が検査スキャンを実行して機密データを識別する場合、各スキャンはジョブとして実行されます。Cloud Storage バケット、BigQuery テーブル、Datastore の種類、外部データなど、Google Cloud Storage リポジトリを検査するように指示するたびに、機密データの保護はジョブリソースを作成して実行します。

機密データの保護の検査スキャンジョブをスケジュールするには、ジョブトリガーを作成します。ジョブトリガーは、機密データの保護ジョブの定期的な作成を自動化します。また、オンデマンドで実行することもできます。

機密データの保護のジョブとジョブトリガーの詳細については、ジョブとジョブトリガーのコンセプトページをご覧ください。

新しい検査ジョブの作成

新しい機密データの保護の検査ジョブを作成するには:

コンソール

Google Cloud Console の [機密データ保持] セクションで、[ジョブまたはジョブトリガーを作成] ページに移動します。

[ジョブまたはジョブトリガーを作成] に移動

[ジョブまたはジョブトリガーを作成] ページには、次のセクションがあります。

入力データを選択
検出を構成する
アクションの追加
確認

入力データを選択

名前

ジョブの名前を入力します。文字、数字、ハイフンを使用できます。ジョブの名前は省略可能です。名前を入力しない場合、機密データの保護によってジョブに一意の番号 ID が割り当てられます。

ロケーション

[ストレージの種類] メニューで、スキャンするデータが保存されているリポジトリの種類を選択します。

Cloud Storage: スキャンするバケットの URL を入力します。または、[ロケーションタイプ] メニューから [含める / 含めない] を選択した後、[BROWSE] をクリックしてスキャン対象のバケットまたはサブフォルダに移動します。指定したディレクトリとそこに含まれるすべてのディレクトリをスキャンするには、[フォルダを再帰的にスキャンする] チェックボックスをオンにします。下位ディレクトリを対象にせず、指定したディレクトリだけをスキャンする場合は、このチェックボックスはオフのままにします。
BigQuery: スキャンするプロジェクト、データセット、テーブルの識別子を入力します。
Datastore: スキャンするプロジェクト、名前空間（省略可能）、種類の識別子を入力します。
ハイブリッド: 必要なラベル、オプションのラベル、表形式のデータを処理するオプションを追加できます。詳細については、提供できるメタデータのタイプをご覧ください。

サンプリング

サンプリングは、大量のデータがある場合にリソースを節約するオプションの方法です。

[サンプリング] では、選択したすべてのデータをスキャンするか、特定の割合のデータだけをスキャンしてサンプリングを行うかを選択できます。サンプリングは、スキャンするストレージリポジトリの種類によって動作が異なります。

BigQuery の場合、スキャンに含めるように指定したファイルの割合に応じて、選択された合計行数のサブセットをサンプリングします。
Cloud Storage の場合、[1 ファイルあたりのスキャンの最大バイト数] で指定したサイズを超えるファイルについては、機密データの保護はその最大サイズまでスキャンしてから次のファイルに進みます。

サンプリングを有効にするには、最初のメニューで、以下のいずれかのオプションを選択します。

上からサンプリングを開始する: 機密データの保護は、データの先頭から部分スキャンを開始します。BigQuery の場合、最初の行からスキャンが開始されます。Cloud Storage の場合、各ファイルの先頭からスキャンが開始され、機密データの保護が指定された最大ファイルサイズまでスキャンするとスキャンが停止します。
ランダムスタートからサンプリングを開始する: 機密データの保護は、データ内のランダムな場所から部分スキャンを開始します。BigQuery の場合、ランダムな行からスキャンが開始されます。Cloud Storage の場合、この設定は、指定された最大サイズを超えるファイルにのみ適用されます。機密データの保護は、最大ファイルサイズ未満のファイルは全体をスキャンし、最大ファイルサイズを超えるファイルは最大サイズまでスキャンします。

部分スキャンを実行するには、データのうち何パーセントをスキャンするかを指定する必要があります。スライダーを使って割合を設定します。

また、スキャンするファイルやレコードを日付で絞り込むことも可能です。方法については、このトピックの後半のスケジュールをご覧ください。

詳細構成

Cloud Storage バケットまたは BigQuery テーブルのスキャンジョブを作成する際に、詳細構成を指定して検索を絞り込むことができます。具体的には、以下を構成できます。

ファイル（Cloud Storage のみ）: スキャンするファイルの種類。テキスト、バイナリ、画像ファイルを含めることができます。
識別フィールド（BigQuery のみ）: テーブル内で一意の行識別子。
Cloud Storage の場合、[1 ファイルあたりのスキャンの最大バイト数] で指定したサイズを超えるファイルについては、機密データの保護はその最大サイズまでスキャンしてから次のファイルに進みます。

サンプリングを有効にするには、データのうち何パーセントをスキャンするかを指定する必要があります。スライダーを使って割合を設定します。次に、最初のメニューで、以下のいずれかのオプションを選択します。

上からサンプリングを開始する: 機密データの保護は、データの先頭から部分スキャンを開始します。BigQuery の場合、最初の行からスキャンが開始されます。Cloud Storage の場合、各ファイルの先頭からスキャンが開始され、機密データの保護が指定された最大ファイルサイズまでスキャンするとスキャンが停止します（上記参照）。
ランダムスタートからサンプリングを開始する: 機密データの保護は、データ内のランダムな場所から部分スキャンを開始します。BigQuery の場合、ランダムな行からスキャンが開始されます。Cloud Storage の場合、この設定は、指定された最大サイズを超えるファイルにのみ適用されます。機密データの保護は、最大ファイルサイズ未満のファイルは全体をスキャンし、最大ファイルサイズを超えるファイルは最大サイズまでスキャンします。

ファイル

Cloud Storage に保存されているファイルの場合は、[ファイル] でスキャンに含めるファイルの種類を指定できます。

バイナリ、テキスト、画像、CSV、TSV、Microsoft Word、Microsoft Excel、Microsoft PowerPoint、PDF、Apache Avro ファイルから選択できます。機密データの保護が Cloud Storage バケット内でスキャンできるファイル拡張子の完全なリストについては、FileType をご覧ください。 [バイナリ] を選択すると、機密データの保護で認識されない形式のファイルがスキャンされます。

識別フィールド

BigQuery のテーブルの場合、[識別フィールド] フィールドで、クエリ結果にテーブルの主キー列の値を含めるように機密データの保護に指示できます。そうすることで、その検出結果が含まれるテーブル行に再びリンクできるようになります。

テーブル内の各行を一意に識別する列の名前を入力します。必要に応じて、ドット表記を使用してネストされたフィールドを指定します。追加できるフィールドの数に制限はありません。

また、検出結果を BigQuery にエクスポートするには、[BigQuery に保存] アクションを有効にする必要があります。検出結果が BigQuery にエクスポートされると、各検出結果には識別フィールドのそれぞれの値が含まれます。詳細については、identifyingFields をご覧ください。

検出を構成する

[検出の設定] セクションでは、スキャン対象のセンシティブデータの種類を指定します。このセクションは省略可能です。このセクションをスキップすると、機密データの保護は infoType のデフォルトセットをスキャンします。

テンプレート

必要に応じて、機密データの保護テンプレートを使用して、以前に指定した構成情報を再利用できます。

使用するテンプレートをすでに作成している場合は、[テンプレート名] フィールドをクリックして既存の検査テンプレートのリストを表示します。使用するテンプレートの名前を選択または入力します。

テンプレートの作成について詳しくは、機密データの保護の検査テンプレートの作成をご覧ください。

infoType

infoType 検出器は、特定の型の機密データを検出します。たとえば、機密データの保護に組み込みの US_SOCIAL_SECURITY_NUMBER を使用した infoType 検出器では、米国の社会保障番号が検出されます。組み込みの infoType 検出器に加えて、独自のカスタム infoType 検出器を作成できます。

[InfoType] で、スキャンするデータ型に対応する infoType 検出器を選択します。このセクションを空白のままにすることはおすすめしません。空白のままにすると、機密データの保護がデフォルトの infoType セットでスキャンを実行します。これには、不要な infoType が含まれる場合があります。それぞれの検出器の詳細については、InfoType 検出器リファレンスをご覧ください。

このセクションで組み込みとカスタム infoType を管理する方法については、Google Cloud コンソールを使用して infoType を管理するをご覧ください。

検査ルールセット

信頼度のしきい値

機密データの保護で機密データの一致候補が検出されるたびに、可能性の値が「かなり低い」から「かなり高い」までの尺度で割り当てられます。ここで可能性の値を設定すると、機密データの保護は、その可能性の値以上のデータの一致のみを検出するように指示されます。

「可能性あり」はデフォルト値で、ほとんどの用途に十分対応できます。検出される一致が常に、あまりに広範に及ぶ場合は、スライダーを右に動かしてください。一致が少なすぎる場合は、スライダーを左に動かしてください。

設定が完了したら、[続行] をクリックします。

アクションの追加

[アクションの追加] ステップには、ジョブの完了後に機密データの保護に実行させる 1 つ以上のアクションを選択します。

次のアクションを構成できます。

BigQuery に保存: 機密データの保護ジョブの結果を BigQuery テーブルに保存します。結果の表示や分析を行う前に、ジョブが完了していることを確認します。

スキャンが実行されるたびに、機密データの保護は指定された BigQuery テーブルにスキャンの検出結果を保存します。エクスポートされた検出結果には、各検索結果の場所と一致の可能性に関する詳細が含まれています。各検出結果に infoType 検出器に一致する文字列を含めるには、[見積もりを含める] オプションを有効にします。

テーブル ID を指定しなければ、スキャンの最初の実行時に BigQuery によってデフォルトの名前が新しいテーブルに割り当てられます。既存のテーブルを指定した場合、機密データの保護により検出結果がテーブルに追加されます。

検出結果を BigQuery に保存しない場合、スキャン結果には検出結果の数と infoType に関する統計情報のみが含まれます。

データが BigQuery テーブルに書き込まれると、課金と割り当て使用量は、宛先テーブルが含まれるプロジェクトに適用されます。
Pub/Sub に公開: 機密データの保護ジョブの名前を属性として含む通知を Pub/Sub チャンネルに公開します。通知メッセージの送信先とするトピックを 1 つ以上指定できます。スキャンジョブを実行する機密データの保護サービスアカウントに、トピックに対する公開アクセス権があることを確認します。

注: Pub/Sub トピックの構成または権限に問題がある場合、機密データの保護は Pub/Sub 通知の送信を最大 2 週間再試行します。2 週間が経過すると、通知は破棄されます。
Security Command Center に公開: ジョブの結果の概要を Security Command Center に公開します。詳細については、機密データの保護のスキャン結果を Security Command Center に送信するをご覧ください。
Dataplex に公開: ジョブの結果を Google Cloud のメタデータ管理サービスである Dataplex に送信します。
メールで通知: ジョブが完了したときにメールを送信します。メールは IAM プロジェクトオーナーと技術的な重要な連絡先の技術担当者に送信されます。
Cloud Monitoring への公開: 検査結果を Google Cloud のオペレーションスイートの Cloud Monitoring に送信します。
匿名化されたコピーを作成する: 検査されたデータ内の検出結果を匿名化し、匿名化されたコンテンツを新しいファイルに書き込みます。それにより、機密情報を含むデータの代わりに、ビジネスプロセスで匿名化されたコピーを使用できます。詳細については、Google Cloud コンソールで機密データの保護を使用して Cloud Storage データの匿名化されたコピーを作成するをご覧ください。

詳しくは、アクションをご覧ください。

アクションを選択し終えたら、[続行] をクリックします。

確認

[確認] セクションには、指定したジョブ設定の概要が JSON 形式で表示されます。

[作成] をクリックしてジョブを作成し（スケジュールを指定しなかった場合）、ジョブを 1 回実行します。ジョブの情報ページが表示され、ステータスなどの情報を確認できます。現在実行中のジョブがあれば、[キャンセル] ボタンをクリックして停止できます。[削除] をクリックしてジョブを削除することもできます。

機密データの保護のメインページに戻るには、Google Cloud コンソールの [戻る] 矢印をクリックします。

C#

機密データの保護用のクライアントライブラリをインストールして使用する方法については、機密データの保護のクライアントライブラリをご覧ください。

機密データの保護のために認証するには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。

機密データの保護の検査ジョブの作成とスケジューリング

検査ジョブとジョブトリガーの概要

新しい検査ジョブの作成

コンソール

入力データを選択

名前

ロケーション

サンプリング

詳細構成

ファイル

識別フィールド

検出を構成する

テンプレート

infoType

検査ルールセット

信頼度のしきい値

アクションの追加

確認

C#

Go

Java

Node.js

PHP

Python

REST

新しいジョブトリガーを作成する

コンソール

入力データを選択

名前

ロケーション

サンプリング

詳細構成

ファイル

識別フィールド

検出を構成する

テンプレート

infoType

カスタム infoType

検査ルールセット

信頼度のしきい値

アクションの追加

スケジュール

確認

C#

Go

Java

Node.js

PHP

Python

REST

すべてのジョブを一覧表示する

コンソール

C#

Go

Java

Node.js

PHP

Python

REST

すべてのジョブトリガーを一覧表示する

コンソール

C#

Go

Java

Node.js

PHP

Python

REST

ジョブの削除

コンソール

C#

Go

Java

Node.js

PHP

Python

REST

ジョブトリガーを削除する

コンソール

C#