Cloud Data Loss Prevention（Cloud DLP）は機密データの保護の一部になりました。API 名に変わりはありません。Cloud Data Loss Prevention API（DLP API）です。機密データの保護を構成するサービスについては、機密データの保護の概要をご覧ください。

大規模なカスタム辞書検出器を作成する

このトピックでは、大規模なカスタム辞書を作成および再構築する方法について説明します。また、いくつかのエラーのシナリオについても説明します。

標準のカスタム辞書よりも大規模なカスタム辞書を選択するケース

コンテンツをスキャンする機密性の高い単語やフレーズが数万個ある場合は、標準カスタム辞書検出器で十分です。多すぎる用語や、用語リストが頻繁に変更される場合は、数千万もの用語をサポートできる大規模なカスタム辞書を作成することを検討してください。

大規模なカスタム辞書と他のカスタム infoType の違い

大規模なカスタム辞書は、それぞれのカスタム辞書に 2 つのコンポーネントがあるという点で他のカスタム infoType とは異なります。

作成、定義するフレーズのリスト。このリストは、Cloud Storage 内のテキストファイルまたは BigQuery テーブル内の列として保存されます。
機密データの保護によって生成され、Cloud Storage に保存される辞書ファイル。辞書ファイルは、用語リストのコピーと、検索やマッチングに役立つブルームフィルタで構成されます。

大規模なカスタム辞書を作成する

このセクションでは、大規模なカスタム辞書を作成、編集、再構築する方法について説明します。

用語リストを作成する

新しい infoType 検出器で検索したいすべての単語とフレーズを含むリストを作成します。次のいずれかを行います。

各単語やフレーズを 1 行に 1 つずつ含むテキストファイルを Cloud Storage バケットに配置します。
BigQuery テーブルの 1 つの列を単語とフレーズのコンテナとして指定します。各エントリを列内の単独の行に含めます。辞書のすべての単語とフレーズを 1 つの列に収めるようにすると、既存の BigQuery テーブルを使用できます。

機密データの保護で処理できない大きさの用語リストを作成することが可能です。エラーメッセージが表示された場合は、このトピックの後半のエラーのトラブルシューティングをご覧ください。

格納される infoType を作成する

用語リストを作成した後、機密データの保護を使用して辞書を作成します。

コンソール

Cloud Storage バケットに、機密データの保護が生成された辞書を保存する新しいフォルダを作成します。

機密データの保護では、指定した場所に辞書ファイルを含むフォルダを作成します。
Google Cloud コンソールで、[infoType の作成] ページに移動します。

infoType の作成ページに移動
[タイプ] で [大規模なカスタム辞書] を選択します。
[InfoType ID] には、格納される infoType の識別子を入力します。

この ID は、検査ジョブと匿名化ジョブを構成するときに使用します。名前には文字、数字、ハイフン、アンダースコアを使用できます。
[InfoType の表示名] に、格納される infoType の名前を入力します。

名前にはスペースと句読点を使用できます。
[説明] に、格納される infoType が検出する内容の説明を入力します。
[ストレージの種類] で、用語リストの場所を選択します。
- BigQuery: プロジェクト ID、データセット ID、テーブル ID を入力します。[フィールド名] フィールドに列 ID を入力します。表には最大 1 つの列を指定できます。
- Google Cloud Storage: ファイルのパスを入力します。
[出力バケットまたはフォルダ] で、手順 1 で作成したフォルダの Cloud Storage のロケーションを入力します。

注: 機密データの保護が辞書を作成するときに作成するフォルダ内にファイルを配置しないでください。機密データの保護が辞書ファイルを作成または再構築すると、作成したフォルダに格納されているすべてのファイルが削除されます。機密データの保護が作成するフォルダと同じレベルのフォルダはすべて維持されます。
[作成] をクリックします。

格納される infoType の概要が表示されます。辞書が生成され、新しく格納される infoType を使用する準備が整うと、infoType のステータスが [準備完了] になります。

C#

機密データの保護用のクライアントライブラリをインストールして使用する方法については、機密データの保護のクライアントライブラリをご覧ください。

機密データの保護のために認証するには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。

大規模なカスタム辞書検出器を作成する

標準のカスタム辞書よりも大規模なカスタム辞書を選択するケース

大規模なカスタム辞書と他のカスタム infoType の違い

大規模なカスタム辞書を作成する

用語リストを作成する

格納される infoType を作成する

コンソール

C#

Go

Java

Node.js

PHP

Python

REST

辞書を再構築する

Console

C#

Go

Java

Node.js

PHP

Python

REST

用語リストを更新する

例

ソース用語リストを切り替える

例

大規模なカスタム辞書検出器を使用してコンテンツをスキャンする

Console

C#

Go

Java

Node.js

PHP

Python

REST

エラーに関するトラブルシューティング

API の概要

辞書での照合について