機密データの保護には多くの infoType 検出器がありますが、独自に作成することもできます。独自のカスタム infoType 検出器を定義すると、検出の動作をカスタマイズできます。これにより、指定したパターンと一致する機密データが機密データの保護によって検査、匿名化されます。カスタム infoType 検出器のタイプは次のとおりです。
- 標準のカスタム辞書検出器は、機密データの保護が照合の対象する単純な単語とフレーズのリストです。単語数が最大で数十万個ある場合、標準のカスタム辞書検出器を使用します。
- 大規模なカスタム辞書検出器は、Cloud Storage または BigQuery に保存されている単語やフレーズの大規模なリストを使用して、機密データの保護によって生成されます。含まれる単語やフレーズの数が数千万個までの大規模なリストでは、格納されるカスタム辞書検出器を使用します。
- 正規表現(regex)検出器により、機密データの保護を使用して正規表現パターンに基づいて一致を検出できます。
- サロゲート infoType 検出器は、機密データの保護の匿名化変換
CryptoReplaceFfxFpeConfig
からの出力を検出します。このカスタム infoType 検出器を使用するのは、content:reidentify
メソッドで、FFX モードのフォーマット保持暗号化(FPE)を使用して匿名化を元に戻す場合のみです。このため、サロゲートについては、ここでは詳しく説明しません。サロゲート カスタム infoType 検出器をいつどのように使用するかについては、仮名化をご覧ください。
機密データの保護には、検査ルールのコンセプトも含まれています。次の検査ルールを使用してスキャン結果を細かく調整できます。
- 除外ルールを組み込みまたはカスタムの infoType 検出器に追加すると、誤った結果や不要な結果を除外できます。
- ホットワード ルールを組み込みまたはカスタムの infoType 検出器に追加すると、返される結果の数を増やしたり精度を高くしたりできます。
カスタム infoType 検出器の詳細については、infoType と infoType 検出器の概念のページをご覧ください。必要に応じて使用または変更できる例については、カスタム infoType 検出器の例をご覧ください。この後のトピックでは、機密データの保護を使用して独自のカスタム infoType 検出器を作成する方法について説明します。
カスタム infoType 検出器を使用する場所
カスタム infoType 検出器は CustomInfoType
オブジェクトで定義します。以下を構成するときには、InspectConfig
オブジェクトに CustomInfoType
を指定します。
projects.content.inspect
を使用した検査。InspectJobConfig
内の検査ジョブ。InspectTemplate
内の検査テンプレート。projects.content.deidentify
を使用した匿名化。DeidentifyTemplate
内の匿名化テンプレート。- 匿名化されたコンテンツの再識別(
projects.content.reidentify
を使用して FFX モードの FPE によって行う)。これは、サロゲート カスタム infoType 検出器に固有のシナリオです。
API の概要
CustomInfoType
オブジェクトを使用すると、新しいコンテンツのためにカスタム infoType 検出器を作成することや、事前定義済みの infoType 検出器から返される結果の微調整が可能です。
CustomInfoType
オブジェクトは次のフィールドで構成され、それぞれの記述内容に従って設定します。
"infotype"
:InfoType
オブジェクトに含まれるカスタム infoType 検出器の名前。"likelihood"
: このカスタム infoType 検出器に対して返すデフォルトのLikelihood
値。検出結果がルールで指定された基準を満たしている場合、この基本のLikelihood
に優先する代替Likelihood
値を"detectionRules"
に指定できます。"likelihood"
フィールドを含めない場合、カスタム infoType 検出器はデフォルトのVERY_LIKELY
になります。可能性の詳細については、可能性のコンセプト ページをご覧ください。"detectionRules"
: このカスタム infoType 検出器のすべての検出結果に追加で適用される一連のDetectionRule
オブジェクト。ここに起動ワードルールをHotwordRule
オブジェクトとして指定します。ルールは指定された順序で適用されます。このフィールドはSurrogateType
オブジェクトには適用されません。"sensitivityScore"
: このカスタム infoType 検出器に対して返すSensitivityScore
値。"sensitivityScore"
フィールドを含めない場合、カスタム infoType 検出器はデフォルトのVERY_LIKELY
になります。機密性スコアはデータ プロファイルで使用されます。データのプロファイリング時に、機密データの保護は、infoType の機密性スコアを使用して機密性レベルを計算します。
作成するカスタム infoType 検出器の種類に応じた、次のいずれかのフィールド。
"dictionary"
:Dictionary
オブジェクト。検索対象の単語やフレーズのリストが含まれます。"regex"
:Regex
オブジェクト。正規表現を定義する単一のパターンが含まれます。"surrogateType"
:SurrogateType
オブジェクト。このオブジェクトが存在する場合、カスタム infoType 検出器がサロゲートであることを示します。サロゲート カスタム infoType 検出器の使用方法については、仮名化をご覧ください。"storedType"
: 既存のStoredInfoType
オブジェクトへの参照。このフィールドは、大規模なカスタム辞書検出器を作成する場合に必要です。このフィールドを定義することで正規辞書検出器または正規表現検出器を作成できますが、dictionary
フィールドまたはregex
フィールドをそれぞれ定義することでそれらをより簡単に作成できます。
次のステップ
カスタム infoType の作成方法については、次のトピックをご覧ください。
- 標準のカスタム辞書検出器の作成: 単語とフレーズのリストで結果を照合するカスタム infoType 検出器を作成する方法について説明します。
- 大規模なカスタム辞書検出器の作成: 含まれる単語とフレーズの数が非常に多いリストで結果を照合する方法について説明します。保存されるカスタム infoType 検出器では、最大で数千万個もの単語に対して照合を行えます。
- カスタム正規表現検出器の作成: 正規表現で結果を照合するカスタム infoType 検出器を作成する方法について説明します。
- スキャン結果を絞り込むための infoType 検出器の変更: 組み込みとカスタムの両方の infoType 検出器向けに、スキャン結果を細かく調整できる修飾子を作成する方法について説明します。
- 一致の可能性のカスタマイズ: 検出ルールと起動ワードを使用して、カスタム検出器の一致に割り当てられている可能性の値をカスタマイズする方法について説明します。
- カスタム infoType 検出器の例: 必要に応じて使用または変更できる JSON カスタム infoType 検出器定義の例。