カスタム正規表現検出器の作成

正規表現(regex)カスタム infoType 検出器では、Cloud DLP で正規表現パターンに基づいて一致を検出するための独自の検出器を作成できます。たとえば、###-#-##### という形式のカルテ番号があるとします。この場合、次のような正規表現パターンを定義できます。

[0-9]{3}-[0-9]{1}-[0-9]{5}

Cloud DLP は次のような項目を照合します。

012-4-56789

正規表現のカスタム infoType 検出器の詳細

正規表現のカスタム infoType 検出器を作成するには、API の概要で説明されているように以下を指定して CustomInfoType オブジェクトを定義します。

  • カスタム infoType 検出器に付ける名前。InfoType オブジェクト内に指定します。
  • Likelihood 値(省略可)。これを指定しない場合、正規表現の一致ではデフォルトの可能性の値 VERY_LIKELY が返されます。正規表現のカスタム infoType 検出器で返される結果に誤判定が多すぎると思われる場合は、基本の可能性の値を引き下げたり、検出ルールを使用してコンテキスト情報によって可能性の値を引き上げたりしてみてください。詳細については、結果の可能性のカスタマイズをご覧ください。
  • DetectionRule またはホットワード ルール(省略可)。こうしたルールを適用すると、指定したホットワードの所定の近接範囲内にある結果の可能性を調整できます。ホットワード ルールの詳細については、結果の可能性のカスタマイズをご覧ください。
  • Regex オブジェクト。正規表現を定義する単一のパターンで構成されます。

正規表現のカスタム infoType 検出器は JSON オブジェクトとしてすべての任意指定コンポーネントを含み、次のようになります。

{
  "customInfoTypes":[
    {
      "infoType":{
        "name":"[CUSTOM_INFOTYPE_NAME]"
      },
      "likelihood":"[LIKELIHOOD_VALUE]",
      "detectionRules":[
        {
          "hotwordRule":{
            [HOTWORDRULE_OBJECT]
          }
        },
        ...
      ],
      "regex":{
        "pattern":"[REGEX_PATTERN]"
      }
    }
  ],
  ...
}

正規表現の例: カルテ番号を照合する

次の JSON 入力の例は、入力テキスト「Patient's MRN 444-5-22222」のカルテ番号(MRN)を照合し、各一致に POSSIBLE の可能性を割り当てるように Cloud DLP に指示する正規表現カスタム infoType 検出器を示しています。

JSON 入力:

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"Patients MRN 444-5-22222"
  },
  "inspectConfig":{
    "customInfoTypes":[
      {
        "infoType":{
          "name":"C_MRN"
        },
        "regex":{
          "pattern":"[1-9]{3}-[1-9]{1}-[1-9]{5}"
        },
        "likelihood":"POSSIBLE"
      }
    ]
  }
}

JSON 出力:

{
  "result":{
    "findings":[
      {
        "infoType":{
          "name":"C_MRN"
        },
        "likelihood":"POSSIBLE",
        "location":{
          "byteRange":{
            "start":"13",
            "end":"24"
          },
          "codepointRange":{
            "start":"13",
            "end":"24"
          }
        },
        "createTime":"2018-11-30T01:29:37.799Z"
      }
    ]
  }
}

この出力は、指定された「C_MRN」という名前を持つカスタム infoType 検出器とそのカスタム正規表現を使用して、Cloud DLP でカルテ番号が正しく識別され、指定された POSSIBLE という確実性がこの一致に割り当てられたことを示しています。

一致の可能性のカスタマイズでは、この例を基にしてコンテキスト ワードを含めます。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Data Loss Prevention