正規表現(regex)カスタム infoType 検出器では、Cloud DLP で正規表現パターンに基づいて一致を検出するための独自の検出器を作成できます。たとえば、###-#-#####
という形式のカルテ番号があるとします。この場合、次のような正規表現パターンを定義できます。
[0-9]{3}-[0-9]{1}-[0-9]{5}
Cloud DLP は次のような項目を照合します。
012-4-56789
正規表現のカスタム infoType 検出器の詳細
正規表現のカスタム infoType 検出器を作成するには、API の概要で説明されているように以下を指定して CustomInfoType
オブジェクトを定義します。
- カスタム infoType 検出器に付ける名前。
InfoType
オブジェクト内に指定します。 - オプションの
Likelihood
値。指定しない場合、正規表現一致ではデフォルトの可能性の値VERY_LIKELY
が返されます。正規表現のカスタム infoType 検出器で返される結果に誤判定が多すぎると思われる場合は、基本の可能性の値を引き下げ、検出ルールを使用してコンテキスト情報によって可能性の値を引き上げてみてください。詳細については、結果の可能性のカスタマイズをご覧ください。 DetectionRule
またはホットワード ルール(省略可)。こうしたルールを適用すると、指定したホットワードの所定の近接範囲内にある結果の可能性を調整できます。ホットワード ルールの詳細については、結果の可能性のカスタマイズをご覧ください。オプションの
SensitivityScore
値。このフィールドを省略すると、正規表現と一致したものについて、デフォルトの機密性レベルHIGH
が返されます。機密性スコアはデータ プロファイルで使用されます。データをプロファイリングする際、Cloud DLP は infoType の機密スコアを使用して機密レベルを計算します。
Regex
オブジェクト。正規表現を定義する単一のパターンで構成されます。
正規表現のカスタム infoType 検出器は JSON オブジェクトとしてすべての任意指定コンポーネントを含み、次のようになります。
{
"customInfoTypes":[
{
"infoType":{
"name":"CUSTOM_INFOTYPE_NAME"
},
"likelihood":"LIKELIHOOD_LEVEL",
"detectionRules":[
{
"hotwordRule":{
HOTWORD_RULE
}
},
"sensitivityScore":{
"score": "SENSITIVITY_SCORE"
},
],
"regex":{
"pattern":"REGULAR_EXPRESSION_PATTERN"
}
}
],
...
}
正規表現の例: カルテ番号を照合する
次の JSON スニペットと複数の言語のコードは、入力テキスト「Patient's MRN 444-5-22222」のカルテ番号を照合し、各一致に POSSIBLE
の可能性を割り当てるように Cloud DLP に指示する正規表現カスタム infoType 検出器を示しています。
プロトコル
JSON で DLP API を使用する方法については、JSON クイックスタートをご覧ください。
JSON 入力:
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"Patients MRN 444-5-22222"
},
"inspectConfig":{
"customInfoTypes":[
{
"infoType":{
"name":"C_MRN"
},
"regex":{
"pattern":"[1-9]{3}-[1-9]{1}-[1-9]{5}"
},
"likelihood":"POSSIBLE"
}
]
}
}
JSON 出力:
{
"result":{
"findings":[
{
"infoType":{
"name":"C_MRN"
},
"likelihood":"POSSIBLE",
"location":{
"byteRange":{
"start":"13",
"end":"24"
},
"codepointRange":{
"start":"13",
"end":"24"
}
},
"createTime":"2018-11-30T01:29:37.799Z"
}
]
}
}
この出力は、指定された「C_MRN
」という名前を持つカスタム infoType 検出器とそのカスタム正規表現を使用して、Cloud DLP でカルテ番号が正しく識別され、指定された POSSIBLE
という確実性がこの一致に割り当てられたことを示しています。
一致の可能性のカスタマイズでは、この例を基にしてコンテキスト ワードを含めます。
Java
Cloud DLP 用のクライアント ライブラリをインストールして使用する方法については、Cloud DLP クライアント ライブラリをご覧ください。
Cloud DLP に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Cloud DLP 用のクライアント ライブラリをインストールして使用する方法については、Cloud DLP クライアント ライブラリをご覧ください。
Cloud DLP に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。