結果は、一致の可能性で分類されます。機密データの保護では、バケット化された可能性の値を使用します。この値は、データの一部が特定の infoType に一致する可能性がどの程度あるかを表します。
確率の仕組み
機密データ保護スキャンを構成するときに、機密データ保護でスキャンする infoType を設定します。スキャン結果を絞り込むには、リクエストの最小可能性レベルを設定できます。
スキャン中に検出された潜在的な一致(検出結果)ごとに、機密データの保護の可能性レベルが割り当てられます。検出結果の可能性レベルは、検出結果がスキャンする infoType に一致する可能性を表します。たとえば、機密データ保護は、メールアドレスのような検出結果に LIKELY
の可能性を割り当てる場合があります。
機密データの保護が結果を返すと、リクエストで設定した最小可能性レベルよりも低い可能性を持つ検出結果が除外されます。たとえば、最小確率を POSSIBLE
に設定すると、POSSIBLE
、LIKELY
、VERY_LIKELY
として評価された検出結果のみが返されます。最小の可能性を VERY_LIKELY
に設定すると、検出結果の数は最小限になります。
可能性のレベル
次の表に、機密データ保護が検出結果に割り当てることができる可能性の値を示します。
ENUM | 説明 |
---|---|
VERY_UNLIKELY |
次のような特徴があります。
|
UNLIKELY |
次のような特徴があります。
|
POSSIBLE |
次のような特徴があります。
|
LIKELY |
特定の infoType に対する 1 つ以上の強いシグナルを特徴とします。シグナルには、チェックサムの合格、コンテキスト上の強い手がかり、一意の特定の形式が含まれます。 |
VERY_LIKELY |
特定の infoType に対する多数の強いシグナルを特徴とします。シグナルには、チェックサムの合格、コンテキスト上の強い手がかり、一意の特定の形式が含まれます。 |
スキャン結果の最小可能性レベルの選択
一般に、機密データの保護リクエストで最小可能性レベルを設定すると、結果は偽陽性(ノイズとも呼ばれます)の数が減少します。ただし、結果からより多くの真陽性が除外される可能性もあります。最小可能性レベルを選択するには、再現率と適合率のバランスを適切に取る必要があります。
たとえば、ドキュメント内に 10 個の番地があり、機密データの保護が 5 つの番地を識別したとします。しかし、機密データ保護によって特定された検出結果のうち、実際に存在する住所は 4 か所しかありません。
- 再現率は、関連するインスタンスの総数のうち、真陽性のインスタンスの数です。この例では、再現率は 4/10 です。
- 適合率は、機密データの保護によって識別されたインスタンスの総数のうち、真陽性のインスタンスの数です。この例では、適合率は 4/5 です。
この例では、適合率は高く、再現率は比較的低くなっています。
設定する最小可能性レベルは、スキャン結果で得られる再現率と適合率のレベルに影響します。次の表に、各最小尤度レベルが役立つ場合と、各レベルでの再現率と精度の違いを示します。
最小の可能性レベル | 説明 |
---|---|
LIKELIHOOD_UNSPECIFIED |
デフォルト値。POSSIBLE と同じ。 |
VERY_UNLIKELY |
再現率が最も高い必要がある場合に役立ちます。この最小の可能性レベルでは、最も多くのノイズが発生します。 |
UNLIKELY |
より高い再現率が必要な場合に役立ちます。この最小の確率レベルでは、ノイズが発生します。 |
POSSIBLE |
適合率と再現率のバランスが必要な場合に役立ちます。 |
LIKELY |
ある程度の再現率を犠牲にして高い適合率を求める場合に役立ちます。 |
VERY_LIKELY |
再現率の中で最高の適合率が必要な場合に役立ちます。 |
デフォルトの最小尤度
リクエストで最小の可能性を設定しなかった場合、または LIKELIHOOD_UNSPECIFIED
に設定した場合、機密データの保護は可能性が POSSIBLE
以上の検出結果のみを返します。