일치 가능성

스캔 결과는 일치를 나타낼 가능성에 따라 분류됩니다. 민감한 정보 보호는 데이터의 일부가 지정된 infoType과 일치할 가능성을 나타내는 버케팅된 가능성 표현을 사용합니다.

가능성 작동 방식

Sensitive Data Protection 스캔을 구성할 때 Sensitive Data Protection이 스캔을 수행할 infoType을 설정합니다. 스캔 결과의 범위를 좁히려면 요청에서 최소 가능성 수준을 설정할 수 있습니다.

스캔 중에 감지된 각 잠재적 일치 항목(발견 항목)에 대해 Sensitive Data Protection이 가능성 수준을 할당합니다. 발견 항목의 가능성 수준은 발견 항목이 스캔하는 infoType과 일치할 가능성을 설명합니다. 예를 들어 Sensitive Data Protection은 이메일 주소와 비슷한 발견 항목에 LIKELY의 가능성을 할당할 수 있습니다.

Sensitive Data Protection이 결과를 반환하면 요청에 설정한 최소 가능성 수준보다 가능성이 낮은 발견 항목을 필터링합니다. 예를 들어 최소 가능성을 POSSIBLE로 설정하면 POSSIBLE, LIKELY, VERY_LIKELY로 평가된 발견 항목만 가져옵니다. 최소 가능성을 VERY_LIKELY로 설정하면 발견 항목 수가 최소화됩니다.

가능성 수준

다음 표에는 Sensitive Data Protection이 발견 항목에 할당할 수 있는 가능성 값이 나와 있습니다.

ENUM 설명
VERY_UNLIKELY 특성은 다음과 같습니다.
  • 약한 신호
  • 상황별 단서 없음
  • 지정된 infoType의 부정적 신호
UNLIKELY 특성은 다음과 같습니다.
  • 하나 이상의 약한 신호
  • 다른 infoType의 더 강력한 신호
POSSIBLE 특성은 다음과 같습니다.
  • 지정된 infoType에 대한 하나 이상의 신호 신호에는 체크섬 전달이 포함될 수 있습니다.
  • 강력한 상황별 단서와 고유하고 구체적인 형식이 없습니다.
LIKELY 지정된 infoType에 대한 하나 이상의 강력한 신호가 특징입니다. 신호에는 체크섬 전달, 강력한 상황별 단서, 고유하고 구체적인 형식이 포함될 수 있습니다.
VERY_LIKELY 지정된 infoType에 대해 많은 강력한 신호가 있는 특성을 나타냅니다. 신호에는 체크섬 전달, 강력한 상황별 단서, 고유하고 구체적인 형식이 포함될 수 있습니다.

스캔 결과의 최소 가능성 수준 선택

일반적으로 Sensitive Data Protection 요청에서 최소 가능성 수준을 높게 설정하면 결과에 거짓양성 수가 줄어듭니다(노이즈라고도 함). 하지만 더 많은 참양성을 제외할 수도 있습니다. 최소 가능성 수준을 선택하려면 재현율과 정밀도 간의 적절한 균형을 찾아야 합니다.

예를 들어 문서에 10개의 상세 주소가 있고 Sensitive Data Protection이 5개의 상세 주소를 식별했다고 가정해 보겠습니다. 하지만 Sensitive Data Protection에서 식별된 발견 항목 중에는 실제로 주소가 4개밖에 없습니다.

  • 재현율은 총 관련 인스턴스 수 중 참양성 인스턴스 수입니다. 이 예시에서 재현율은 4/10입니다.
  • 정밀도는 Sensitive Data Protection이 식별하는 총 인스턴스 수 중 참양성 인스턴스 수입니다. 이 예시에서 정밀도는 4/5입니다.

이 예시에서는 정밀도가 높지만 재현율이 비교적 낮습니다.

설정한 최소 가능성 수준은 스캔 결과에 표시되는 재현율 및 정밀도의 수준에 영향을 줍니다. 다음 표에서는 각 최소 가능성 수준이 유용한 시기와 각 수준에서 재현율과 정밀도가 어떻게 다른지 설명합니다.

최소 가능성 수준 설명
LIKELIHOOD_UNSPECIFIED 기본값 POSSIBLE과 동일합니다.
VERY_UNLIKELY 최대 재현율이 필요한 경우에 유용합니다. 이 최소 가능성 수준은 가장 많은 노이즈를 생성합니다.
UNLIKELY 더 높은 재현율이 필요한 경우에 유용합니다. 이 최소 가능성 수준은 노이즈를 생성합니다.
POSSIBLE 정밀도와 재현율의 균형을 원하는 경우에 유용합니다.
LIKELY 재현율이 약간 떨어지지만 정밀도가 가장 높아야 하는 경우 유용합니다.
VERY_LIKELY 재현율이 떨어지지만 정밀도가 가장 높아야 하는 경우 유용합니다.

기본 최소 가능성

요청에서 최소 가능성을 설정하지 않거나 LIKELIHOOD_UNSPECIFIED로 설정하면 민감한 정보 보호는 가능성이 POSSIBLE 이상인 발견 항목만 반환합니다.