재식별 위험 분석 또는 위험 분석은 민감한 정보를 분석하여 대상이 식별될 위험을 높일 수 있는 속성을 찾는 프로세스입니다. 위험 분석 방법을 재식별 전에 사용하여 효과적인 익명화 전략을 결정하거나, 익명화 이후에 사용하여 변경 또는 이상점을 모니터링할 수 있습니다.
민감한 정보 보호는 k-익명성, l-다양성, k-지도, δ-존재 등 4가지 재식별 위험 측정항목을 계산할 수 있습니다. 위험 분석 또는 이러한 측정항목에 익숙하지 않은 경우 계속하기 전에 위험 분석 개념 주제를 참조하세요.
이 섹션에서는 이러한 측정항목을 사용하여 구조화된 데이터의 위험 분석에 민감한 정보 보호를 사용하는 방법과 기타 관련 주제를 간략하게 설명합니다.
재식별 위험 계산
민감한 정보 보호는 BigQuery 테이블에 저장된 구조화된 데이터를 분석하고 다음 재식별 위험 측정항목을 계산할 수 있습니다. 자세히 알아보려면 계산하려는 측정항목의 링크를 클릭합니다.
측정항목 | 설명 |
---|---|
k-익명성 | 레코드의 재식별성을 나타내는 데이터 세트의 속성입니다. 데이터 세트에 있는 각 개인의 유사 식별자가 동일한 데이터 세트에 있는 최소 k – 1명의 다른 사람과 동일한 경우 해당 데이터 세트는 k-익명성을 가집니다. |
l-다양성 | k-익명성의 확장으로, 해당 값이 발생하는 각 열에서 민감한 값의 다양성을 추가로 측정합니다. 동일한 유사 식별자를 가진 모든 행 집합에서 각 민감한 속성의 고유 값이 최소 l개 있는 경우 데이터 세트는 l-다양성을 가집니다. |
k-맵 | 대상의 주어진 익명화된 데이터 세트를 더 큰 재식별 또는 '공격' 데이터 세트와 비교함으로써 재식별성 위험을 계산합니다. |
δ-존재 | 더 큰 인구 범위에 있는 특정 사용자가 데이터 세트에 존재할 가능성을 추정합니다. 데이터 세트의 멤버십 자체가 민감한 정보인 경우 사용됩니다. |
기타 통계 계산
민감한 정보 보호는 위험 분석 API와 동일한 DlpJob
리소스를 사용하여 BigQuery 테이블에 저장된 데이터의 숫자 및 카테고리 통계를 계산할 수도 있습니다.
측정항목 | 설명 |
---|---|
숫자 통계 | 개별 BigQuery 열의 최소, 최대, 백분위수 값을 확인합니다. |
카테고리 숫자 통계 | BigQuery 열 내의 개별 히스토그램 버킷을 대상으로 카테고리 숫자 통계를 계산합니다. |
자세한 내용은 숫자 및 카테고리 통계 계산을 참조하세요.
재식별 위험 시각화
민감한 정보 보호를 사용하여 민감한 정보 보호가 Google Cloud 콘솔에서 직접 계산하는 위험 측정항목(k-익명성 또는 l-다양성)을 시각화하거나 다른 Google Cloud 제품을 사용할 수도 있습니다.
제품 | 설명 |
---|---|
Looker Studio | 민감한 정보 보호를 사용하여 데이터 세트의 k-익명성 값을 계산한 후 Looker Studio에서 결과를 시각화할 수 있습니다. 이렇게 하면 재식별 위험을 더 정확히 파악하고 데이터를 수정 또는 익명화하는 경우 감수해야 하는 유용성 측면의 타협을 평가하는 데 도움이 됩니다. |