데이터 세트의 δ-존재 계산

델타-존재(δ-존재)는 개인이 분석된 데이터 세트에 속할 가능성을 정량화하는 측정항목입니다. k-맵과 비슷하게, 통계 모델을 사용하여 공격 데이터 세트를 추정하는 Cloud DLP를 사용하여 δ-존재 값을 추정할 수 있습니다.

δ-존재는 공격 데이터 세트가 명시적으로 알려진 다른 위험 분석 방법과 대조됩니다. 데이터의 유형에 따라 Cloud DLP는 공개적으로 사용 가능한 데이터 세트(예를 들어 미국 통계국의 데이터 세트), 커스텀 통계 모델(예: 사용자가 지정하는 하나 이상의 BigQuery 테이블)을 사용하거나 입력 데이터 세트 값의 분포에서 추론할 수 있습니다.

이 주제에서는 Cloud Data Loss Prevention(DLP)을 사용하여 데이터 세트의 δ-존재 값을 계산하는 방법을 보여줍니다. 계속 진행하기 전에 δ-존재 또는 일반 위험 분석에 대한 자세한 내용은 위험 분석 개념 주제를 참조하세요.

시작하기 전에

계속하기 전에 다음 작업을 완료했는지 확인하세요.

  1. Google 계정으로 로그인합니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
  3. 프로젝트 선택기로 이동
  4. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.
  5. Cloud DLP를 사용 설정합니다.
  6. Cloud DLP 사용 설정

  7. 분석할 BigQuery 데이터 세트를 선택합니다. Cloud DLP는 BigQuery 테이블을 스캔하여 δ-존재 측정항목을 추정합니다.
  8. 공격 데이터 세트를 모델링하는 데 사용할 데이터 세트 유형을 결정합니다. 자세한 내용은 DeltaPresenceEstimationConfig 객체의 참조 페이지와 위험 분석 용어 및 기술을 참조하세요.

δ-존재 측정항목 계산

Cloud DLP를 사용하여 δ-존재 추정값을 계산하려면 다음 URL로 요청을 보냅니다. 여기서 PROJECT_ID프로젝트 식별자를 나타냅니다.

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

요청에는 다음 요소로 구성된 RiskAnalysisJobConfig 객체가 포함됩니다.

  • PrivacyMetric 객체. 여기서 다음을 포함하는 DeltaPresenceEstimationConfig 객체를 지정하여 δ-존재를 계산하도록 지정합니다.

    • quasiIds[]: 필수. δ-존재를 계산할 때 스캔하고 사용할 유사 식별자로 간주되는 필드QuasiId 객체). 두 개의 열이 동일한 태그를 가질 수 없습니다. 다음 중 하나가 될 수 있습니다.

      • infoType: Cloud DLP가 관련 공개 데이터 세트를 미국 우편번호, 리전 코드, 연령, 성별 등이 포함된 모집단의 통계 모델로 사용하도록 합니다.
      • 커스텀 infoType: 이 열의 가능한 값에 대한 통계 정보가 포함된 보조 테이블(AuxiliaryTable)을 가리키는 커스텀 태그
      • inferred 태그: 지정된 의미 체계 태그가 없는 경우 inferred를 지정합니다. Cloud DLP는 입력 데이터에 있는 값 분포로 통계 모델을 추론합니다.
    • regionCode: Cloud DLP가 통계 모델에 사용하는 ISO 3166-1 alpha-2 리전 코드. 리전별 infoType(예를 들어 미국 우편번호) 또는 리전 코드로 태그가 지정된 열이 없는 경우 이 값은 필수입니다.

    • auxiliaryTables[]: 분석에 사용할 보조 테이블(StatisticalTable 객체). 유사 식별자 열(quasiIds[])에 태그를 지정하는 데 사용된 각 커스텀 태그는 정확히 한 보조 테이블의 한 열에 나타나야 합니다.

  • BigQueryTable 객체. 다음을 모두 포함하여 스캔할 BigQuery 테이블을 지정합니다.

    • projectId: 테이블이 포함된 프로젝트의 프로젝트 ID
    • datasetId: 테이블의 데이터 세트 ID
    • tableId: 테이블의 이름
  • 작업 완료 시 실행할 작업을 나타내는 하나 이상의 Action 객체 집합(주어진 순서에 따름). 각 Action 객체는 다음 작업 중 하나를 포함할 수 있습니다.

δ-존재 작업 결과 보기

REST API를 사용하여 δ-존재 위험 분석 작업의 결과를 검색하려면 다음 GET 요청을 projects.dlpJobs 리소스에 보냅니다. PROJECT_ID를 프로젝트 ID로 바꾸고 JOB_ID를 결과를 가져올 작업 식별자로 바꿉니다. 작업 ID는 작업 시작 시 반환되었으며 모든 작업을 나열하여 검색할 수도 있습니다.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

요청은 작업 인스턴스가 포함된 JSON 객체를 반환합니다. 분석 결과는 AnalyzeDataSourceRiskDetails 객체의 "riskDetails" 키 내에 있습니다. 자세한 내용은 DlpJob 리소스의 API 참조를 확인하세요.

다음 단계

  • 데이터 세트의 k-익명성 값을 계산하는 방법 알아보기
  • 데이터 세트의 l-다양성 값을 계산하는 방법 알아보기
  • 데이터 세트의 k-맵 값을 계산하는 방법 알아보기