BigQuery 데이터의 데이터 프로필

이 페이지에서는 데이터 프로파일링 서비스와 이 서비스를 사용하여 조직에서 민감하고 위험성이 높은 데이터가 어디에 있는지 확인하는 방법을 설명합니다.

개요

Cloud Data Loss Prevention(DLP)의 데이터 프로파일링 서비스를 사용하면 민감하고 위험성이 높은 데이터가 어디에 있는지 확인하여 조직 전체의 데이터를 보호할 수 있습니다. 데이터 프로파일링을 사용하면 Cloud DLP가 전체 조직, 개별 폴더, 프로젝트에서 BigQuery 테이블과 열을 자동으로 스캔합니다. 그런 다음 테이블, 열, 프로젝트 수준에서 데이터 프로필을 만듭니다.

데이터 프로필은 Cloud DLP가 특정 리소스 스캔으로부터 수집하는 측정항목 집합입니다. 이러한 측정항목에는 예측된 infoTypes, 각 열에 있는 값의 고유성, 평가된 데이터 리스크 및 민감도 수준, 테이블에 대한 메타데이터가 포함됩니다. 이러한 통계를 사용하여 데이터의 보호, 공유, 사용 방식에 대해 정보에 입각한 결정을 내릴 수 있습니다.

데이터 프로파일러 구성이 활성 상태이면 Cloud DLP에서 사용자가 추가 및 수정하는 테이블이 자동으로 스캔되고 이러한 테이블에 대해 신규 및 업데이트된 데이터 프로파일이 생성됩니다.

열 데이터 프로파일의 스크린샷

각 데이터 프로필에 포함된 측정항목 목록은 측정항목 참조를 확인하세요.

데이터 프로필 만들기

데이터 프로필을 생성하려면 스캔 구성(데이터 프로필 구성이라고도 함)을 만듭니다. 이 스캔 구성에서는 스캔할 리소스(조직, 폴더 또는 프로젝트)를 설정합니다. 해당 리소스의 모든 BigQuery 데이터 세트와 테이블은 데이터 프로파일링의 범위에 해당합니다.

스캔 구성을 만들 때 사용할 검사 템플릿도 설정합니다. 검사 템플릿에서는 Cloud DLP가 스캔해야 하는 민감한 정보 유형을 지정할 수 있습니다.

Cloud DLP는 데이터 프로필을 만들 때 스캔 구성 및 검사 템플릿을 기반으로 BigQuery 테이블 및 열을 분석합니다. 데이터 프로필은 해당 시점의 분석, 통계, 측정항목의 스냅샷입니다.

데이터 프로필로 작업하기

데이터 프로필을 사용하는 워크플로는 다음과 같습니다.

  1. 데이터 프로파일러에 대한 액세스 요청
  2. 필요한 사용자 역할이 있는지 확인
  3. 스캔 구성 만들기
  4. 조직 또는 폴더 스캔에만 해당: 서비스 에이전트에 프로파일링 액세스 권한 부여
  5. 데이터 프로필 보기
  6. 발견 항목 해결

데이터 프로파일러에 대한 액세스 요청

가입 양식을 작성하여 데이터 프로파일러 기능에 대해 액세스를 요청합니다.

액세스 요청

가입 영식이 새 탭으로 열립니다.

양식을 제출하면 Cloud DLP 팀이 요청을 검토하여 액세스 기준을 충족하는지 확인합니다. 요청에 대한 응답으로 이메일이 전송됩니다.

데이터 프로필 구성 및 보기에 필요한 역할

다음 섹션에는 용도에 따라 분류된 필수 사용자 역할이 열거되어 있습니다. 조직이 설정된 방법에 따라 각 사용자가 서로 다른 태스크를 수행하도록 결정할 수 있습니다. 예를 들어 데이터 프로필을 구성하는 사람은 일반적으로 이를 모니터링하는 사람과 다를 수 있습니다.

조직 또는 폴더 수준에서 데이터 프로필을 작업하는 데 필요한 역할

이러한 역할은 조직 또는 폴더 수준에서 데이터 프로필을 구성 및 확인할 수 있게 해줍니다.

이러한 역할이 조직 수준에서 적절한 사용자에게 부여되었는지 확인합니다. 또는 Google Cloud 관리자가 관련 권한만 있는 커스텀 역할을 만들 수 있습니다.

용도 사전 정의된 역할 관련 권한
데이터 프로필 구성 및 보기 DLP 관리자(roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
프로젝트 생성자(roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
데이터 프로파일링 액세스 권한 부여 다음 중 하나:
  • 조직 관리자(roles/resourcemanager.organizationAdmin)
  • 보안 관리자(roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
데이터 프로필 보기(읽기 전용) DLP 데이터 프로필 리더(roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP 리더(roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

프로젝트 수준에서 데이터 프로필을 작업하는 데 필요한 역할

이러한 역할은 프로젝트 수준에서 데이터 프로필을 구성 및 확인할 수 있게 해줍니다.

이러한 역할이 프로젝트 수준에서 적절한 사용자에게 부여되었는지 확인합니다. 또는 Google Cloud 관리자가 관련 권한만 있는 커스텀 역할을 만들 수 있습니다.

용도 사전 정의된 역할 관련 권한
데이터 프로필 구성 및 보기 DLP 관리자(roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
데이터 프로필 보기(읽기 전용) DLP 데이터 프로필 리더(roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP 리더(roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

스캔 구성

스캔 구성 또는 데이터 프로필 구성은 스캔할 리소스(조직, 폴더, 프로젝트), 사용할 검사 템플릿, 결과로 수행할 작업을 지정합니다. 또한 스캔을 연결할 서비스 에이전트 컨테이너 및 사용할 결제 계정과 같은 관리 세부정보도 포함됩니다.

조직의 스캔 구성과 특정 폴더의 스캔 구성을 만들 수 있습니다. 2개 이상의 활성 스캔 구성의 범위에 동일한 프로젝트가 있으면 Cloud DLP는 해당 프로젝트의 프로필을 생성할 수 있는 스캔 구성을 결정합니다.

프로젝트 수준에서 스캔 구성을 만들 수도 있습니다. 이러한 유형의 스캔 구성은 항상 대상 프로젝트를 프로파일링할 수 있으며 상위 폴더 또는 조직 수준의 다른 구성과 경쟁하지 않습니다.

스캔 구성을 처음 만들 때는 Cloud DLP에서 저장할 위치를 지정합니다. 이후에 만드는 모든 스캔 구성은 동일한 리전에 저장됩니다.

예를 들어 폴더 A에 대한 스캔 구성을 만들고 us-west1 리전에 저장하면 나중에 다른 리소스에 대해 만든 모든 스캔 구성도 이 리전에 저장됩니다.

검사 템플릿

검사 템플릿은 Cloud DLP가 데이터를 스캔하는 동안 찾는 정보 유형(또는 infoType)을 지정합니다. 여기에서는 기본 제공 infoType 및 선택적 커스텀 infoType의 조합을 제공합니다.

Cloud DLP가 일치하는 것으로 간주하는 범위를 좁힐 수 있는 가능성 수준을 제공할 수도 있습니다. 규칙 세트를 추가하여 원치 않는 발견 항목을 제외하거나 추가 발견 항목을 포함할 수 있습니다.

스캔 구성에 사용되는 검사 템플릿을 변경하면 해당 변경사항이 이후 스캔에만 적용됩니다. 기존 데이터 프로필은 덮어 쓰이지 않습니다. 예를 들어 infoType을 추가하도록 템플릿을 수정하는 경우 변경사항은 아직 스캔되지 않은 테이블에만 영향을 미칩니다. 이 작업으로 기존 테이블이 모두 다시 스캔되는 것은 아닙니다.

검사 템플릿은 프로파일링할 데이터와 동일한 리전에 있어야 합니다. 여러 리전에 데이터가 있는 경우 global 리전에 저장된 검사 템플릿을 사용합니다. 자세한 내용은 데이터 상주 고려사항을 참조하세요.

검사 템플릿은 Cloud DLP 플랫폼의 핵심 구성요소입니다. 데이터 프로필은 모든 Cloud DLP 서비스에서 사용할 수 있는 동일한 검사 템플릿을 사용합니다. 검사 템플릿에 대한 자세한 내용은 템플릿을 참조하세요.

서비스 에이전트 컨테이너

조직 또는 폴더의 스캔 구성을 만들 때 Cloud DLP에서는 서비스 에이전트 컨테이너를 제공해야 합니다. 서비스 에이전트 컨테이너는 서비스 에이전트가 포함된 프로젝트입니다. Cloud DLP 및 기타 API에 인증하려면 서비스 에이전트가 필요합니다. 서비스 에이전트에는 데이터에 액세스하고 프로파일링하는 데 필요한 모든 권한이 있어야 합니다.

서비스 에이전트 컨테이너를 설정할 때 기존 프로젝트를 선택할 수 있습니다. 선택한 프로젝트에 서비스 에이전트가 포함된 경우 Cloud DLP가 해당 서비스 에이전트에 필요한 IAM 권한을 부여합니다. 프로젝트에 서비스 에이전트가 없으면 Cloud DLP가 서비스 에이전트를 만들고 여기에 데이터 프로파일링 권한을 자동으로 부여합니다.

또는 Cloud DLP가 서비스 에이전트 컨테이너 및 서비스 에이전트를 자동으로 만들도록 선택할 수 있습니다. Cloud DLP는 서비스 에이전트에 자동으로 데이터 프로파일링 권한을 부여합니다.

두 경우 모두 Cloud DLP가 서비스 에이전트에 데이터 프로파일링 액세스 권한을 부여하지 않으면 스캔 구성 세부정보 보기를 할 때 오류가 표시됩니다.

프로젝트 수준 스캔 구성의 경우 서비스 에이전트 컨테이너가 필요하지 않습니다. 프로파일링하는 프로젝트는 서비스 에이전트 컨테이너의 역할을 합니다.

조직 또는 폴더 수준에서 데이터 프로파일링 액세스

조직 또는 폴더 수준에서 스캔 구성을 만들 경우 Cloud DLP가 서비스 계정에 데이터 프로파일링 액세스 권한을 자동으로 부여하도록 시도합니다. 하지만 IAM 역할 부여 권한이 없으면 Cloud DLP가 이 작업을 자동으로 수행할 수 없습니다. Google Cloud 관리자와 같이, 조직 내에서 해당 권한이 있는 사람이 서비스 에이전트에 데이터 프로파일링 액세스 권한을 부여해야 합니다.

데이터 프로필 생성 빈도

특정 리소스에 대한 스캔 구성을 만들면 Cloud DLP가 초기 스캔을 수행하여 해당 리소스의 모든 테이블을 프로파일링합니다. 초기 스캔 후 BigQuery 테이블에 추가 또는 변경사항이 있는지 지속적으로 모니터링합니다. 추가한 새 테이블은 추가된 직후에 프로파일링됩니다. 수정하는 모든 테이블은 다음 달에 프로파일링됩니다. 변경되지 않은 테이블은 다시 프로파일링되지 않습니다.

기본적으로 Cloud DLP는 마지막으로 프로파일링된 이후 변경되지 않은 테이블을 다시 프로파일링하지 않습니다. Cloud DLP가 기존 테이블을 다시 프로파일링하도록 하려면 Cloud DLP팀에 요청을 전송하면 됩니다.

예시 시나리오로 데이터 프로파일링 가격 책정 예시를 참조하세요.

데이터 프로필 보관

Cloud DLP는 데이터 프로필의 최신 버전을 13개월 동안 보관합니다. Cloud DLP가 업데이트된 테이블을 다시 프로파일링하면 해당 테이블의 기존 데이터 프로필이 새 프로필로 바뀝니다.

다음과 같은 시나리오를 가정합니다.

  • 1월 1일에 Cloud DLP가 테이블 A를 프로파일링합니다. 테이블 A는 1년 동안 변경되지 않으므로 다시 프로파일링되지 않습니다. 이 경우 Cloud DLP는 테이블 A의 데이터 프로필을 13개월 동안 보관한 후 삭제합니다.

  • 1월 1일에 Cloud DLP가 테이블 A를 프로파일링합니다. 1월 내에 조직 내 누군가가 테이블을 업데이트합니다. 이 변경으로 인해 다음 달 Cloud DLP가 테이블 A를 다시 자동으로 프로파일링합니다. 새로 생성된 데이터 프로필은 1월에 생성된 프로필을 덮어씁니다.

Cloud DLP가 새 테이블 및 수정된 테이블 프로파일링에 부과하는 방법은 데이터 프로파일링 가격 책정을 참조하세요.

데이터 프로필을 무기한 보존하거나 발생한 변경사항 기록을 보관하려면 스캔 구성을 만들 때 BigQuery에 데이터 프로필을 저장하는 것이 좋습니다. 프로필을 저장할 BigQuery 데이터 세트를 선택하고 이 데이터 세트의 테이블 만료 정책을 제어합니다.

스캔 구성 재정의

각 조직, 폴더, 프로젝트당 최대 1개의 스캔 구성을 만들 수 있습니다.

2개 이상의 활성 스캔 구성의 범위에 동일한 프로젝트가 있으면 다음 규칙이 적용됩니다.

  • 조직 및 폴더 수준 스캔 구성 중에서 프로젝트에 가장 가까운 구성이 해당 프로젝트의 데이터 프로필을 생성할 수 있습니다. 해당 프로젝트의 프로젝트 수준 스캔 구성도 있는 경우에도 마찬가지입니다.
  • Cloud DLP는 조직 및 폴더 수준 구성과 별개로 프로젝트 수준 스캔 구성을 처리합니다. 프로젝트 수준에서 만드는 스캔 구성은 상위 폴더 또는 조직용으로 만드는 구성을 재정의할 수 없습니다.

세 가지 활성 스캔 구성이 있는 예시를 가정해 보겠습니다.

스캔 구성이 조직 및 폴더에 적용되는 리소스 계층 구조의 다이어그램

여기에서 스캔 구성 1은 전체 조직에 적용되고 스캔 구성 2팀 B 폴더에 적용되며 스캔 구성 3프로덕션 프로젝트에 적용됩니다. 예를 들면 다음과 같습니다.

  • Cloud DLP는 스캔 구성 1에 따라 팀 B 폴더에 없는 프로젝트의 모든 테이블을 프로파일링합니다.
  • Cloud DLP는 스캔 구성 2에 따라 프로젝트의 모든 테이블을 팀 B 폴더 아래에 프로파일링합니다. 여기에는 프로덕션 프로젝트의 테이블이 포함됩니다.
  • Cloud DLP는 스캔 구성 3에 따라 프로덕션 프로젝트의 모든 테이블을 프로파일링합니다.

이 예시에서 Cloud DLP는 프로덕션 프로젝트의 프로필 세트 2개를 효과적으로 생성합니다. 이 프로필 세트는 다음 각 스캔 구성마다 하나씩 설정됩니다.

  • 스캔 구성 2
  • 스캔 구성 3

하지만 동일한 프로젝트에 두 개의 프로필 세트가 있어도 대시보드에 모두 함께 표시되지는 않습니다. 현재 보고 있는 보기 및 리전에서 생성된 프로필만 표시됩니다.

Google Cloud의 리소스 계층 구조에 대한 자세한 내용은 리소스 계층 구조를 참조하세요.

데이터 프로필 스냅샷

각 데이터 프로필에는 스캔 구성의 스냅샷과 이를 생성하는 데 사용된 검사 템플릿이 포함됩니다. 즉, 나중에 스캔 구성이나 검사 템플릿을 변경해도 언제든지 특정 데이터 프로필을 생성하는 데 사용한 설정을 확인할 수 있습니다.

데이터 보존 고려사항

Cloud DLP는 데이터 상주를 지원하도록 설계되었습니다. 데이터 상주 요구사항을 준수해야 하는 경우 다음 사항을 고려하세요.

검사 리전

Cloud DLP는 데이터가 저장된 리전과 동일한 리전에서 데이터를 검사합니다. 즉, BigQuery 데이터는 현재 리전을 벗어나지 않습니다.

또한 검사 템플릿은 해당 템플릿과 동일한 리전에 존재하는 데이터를 프로파일링하는 데에만 사용될 수 있습니다. 예를 들어 us-west1 리전에 저장된 검사 템플릿을 사용하도록 데이터 프로파일러를 구성하는 경우 Cloud DLP가 해당 리전의 데이터만 프로파일링할 수 있습니다. 이 리전 외부의 모든 테이블의 경우 오류와 함께 프로파일링이 실패합니다.

여러 리전에 저장된 데이터를 프로파일링하려면 global 리전에 저장된 검사 템플릿을 사용합니다.

다음 표에서는 예시 시나리오를 보여줍니다.

시나리오 지원
us 리전에서 검사 템플릿을 사용하여 us 리전의 데이터를 스캔합니다. 지원됨
us 리전에서 검사 템플릿을 사용하여 global 리전의 데이터를 스캔합니다. 지원되지 않음
global 리전에서 검사 템플릿을 사용하여 us 리전의 데이터를 스캔합니다. 지원됨
us-east1 리전에서 검사 템플릿을 사용하여 us 리전의 데이터를 스캔합니다. 지원되지 않음
us 리전에서 검사 템플릿을 사용하여 us-east1 리전의 데이터를 스캔합니다. 지원되지 않음
asia 리전에서 검사 템플릿을 사용하여 us 리전의 데이터를 스캔합니다. 지원되지 않음

데이터 프로필 구성

Cloud DLP는 데이터 프로필을 만들 때 스캔 구성 및 검사 템플릿의 스냅샷을 만들고 이를 각 테이블 데이터 프로필에 저장합니다. global 리전에서 검사 템플릿을 사용하도록 데이터 프로파일러를 구성하면 Cloud DLP가 이 템플릿을 프로파일링할 데이터가 있는 리전에 복사합니다. 마찬가지로 스캔 구성을 해당 리전에 복사합니다.

다음 예시: 프로젝트 A에 테이블 1 포함을 고려해보세요. 표 1은 us-west1 리전에 있고, 스캔 구성은 us-west2 리전에 있고, 검사 템플릿은 global 리전에 있습니다.

Cloud DLP는 프로젝트 A를 스캔할 때 테이블 1에 대한 데이터 프로필을 만들고 이를 us-west1 리전에 저장합니다. 테이블 1의 테이블 데이터 프로필에는 프로파일링 작업에 사용되는 스캔 구성 및 검사 템플릿의 복사본이 포함됩니다.

이 검사 템플릿을 다른 리전에 복사하지 않으려면 해당 리전의 데이터를 스캔하도록 Cloud DLP를 구성하지 마세요.

데이터 프로필의 Regional Storage

데이터를 검사하고 나면 Cloud DLP가 데이터 프로필을 생성합니다. Cloud DLP는 타겟 데이터가 저장된 리전(검사가 처리되는 위치)과 동일한 리전에 각 데이터 프로필을 저장합니다. 대시보드에서 데이터 프로필을 보려면 먼저 데이터 프로필이 있는 리전을 선택해야 합니다. 여러 리전에 데이터가 있는 경우 각 프로필 집합을 보려면 리전을 전환해야 합니다.

지원되지 않는 리전

Cloud DLP가 지원하지 않는 리전에 테이블이 있는 경우 이러한 테이블을 건너뛰고 데이터 프로필을 볼 때 오류가 표시됩니다.

멀티 리전

Cloud DLP는 멀티 리전을 리전 모음이 아닌 하나의 리전으로 취급합니다. 예를 들어 us 멀티 리전과 us-west1 리전은 데이터 상주와 관련하여 두 개의 개별 리전으로 취급됩니다.

규정 준수

Cloud DLP가 데이터를 처리하고 규정 준수 요구사항을 충족하도록 하는 방법에 대한 자세한 내용은 데이터 보안을 참조하세요.

도움말 및 지원 받기

미리보기 중 의견 및 지원 문의가 있으면 cloud-dlp-feedback@google.com으로 이메일을 보내주세요.

다음 단계