데이터 프로필의 통계를 기반으로 Dataplex의 테이블 태그

이 페이지에서는 Sensitive Data Protection이 테이블을 프로파일링한 후 BigQuery 테이블에 Dataplex 태그를 자동으로 적용하는 방법을 설명합니다. 또한 이 페이지에서는 조직과 프로젝트에서 태그가 지정된 데이터를 찾는 데 사용할 수 있는 쿼리 예시를 제공합니다.

이 기능은 Dataplex에서 수동으로 선별한 메타데이터를 Sensitive Data Protection 데이터 프로필에서 수집한 통계로 보강하려는 경우에 유용합니다. 생성된 태그에는 다음 통계가 포함됩니다.

  • 테이블 열에서 감지된 정보 유형(infoType)
  • 계산된 테이블의 민감도 수준
  • 테이블의 계산된 데이터 위험 수준

Sensitive Data Protection 데이터 프로필의 통계는 Dataplex를 사용하여 조직에서 민감하고 위험성이 높은 데이터를 찾는 데 도움이 될 수 있습니다. 이러한 통계를 사용하여 데이터 관리 및 제어 방법에 대해 정보에 입각한 결정을 내릴 수 있습니다.

데이터 프로파일링 작업이 아닌 검사 작업 결과를 Dataplex로 보내려면 Sensitive Data Protection 검사 결과를 Data Catalog로 전송을 참조하세요.

데이터 프로필 정보

Sensitive Data Protection을 구성하여 조직, 폴더 또는 프로젝트 전체에서 데이터에 대한 프로필을 자동으로 생성할 수 있습니다. 데이터 프로필은 데이터에 대한 측정항목과 메타데이터를 포함하며 민감한 정보와 고위험 데이터를 저장할 위치를 결정하는 데 도움이 됩니다. Sensitive Data Protection은 이러한 측정항목을 다양한 세부 수준에서 보고합니다. 프로파일링할 수 있는 데이터 유형에 대한 자세한 내용은 지원되는 리소스를 참조하세요.

Dataplex 및 Data Catalog 정보

Dataplex는 분산 데이터를 통합하고 해당 데이터의 데이터 관리 및 거버넌스를 자동화하는 Google Cloud 서비스입니다. Data Catalog는 Dataplex 내의 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다.

Data Catalog는 태그태그 템플릿을 사용하여 비즈니스 메타데이터를 데이터에 연결할 수 있습니다. 그런 다음 통합 서비스에서 조직 또는 프로젝트의 모든 메타데이터를 검색하고 관리할 수 있습니다. 자세한 내용은 태그 및 태그 템플릿을 참조하세요.

작동 원리

디스커버리 스캔 구성에 Dataplex를 태그로 전송 작업이 사용 설정된 경우 Sensitive Data Protection은 데이터를 프로파일링할 때마다 다음을 수행합니다. 이 작업은 신규 및 업데이트된 프로필에만 적용됩니다. 업데이트되지 않는 기존 프로필은 Dataplex로 전송되지 않습니다.

  1. BigQuery 테이블에 연결할 태그의 스키마가 포함된 비공개 태그 템플릿을 만듭니다. 태그 템플릿의 이름, ID, 위치에 대한 자세한 내용은 태그 템플릿 세부정보를 참조하세요.

    적절한 역할 및 권한이 있는 주 구성원만 태그 템플릿을 볼 수 있습니다.

  2. 프로파일링할 각 BigQuery 테이블마다 태그를 만듭니다. 태그는 새로 생성된 태그 템플릿을 기반으로 합니다.

    예를 들어 테이블에 연결된 결과 태그에는 다음 메타데이터가 있을 수 있습니다.

    표시 이름
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

다음 두 가지 사항을 통해 프로파일링된 테이블에는 두 개의 태그가 있습니다.

  • 조직 수준 또는 폴더 수준 스캔 구성
  • 프로젝트 수준 스캔 구성

테이블에 태그를 지정한 후에는 특정 태그 값을 사용하여 조직이나 프로젝트의 모든 데이터를 Dataplex에서 검색할 수 있습니다.

태그 템플릿 세부정보

템플릿 이름, 템플릿 ID, 새 태그 템플릿이 저장되는 프로젝트는 스캔 구성이 속한 리소스에 따라 다릅니다.

  • 스캔 구성이 조직 수준 또는 폴더 수준 구성인 경우 태그 템플릿이 서비스 에이전트 컨테이너에 저장됩니다. 태그 템플릿의 이름은 Sensitive Data Profile입니다. 템플릿 ID는 sensitive_data_profile입니다.
  • 스캔 구성이 프로젝트 수준 구성인 경우 태그 템플릿은 프로파일링할 프로젝트에 저장됩니다. 태그 템플릿의 이름은 Sensitive Data Profile (Project)입니다. 템플릿 ID는 sensitive_data_profile_project입니다.

가격 책정

다른 Google Cloud 서비스가 데이터 프로필 내보내기에 대한 요금을 청구하는 방법에 대한 자세한 내용은 데이터 프로필 내보내기 가격 책정을 참조하세요.

데이터 프로필을 기반으로 BigQuery 테이블에 자동으로 태그 지정

  1. 스캔 구성을 만듭니다. 또는 기존 스캔 구성을 수정합니다.

  2. 작업 추가 단계에서 Dataplex에 태그로 전송이 사용 설정되어 있는지 확인합니다.

    • 스캔 구성을 만드는 경우 이 작업은 기본적으로 사용 설정됩니다.
    • 스캔 구성을 수정하는 경우 이 작업을 사용 설정해야 합니다.

데이터가 프로파일링되고 태그가 지정되면 Dataplex에서 태그가 지정된 데이터를 검색할 수 있습니다.

태그 보기 역할 및 권한

Dataplex 검색결과에는 액세스할 수 있는 데이터만 표시됩니다. BigQuery 테이블에 연결된 태그를 검색하려면 다음 Identity and Access Management(IAM) 역할 또는 권한이 필요합니다.

목적 사전 정의된 역할 관련 권한
비공개 태그 템플릿 보기 Data Catalog 태그 템플릿 뷰어(roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
BigQuery 테이블에 적용된 태그 보기 BigQuery 메타데이터 뷰어(roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Dataplex 역할에 대한 자세한 내용은 공개 및 비공개 태그를 볼 수 있는 역할을 참조하세요.

사전 정의된 역할 부여에 대한 자세한 내용은 단일 역할 부여를 참조하세요. 사전 정의된 역할 대신 커스텀 역할을 사용하려면 커스텀 역할에 관련 권한이 있는지 확인합니다. 자세한 내용은 커스텀 역할 만들기를 참조하세요.

생성된 태그 템플릿 찾기

  1. Google Cloud 콘솔에서 Dataplex 태그 템플릿 페이지로 이동합니다.

    태그 템플릿으로 이동

  2. 목록에서 태그 템플릿을 찾습니다. 태그 템플릿의 이름, ID, 위치에 대한 자세한 내용은 태그 템플릿 세부정보를 참조하세요.

  3. 선택사항: 지정된 디스커버리 스캔 구성에서 생성된 태그 템플릿을 찾으려면 필터 필드에 다음을 입력합니다.

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    다음을 바꿉니다.

    • PROJECT_ID: 스캔 구성과 연결된 프로젝트의 ID. 조직 또는 폴더 수준에서 데이터를 프로파일링한 경우 서비스 에이전트 컨테이너의 프로젝트 ID를 입력합니다.
    • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.

지정된 테이블 데이터 프로필에 대해 생성된 태그 찾기

  1. Google Cloud 콘솔에서 Dataplex 검색 페이지로 이동합니다.

    검색 페이지로 이동

  2. 검색 필드에 다음을 입력합니다.

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    다음을 바꿉니다.

    • TABLE_ID: 프로파일링된 테이블의 ID
    • PROJECT_ID: 태그 템플릿이 포함된 프로젝트의 ID 조직 또는 폴더 수준에서 데이터를 프로파일링한 경우 서비스 에이전트 컨테이너의 프로젝트 ID를 입력합니다.
    • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  3. 목록이 표시되면 테이블 ID를 클릭합니다. BigQuery 테이블의 세부정보는 연결된 Sensitive Data Profile 또는 Sensitive Data Profile (Project) 태그와 함께 표시됩니다.

    다음 두 가지 사항을 통해 프로파일링된 테이블에는 두 개의 태그가 있습니다.

    • 조직 수준 또는 폴더 수준 스캔 구성
    • 프로젝트 수준 스캔 구성

Data Catalog API를 통해 검색을 수행하는 방법에 대한 자세한 내용은 데이터 애셋 검색 방법을 참조하세요.

검색어 예시

이 섹션에서는 Dataplex에서 특정 태그 값이 있는 조직 또는 프로젝트의 데이터를 찾는 데 사용할 수 있는 검색어의 예시를 제공합니다.

액세스 권한이 있는 데이터만 찾을 수 있습니다. 데이터 액세스는 IAM 권한을 통해 제어됩니다. 자세한 내용은 이 페이지의 태그를 보기 위한 역할 및 권한을 참조하세요.

Google Cloud 콘솔의 Dataplex 검색 페이지에서 이러한 쿼리를 입력할 수 있습니다.

검색 페이지로 이동

쿼리를 구성하는 방법에 대한 자세한 내용은 Data Catalog 검색 구문을 참조하세요. Data Catalog API를 통해 검색을 수행하는 방법에 대한 자세한 내용은 데이터 애셋 검색 방법을 참조하세요.

새 태그 템플릿을 사용하여 태그가 지정된 모든 테이블 찾기

tag:PROJECT_ID.TAG_TEMPLATE_ID

다음을 바꿉니다.

  • PROJECT_ID: 태그 템플릿이 포함된 프로젝트의 ID 조직 또는 폴더 수준에서 데이터를 프로파일링한 경우 서비스 에이전트 컨테이너의 프로젝트 ID를 입력합니다.
  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.

이 페이지의 성공적인 예시에는 프로젝트 ID가 포함되지 않으므로 다양한 디스커버리 스캔 구성과 관련된 결과가 표시될 수 있습니다. 결과를 특정 스캔 구성으로 제한하려면 이 예시와 같이 프로젝트 ID를 쿼리에 추가하세요.

지정된 날짜 이전에 마지막으로 프로파일링된 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • DATE: YYYY-MM-DD 형식의 날짜(예: 2023-01-15)

지정된 테이블 수준 민감도 점수가 있는 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • SENSITIVITY_SCORE: HIGH, MODERATE, LOW 중 하나

자세한 내용은 데이터 위험 및 민감도 수준을 참조하세요.

특정 데이터 위험 수준의 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • DATA_RISK_LEVEL: HIGH, MODERATE, LOW 중 하나

자세한 내용은 데이터 위험 및 민감도 수준을 참조하세요.

지정된 예측 infoType이 포함된 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • INFOTYPE: infoType(예: PERSON_NAME)

모든 기본 제공 infoType 목록은 InfoType 감지기 참조를 확인하세요.

자세한 내용은 측정항목 참조예측된 infoType을 참조하세요.

지정된 infoType이 부분적으로 포함된 모든 테이블을 찾기

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • INFOTYPE: infoType(예: PERSON_NAME)

모든 기본 제공 infoType 목록은 InfoType 감지기 참조를 확인하세요.

자세한 내용은 측정항목 참조기타 infoType을 참조하세요.

특정 예측 infoType이 있는 특정 열을 포함하는 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • COLUMN_NAME: BigQuery 테이블의 열 이름
  • INFOTYPE: infoType(예: PERSON_NAME)

모든 기본 제공 infoType 목록은 InfoType 감지기 참조를 확인하세요.

자세한 내용은 측정항목 참조예측된 infoType을 참조하세요.

특정 열 수준 민감도 점수가 있는 특정 열이 포함된 모든 테이블 찾기

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

다음을 바꿉니다.

  • TAG_TEMPLATE_ID: 스캔 구성이 조직 또는 폴더에 대한 경우 sensitive_data_profile. sensitive_data_profile_project는 프로젝트에 대한 스캔 구성입니다.
  • COLUMN_NAME: BigQuery 테이블의 열 이름
  • SENSITIVITY_SCORE: HIGH, MODERATE, LOW 중 하나

자세한 내용은 데이터 위험 및 민감도 수준을 참조하세요.