데이터 프로파일링 정보

Dataplex 데이터 프로파일링을 사용하면 BigQuery 테이블에 있는 열의 일반적인 통계 특성을 식별할 수 있습니다. 이 정보는 데이터를 보다 효과적으로 이해하고 분석하는 데 도움이 됩니다.

일반적인 데이터 값, 데이터 분포, null 수와 같은 정보가 분석을 가속화할 수 있습니다. 데이터 분류와 데이터 프로파일링을 결합하면 데이터 클래스나 민감한 정보를 감지할 수 있으며 이를 통해 액세스 제어 정책을 사용 설정할 수 있습니다.

또한 Dataplex는 이 정보를 사용하여 데이터 품질 검사 규칙을 추천합니다.

개념 모델

Dataplex를 사용하면 데이터 프로파일링 스캔을 만들어 데이터 프로필을 더 잘 이해할 수 있습니다.

다음 다이어그램은 Dataplex가 데이터를 스캔하여 통계적 특성을 보고하는 방법을 보여줍니다.

데이터 프로파일링 스캔이 테이블 데이터를 분석하여 통계 특성을 보고합니다.

데이터 프로파일링 스캔은 하나의 BigQuery 테이블과 연결되고 테이블을 스캔하여 데이터 프로파일링 결과를 생성합니다. 데이터 프로파일링 스캔은 여러 구성 옵션을 지원합니다.

구성 옵션

이 섹션에서는 데이터 프로파일링 스캔을 실행하는 데 사용할 수 있는 구성 옵션을 설명합니다.

예약 옵션

API 또는 Google Cloud 콘솔을 통해 정의된 빈도 또는 주문형으로 데이터 프로파일링 스캔을 예약할 수 있습니다.

범위

데이터 프로파일링 스캔 사양의 일부로 작업 범위를 다음 옵션 중 하나로 지정할 수 있습니다.

  • 전체 테이블: 데이터 프로파일링 스캔에서 전체 테이블이 스캔됩니다. 샘플링, 행 필터, 열 필터는 프로파일링 통계를 계산하기 전에 전체 테이블에 적용됩니다.

  • 증분: 지정한 증분 데이터는 데이터 프로필 스캔에서 스캔됩니다. 증분으로 사용할 테이블에서 Date 또는 Timestamp 열을 지정합니다. 일반적으로 이 테이블은 테이블의 파티션을 나눈 열입니다. 샘플링, 행 필터, 열 필터는 프로파일링 통계를 계산하기 전에 증분 데이터에 적용됩니다.

데이터 필터링

행 필터와 열 필터를 사용하여 프로파일링하기 위해 스캔할 데이터를 필터링할 수 있습니다. 필터를 사용하면 실행 시간과 비용을 줄이고 민감하거나 유용하지 않은 데이터를 제외할 수 있습니다.

  • 행 필터: 행 필터를 사용하면 특정 기간 내 또는 리전과 같은 특정 세그먼트의 데이터에 집중할 수 있습니다. 예를 들어 특정 날짜 이전의 타임스탬프를 사용하여 데이터를 필터링할 수 있습니다.

  • 열 필터: 열 필터를 사용하면 데이터 프로파일링 스캔을 실행할 테이블에서 특정 열을 포함하거나 제외할 수 있습니다.

샘플 데이터

Dataplex를 사용하면 데이터 프로파일링 스캔을 실행하기 위해 데이터에서 샘플링할 레코드의 비율을 지정할 수 있습니다. 더 작은 데이터 샘플에 데이터 프로파일링 스캔을 만들면 전체 데이터 세트 쿼리 실행 시간과 비용을 줄일 수 있습니다.

여러 데이터 프로파일링 스캔

Dataplex를 사용하면 Google Cloud 콘솔을 사용하여 한 번에 여러 데이터 프로파일링 스캔을 만들 수 있습니다. 데이터 세트 하나에서 최대 100개의 테이블을 선택하고 각 데이터 세트에 데이터 프로파일링 스캔을 만들 수 있습니다. 자세히 알아보기

BigQuery 테이블로 스캔 결과 내보내기

추가 분석을 위해 데이터 프로파일링 스캔 결과를 BigQuery 테이블로 내보낼 수 있습니다. 보고를 맞춤설정하려면 BigQuery 테이블 데이터를 Looker 대시보드에 연결하면 됩니다. 여러 스캔에서 동일한 결과 테이블을 사용하여 집계 보고서를 빌드할 수 있습니다.

데이터 프로파일링 결과

데이터 프로파일링 결과에는 다음 값이 포함됩니다.

열 유형 데이터 프로파일링 결과
숫자 열
  • null 값의 비율.
  • 대략적인 고윳값(별개의 값)의 백분율입니다.
  • 열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10개 미만일 수 있습니다(null 값은 포함되지 않음). 최빈값 각각에 대해 현재 스캔된 데이터에서 어커런스 백분율도 표시됩니다.
  • 평균, 표준 편차, 최솟값, 근사치 하위 사분위수, 근사치 중앙값, 근사치 상위 사분위수, 최댓값.
문자열 열
  • null 값의 비율.
  • 대략적인 고윳값(별개의 값)의 백분율입니다.
  • 열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10 미만일 수 있습니다.
  • 문자열의 평균 길이, 최소 길이, 최대 길이.
중첩되지 않은 기타 열(날짜, 시간, 타임스탬프, 바이너리 등)
  • null 값의 비율.
  • 대략적인 고윳값(별개의 값)의 백분율입니다.
  • 열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10 미만일 수 있습니다.
다른 모든 중첩 또는 복합 데이터 유형 열(예: 레코드, 배열, JSON) 또는 반복 모드가 사용된 모든 열.
  • null 값의 비율.

모든 실행에서 스캔된 레코드 수가 결과에 포함됩니다.

보고 및 모니터링

다음 보고서 및 메서드를 사용하여 데이터 프로파일링 결과를 모니터링하고 분석할 수 있습니다.

  • BigQuery 및 Data Catalog 페이지에서 소스 테이블과 함께 게시된 보고서

    Google Cloud 콘솔의 BigQuery 및 Data Catalog 페이지에 결과를 게시하도록 데이터 프로파일링 스캔을 구성한 경우 모든 프로젝트의 데이터 프로필 탭에서 해당 페이지의 최신 데이터 프로파일링 스캔 결과를 볼 수 있습니다.

    게시된 보고서

  • Dataplex의 작업별 기록 보고서

    Dataplex 프로필 페이지에서 최신 및 이전 작업에 대한 세부 보고서를 볼 수 있습니다. 여기에는 열 수준 프로필 정보와 사용된 구성이 포함됩니다.

    작업별 기록 보고서

  • 분석 탭

    Dataplex 프로필 페이지에서 분석 탭을 사용하면 여러 프로필 작업에 대한 특정 열 통계의 추세를 볼 수 있습니다. 예를 들어 증분 스캔이 있으면 시간 경과에 따른 값의 평균 추세를 확인할 수 있습니다.

    분석 탭

  • 자체 대시보드 또는 분석 빌드

    결과를 BigQuery 테이블로 내보내거나 저장하도록 데이터 프로파일링 스캔을 구성한 경우 Looker Studio와 같은 도구를 사용하여 자체 대시보드를 빌드할 수 있습니다.

제한사항

  • 데이터 프로파일링 결과는 Data Catalog에 태그로 게시되지 않습니다.
  • 데이터 프로파일링은 BIGNUMERIC을 제외한 모든 열 유형의 BigQuery 테이블에 지원됩니다. BIGNUMERIC 열이 있는 테이블에 대한 스캔을 만들면 검증 오류가 발생하고 생성에 실패합니다.
  • 스캔할 BigQuery 테이블의 열 수는 300개 이하여야 합니다.

가격 책정

  • Dataplex는 프리미엄 처리 SKU를 사용하여 데이터 프로파일링 비용을 청구합니다. 자세한 내용은 가격 책정을 참조하세요.

  • Data Catalog에 데이터 프로파일링 결과를 게시하는 기능은 아직 사용할 수 없습니다. 기능 제공 시점에는 카탈로그 메타데이터 스토리지 가격 책정과 동일한 요금이 청구될 예정입니다. 자세한 내용은 가격 책정을 참조하세요.

  • 데이터 프로파일링을 위한 Dataplex 프리미엄 처리 요금은 초 단위로 청구되며 최소 시간은 1분입니다.

  • 실패한 프로파일링 스캔에는 요금이 청구되지 않습니다.

  • 요금은 행 수, 열 수, 스캔되는 데이터 양, 테이블의 파티션 나누기 및 클러스터링 설정, 스캔 빈도에 따라 달라집니다.

  • 데이터 프로파일링 스캔 비용을 줄일 수 있는 다음과 같은 몇 가지 옵션이 있습니다.

    • 샘플링
    • 증분 스캔
    • 열 필터링
    • 행 필터링
  • Cloud Billing 보고서에서 데이터 프로파일링 요금을 Dataplex 프리미엄 처리 SKU의 다른 요금으로부터 구분하려면 goog-dataplex-workload-type 라벨에 DATA_PROFILE 값을 사용합니다.

  • 집계 요금을 필터링하려면 다음 라벨을 사용합니다.

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

다음 단계