데이터 품질 태스크 개요

Dataplex 데이터 품질 태스크를 통해 BigQuery 및 Cloud Storage의 테이블 간에 데이터 품질 검사를 정의하고 실행할 수 있습니다. Dataplex 데이터 품질 태스크를 사용하면 BigQuery 환경에서 정기적인 데이터 제어를 적용할 수 있습니다.

Dataplex 데이터 품질 태스크를 만들어야 하는 경우

Dataplex 데이터 품질 태스크는 다음에서 도움이 될 수 있습니다.

  • 데이터 프로덕션 파이프라인의 일부로 데이터를 검증합니다.
  • 기대치에 비례하여 데이터 세트 품질을 정기적으로 모니터링합니다.
  • 규제 요건을 충족하는 데이터 품질 보고서를 작성합니다.

이점

  • 맞춤설정 가능한 사양. 유연성이 높은 YAML 구문을 사용해서 데이터 품질 규칙을 선언할 수 있습니다.
  • 서버리스 구현. Dataplex는 인프라 설정이 필요하지 않습니다.
  • 제로 카피 및 자동 푸시다운. YAML 검사는 SQL로 변환되고 BigQuery로 푸시되므로, 데이터 복사가 수행되지 않습니다.
  • 예약 가능한 데이터 품질 검사. Dataplex의 서버리스 스케줄러를 통해 데이터 품질 검사를 예약하거나 파이프라인 통합을 위한 Cloud Composer와 같은 외부 스케줄러를 통해 Dataplex API를 사용할 수 있습니다.
  • 관리된 환경. Dataplex는 오픈소스 데이터 품질 엔진인 CloudDQ를 사용해서 데이터 품질 검사를 실행합니다. 하지만 Dataplex는 데이터 품질 검사를 수행하기 위한 효율적인 관리형 환경을 제공합니다.

작동 방식

다음은 Dataplex 데이터 품질 태스크의 작동 방식을 보여주는 다이어그램입니다.

이미지

  • 사용자 입력
    • YAML 사양: 사양 구문을 기반으로 데이터 품질 규칙을 정의하는 하나 이상의 YAML 파일 집합입니다. 사용자는 프로젝트의 Cloud Storage 버킷에 YAML 파일을 저장합니다. 사용자가 여러 규칙을 동시에 실행할 수 있으며, 이러한 규칙은 서로 다른 데이터 세트 간의 테이블 또는 Google Cloud 프로젝트를 포함하여 여러 다른 BigQuery 테이블에 적용될 수 있습니다. 이 사양은 새 데이터 검증에 대해서만 증분 실행을 지원합니다. YAML 사양을 만들려면 사양 파일 만들기를 참조하세요.
    • BigQuery 결과 테이블: 데이터 품질 검증 결과가 저장된 사용자 지정 테이블입니다. 이 테이블이 있는 Google Cloud 프로젝트는 Dataplex 데이터 품질 태스크가 사용되는 것과 다른 프로젝트일 수 있습니다.
  • 검증할 테이블
    • YAML 사양 내에서는 규칙 바인딩으로도 알려진 특정 규칙에 대해 검증을 수행할 특정 테이블을 지정해야 합니다. 테이블은 BigQuery 고유 테이블 또는 Cloud Storage에 있는 BigQuery 외부 테이블일 수 있습니다. YAML 사양을 사용하면 Dataplex 영역 내부 또는 외부에서 테이블을 지정할 수 있습니다.
    • 단일 실행으로 검증되는 BigQuery 및 Cloud Storage 테이블은 여러 다른 프로젝트에 포함될 수 있습니다.
  • Dataplex 데이터 품질 태스크 Dataplex 데이터 품질 태스크는 사전 빌드되고 유지보수되는 CloudDQ PySpark 바이너리로 구성되며 YAML 사양 및 BigQuery 결과 테이블을 입력으로 사용합니다. 다른 Dataplex 태스크와 마찬가지로 Dataplex 데이터 품질 태스크는 서버리스 Spark 환경에서 실행되고, YAML 사양을 BigQuery 쿼리로 변환한 후 사양 파일에서 정의된 테이블 이러한 쿼리를 실행합니다.

비용

Dataplex 데이터 품질 태스크를 실행하면 BigQuery 및 Dataproc 서버리스(일괄) 사용 요금이 청구됩니다.

  • Dataplex 데이터 품질 태스크는 사양 파일을 BigQuery 쿼리로 변환하고 사용자 프로젝트에서 실행합니다. BigQuery 가격 책정을 참조하세요.

  • Dataplex는 Spark를 사용하여 사용자 사양을 BigQuery 쿼리로 변환하기 위해 Google이 관리하는 사전 빌드된 오픈소스 CloudDQ 드라이버 프로그램을 실행합니다. Dataproc 서버리스 가격 책정을 참조하세요.

Dataplex를 사용해서 데이터를 구성하거나 Dataplex에서 서버리스 스케줄러를 사용하여 데이터 품질 검사를 예약하는 데에는 요금이 부과되지 않습니다. Dataplex 가격 책정을 참조하세요.

다음 단계